technology

Microsoft Unveils VALL-E, Audio AI That Can Simulate Any Voice From 3-Second Prompts

Microsoft शोधकर्ताओं ने हाल ही में VALL-E की घोषणा की, एक नया टेक्स्ट-टू-स्पीच AI मॉडल है जो तीन-सेकंड ऑडियो सैंपल दिए जाने पर किसी व्यक्ति की आवाज़ की सटीक नकल कर सकता है। एक बार यह उस विशिष्ट आवाज को सीख लेता है, तो VALL-E वक्ता के भावनात्मक स्वर को बनाए रखने की कोशिश करते हुए व्यक्ति जो कुछ भी कहता है उसका ऑडियो संश्लेषित कर सकता है। GPT-3 जैसे अन्य जनरेटिव AI मॉडल के साथ संयुक्त होने पर, VALL-E के निर्माता मानते हैं कि इसका उपयोग उच्च-गुणवत्ता वाले टेक्स्ट-टू-स्पीच एप्लिकेशन, स्पीच एडिटिंग के लिए किया जा सकता है, जिसमें किसी व्यक्ति की रिकॉर्डिंग को संपादित और परिवर्तित किया जा सकता है। एक पाठ प्रतिलेख। .

इसलिए माइक्रोसॉफ्टVALL-E है में मुख्य एक “तंत्रिका कोडेक भाषा मॉडल,” और एनकोडेक पर आधारित है, जो मेटा अक्टूबर 2022 में प्रकाशित हुआ। VALL-E टेक्स्ट और ध्वनिक संकेतों से अलग ऑडियो कोडेक कोड उत्पन्न करता है, अन्य टेक्स्ट-टू-स्पीच विधियों के विपरीत, जो आमतौर पर तरंगों में हेरफेर करके भाषण को संश्लेषित करता है। यह प्रक्रिया करता है कि किसी व्यक्ति की आवाज कैसी लगती है, संबंधित डेटा को असतत घटकों (जिसे “टोकन” कहा जाता है) में एक कोडेक का उपयोग करके तोड़ता है, और फिर प्रशिक्षण डेटा का उपयोग यह मिलान करने के लिए करता है कि यह “जानता है” कि वह आवाज कैसी लग सकती है यदि वह अन्य बोलती है वाक्यांश। एक तीन सेकंड का नमूना।

Microsoft ने मेटा की लिब्रिलाइट ऑडियो लाइब्रेरी का उपयोग करके VALL-E की स्पीच सिंथेसिस कार्यक्षमता को प्रशिक्षित किया। इसमें 7,000 से अधिक वक्ताओं से 60,000 घंटे का अंग्रेजी भाषा का भाषण शामिल है, जो मुख्य रूप से लिब्रीवॉक्स पब्लिक डोमेन ऑडियोबुक से लिया गया है। अच्छे परिणाम देने के लिए VALL-E के लिए तीन सेकंड के नमूने में शोर सीखने के एल्गोरिदम में शोर के समान होना चाहिए।

अमेरिकी प्रौद्योगिकी दिग्गज एआई मॉडल के दर्जनों ऑडियो उदाहरण पेश करती है VALL-E उदाहरण वेबसाइट. “स्पीकर प्रॉम्प्ट” डेटा सेट VALL-E को दिया गया तीन सेकंड का ऑडियो है जिसे इसे अनुकरण करने का प्रयास करना चाहिए। एक “जमीनी सच्चाई” उसी स्पीकर का पहले से रिकॉर्ड किया गया संस्करण है जो तुलनात्मक उद्देश्यों के लिए एक विशेष वाक्यांश कह रहा है (जैसे प्रयोग में “नियंत्रण”)। “बेसलाइन” नमूना एक पारंपरिक टेक्स्ट-टू-स्पीच सिंथेसिस विधि द्वारा उत्पन्न होता है, और “VALL-E” नमूना VALL-E मॉडल द्वारा उत्पन्न होता है।

VALL-E का एक ब्लॉक आरेख जैसा कि Microsoft शोधकर्ताओं द्वारा एक उदाहरण वेबसाइट में दिखाया गया है
फोटो क्रेडिट: माइक्रोसॉफ्ट

शोधकर्ताओं ने वे परिणाम प्राप्त करने के लिए VALL-E में “स्पीकर प्रॉम्प्ट” का केवल तीन सेकंड का नमूना और एक टेक्स्ट स्ट्रिंग (जो वे ज़ोर से कहना चाहते थे) डाला। कुछ VALL-E परिणाम कंप्यूटर जनित प्रतीत होते हैं, लेकिन अन्य को मानव भाषण के लिए गलत माना जा सकता है, जो कि मॉडल का लक्ष्य है। भ्रष्टाचार और धोखाधड़ी को बढ़ावा देने की VALL-E की क्षमता के कारण, Microsoft VALL-E कोड को दूसरों के अन्वेषण के लिए उपलब्ध नहीं कराता है। ऐसा लगता है कि शोधकर्ताओं को इस तकनीक के संभावित सामाजिक नुकसान के बारे में पता है।

वे पेपर के निष्कर्ष में लिखते हैं: “चूंकि VALL-E भाषण को संश्लेषित कर सकता है जो वक्ता की पहचान को संरक्षित करता है, यह मॉडल के दुरुपयोग के संभावित जोखिम उठा सकता है, जैसे स्पूफिंग आवाजों की पहचान करना या किसी विशिष्ट वक्ता का प्रतिरूपण करना। ऐसे जोखिमों को कम करने के लिए, यह संभव है। के माध्यम से VALL-E एक ऑडियो क्लिप को संश्लेषित किया गया था या नहीं, यह पहचानने के लिए एक पहचान मॉडल बनाने के लिए। हम मॉडल विकसित करते समय Microsoft AI सिद्धांतों का भी पालन करेंगे।”


संबद्ध लिंक स्वचालित रूप से उत्पन्न हो सकते हैं – हमारा देखें नैतिक कथन ब्योरा हेतु।

गैजेट्स 360 पर यहां कंज्यूमर इलेक्ट्रॉनिक्स शो से नवीनतम देखें सीईएस 2023 केंद्र


Poco C55 को Redmi 12C का रीब्रांडेड वर्जन बताया जा रहा है, जिसके जल्द ही लॉन्च होने की उम्मीद है

दिन का विशेष रुप से प्रदर्शित वीडियो

[Sponsored] फैबर कैंडी – शानदार डिजाइन, अविश्वसनीय प्रदर्शन

Back to top button

Adblock Detected

Ad Blocker Detect please deactivate ad blocker