Microsoft Unveils VALL-E, Audio AI That Can Simulate Any Voice From 3-Second Prompts
Microsoft शोधकर्ताओं ने हाल ही में VALL-E की घोषणा की, एक नया टेक्स्ट-टू-स्पीच AI मॉडल है जो तीन-सेकंड ऑडियो सैंपल दिए जाने पर किसी व्यक्ति की आवाज़ की सटीक नकल कर सकता है। एक बार यह उस विशिष्ट आवाज को सीख लेता है, तो VALL-E वक्ता के भावनात्मक स्वर को बनाए रखने की कोशिश करते हुए व्यक्ति जो कुछ भी कहता है उसका ऑडियो संश्लेषित कर सकता है। GPT-3 जैसे अन्य जनरेटिव AI मॉडल के साथ संयुक्त होने पर, VALL-E के निर्माता मानते हैं कि इसका उपयोग उच्च-गुणवत्ता वाले टेक्स्ट-टू-स्पीच एप्लिकेशन, स्पीच एडिटिंग के लिए किया जा सकता है, जिसमें किसी व्यक्ति की रिकॉर्डिंग को संपादित और परिवर्तित किया जा सकता है। एक पाठ प्रतिलेख। .
इसलिए माइक्रोसॉफ्टVALL-E है में मुख्य एक “तंत्रिका कोडेक भाषा मॉडल,” और एनकोडेक पर आधारित है, जो मेटा अक्टूबर 2022 में प्रकाशित हुआ। VALL-E टेक्स्ट और ध्वनिक संकेतों से अलग ऑडियो कोडेक कोड उत्पन्न करता है, अन्य टेक्स्ट-टू-स्पीच विधियों के विपरीत, जो आमतौर पर तरंगों में हेरफेर करके भाषण को संश्लेषित करता है। यह प्रक्रिया करता है कि किसी व्यक्ति की आवाज कैसी लगती है, संबंधित डेटा को असतत घटकों (जिसे “टोकन” कहा जाता है) में एक कोडेक का उपयोग करके तोड़ता है, और फिर प्रशिक्षण डेटा का उपयोग यह मिलान करने के लिए करता है कि यह “जानता है” कि वह आवाज कैसी लग सकती है यदि वह अन्य बोलती है वाक्यांश। एक तीन सेकंड का नमूना।
Microsoft ने मेटा की लिब्रिलाइट ऑडियो लाइब्रेरी का उपयोग करके VALL-E की स्पीच सिंथेसिस कार्यक्षमता को प्रशिक्षित किया। इसमें 7,000 से अधिक वक्ताओं से 60,000 घंटे का अंग्रेजी भाषा का भाषण शामिल है, जो मुख्य रूप से लिब्रीवॉक्स पब्लिक डोमेन ऑडियोबुक से लिया गया है। अच्छे परिणाम देने के लिए VALL-E के लिए तीन सेकंड के नमूने में शोर सीखने के एल्गोरिदम में शोर के समान होना चाहिए।
अमेरिकी प्रौद्योगिकी दिग्गज एआई मॉडल के दर्जनों ऑडियो उदाहरण पेश करती है VALL-E उदाहरण वेबसाइट. “स्पीकर प्रॉम्प्ट” डेटा सेट VALL-E को दिया गया तीन सेकंड का ऑडियो है जिसे इसे अनुकरण करने का प्रयास करना चाहिए। एक “जमीनी सच्चाई” उसी स्पीकर का पहले से रिकॉर्ड किया गया संस्करण है जो तुलनात्मक उद्देश्यों के लिए एक विशेष वाक्यांश कह रहा है (जैसे प्रयोग में “नियंत्रण”)। “बेसलाइन” नमूना एक पारंपरिक टेक्स्ट-टू-स्पीच सिंथेसिस विधि द्वारा उत्पन्न होता है, और “VALL-E” नमूना VALL-E मॉडल द्वारा उत्पन्न होता है।
VALL-E का एक ब्लॉक आरेख जैसा कि Microsoft शोधकर्ताओं द्वारा एक उदाहरण वेबसाइट में दिखाया गया है
फोटो क्रेडिट: माइक्रोसॉफ्ट
शोधकर्ताओं ने वे परिणाम प्राप्त करने के लिए VALL-E में “स्पीकर प्रॉम्प्ट” का केवल तीन सेकंड का नमूना और एक टेक्स्ट स्ट्रिंग (जो वे ज़ोर से कहना चाहते थे) डाला। कुछ VALL-E परिणाम कंप्यूटर जनित प्रतीत होते हैं, लेकिन अन्य को मानव भाषण के लिए गलत माना जा सकता है, जो कि मॉडल का लक्ष्य है। भ्रष्टाचार और धोखाधड़ी को बढ़ावा देने की VALL-E की क्षमता के कारण, Microsoft VALL-E कोड को दूसरों के अन्वेषण के लिए उपलब्ध नहीं कराता है। ऐसा लगता है कि शोधकर्ताओं को इस तकनीक के संभावित सामाजिक नुकसान के बारे में पता है।
वे पेपर के निष्कर्ष में लिखते हैं: “चूंकि VALL-E भाषण को संश्लेषित कर सकता है जो वक्ता की पहचान को संरक्षित करता है, यह मॉडल के दुरुपयोग के संभावित जोखिम उठा सकता है, जैसे स्पूफिंग आवाजों की पहचान करना या किसी विशिष्ट वक्ता का प्रतिरूपण करना। ऐसे जोखिमों को कम करने के लिए, यह संभव है। के माध्यम से VALL-E एक ऑडियो क्लिप को संश्लेषित किया गया था या नहीं, यह पहचानने के लिए एक पहचान मॉडल बनाने के लिए। हम मॉडल विकसित करते समय Microsoft AI सिद्धांतों का भी पालन करेंगे।”
गैजेट्स 360 पर यहां कंज्यूमर इलेक्ट्रॉनिक्स शो से नवीनतम देखें सीईएस 2023 केंद्र
दिन का विशेष रुप से प्रदर्शित वीडियो
[Sponsored] फैबर कैंडी – शानदार डिजाइन, अविश्वसनीय प्रदर्शन