كشفت Microsoft النقاب عن VALL-E ، صوت AI يمكنه محاكاة أي صوت من موجهات مدتها 3 ثوانٍ

أعلن باحثو Microsoft مؤخرًا عن VALL-E ، وهو نموذج ذكاء اصطناعي جديد لتحويل النص إلى كلام يمكنه محاكاة صوت الشخص بدقة عند إعطائه عينة صوتية مدتها ثلاث ثوانٍ. بمجرد أن يتعلم صوتًا معينًا ، يمكن لـ VALL-E توليف صوت ذلك الشخص الذي يقول أي شيء – مع محاولة الاحتفاظ بنبرة المتحدث العاطفية. عند دمجها مع نماذج الذكاء الاصطناعي التوليدية الأخرى مثل GPT-3 ، يعتقد منشئو VALL-E أنه يمكن استخدامها لتطبيقات تحويل النص إلى كلام عالية الجودة ، وتحرير الكلام حيث يمكن تحرير تسجيل شخص ما وتغييره من نسخة نصية (جعلهم يقولون شيئًا لم يقلوه في الواقع) ، وإنشاء محتوى صوتي.

وفقًا لمايكروسوفت ، فإن VALL-E هو بالدرجة الأولى “نموذج لغة الترميز العصبية” ، ويستند إلى EnCodec ، الذي كشفت عنه Meta في أكتوبر 2022. ينشئ VALL-E رموز ترميز صوتية منفصلة من النصوص والمطالبات الصوتية ، على عكس طرق تحويل النص إلى كلام الأخرى التي عادةً ما تقوم بتركيب الكلام بواسطة التلاعب بأشكال الموجة. يعالج كيف يبدو الشخص ، ويقسم البيانات ذات الصلة إلى مكونات منفصلة (يشار إليها باسم “الرموز”) باستخدام EnCodec ، ثم يستخدم بيانات التدريب لمطابقة ما “يعرفه” حول كيف يمكن أن يبدو هذا الصوت إذا تحدث عبارات أخرى خارج عينة الثلاث ثوان.

دربت Microsoft وظائف تركيب الكلام في VALL-E باستخدام مكتبة الصوت Meta LibriLight. يتضمن 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث ، مصدرها الأساسي كتب صوتية ذات ملكية عامة من LibriVox. يجب أن يشبه الصوت في عينة الثلاث ثوان صوتًا في خوارزمية التعلم لـ VALL-E للحصول على نتيجة جيدة.

يقدم عملاق التكنولوجيا الأمريكي العشرات من الأمثلة الصوتية لنموذج الذكاء الاصطناعي أثناء العمل على مثال لموقع VALL-E. مجموعة بيانات “Speaker Prompt” هي صوت مدته ثلاث ثوان يتم منحه لـ VALL-E والذي يجب أن يحاول محاكاته. “الحقيقة الأرضية” هي نسخة مسجلة مسبقًا من نفس المتحدث يقول عبارة محددة لأغراض المقارنة (نوعًا ما يشبه “التحكم” في التجربة). يتم إنشاء عينة “خط الأساس” من خلال طريقة تخليق النص إلى كلام التقليدية ، ويتم إنشاء نموذج “VALL-E” بواسطة نموذج VALL-E.

رسم تخطيطي لـ VALL-E كما هو موضح في مثال موقع الويب بواسطة باحثي Microsoft
مصدر الصورة: مايكروسوفت

قدم الباحثون عينة من “Speaker Prompt” التي تبلغ مدتها ثلاث ثوانٍ وسلسلة نصية (ما يريدون أن يقوله الصوت) في VALL-E للحصول على هذه النتائج. تظهر بعض نتائج VALL-E ناتجة عن الكمبيوتر ، لكن البعض الآخر قد يُساء فهمه بسبب كلام الإنسان ، وهذا هو هدف النموذج. نظرًا لقدرة VALL-E على تأجيج المخالفات والخداع ، لم تجعل Microsoft رمز VALL-E متاحًا للآخرين لاستكشافه. يبدو أن الباحثين على دراية بالضرر الاجتماعي المحتمل الذي قد تسببه هذه التكنولوجيا.

يكتبون في استنتاج الورقة البحثية: “نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد ينطوي على مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر ، من الممكن لبناء نموذج اكتشاف للتمييز بين ما إذا تم تصنيع مقطع صوتي بواسطة VALL-E. سنضع أيضًا مبادئ Microsoft AI موضع التنفيذ عند تطوير النماذج بشكل أكبر. “

قد يتم إنشاء روابط الشركات التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

احصل على آخر المستجدات من معرض الإلكترونيات الاستهلاكية على Gadgets 360 ، في مركز CES 2023 الخاص بنا.

يُرجح أن يكون Poco C55 هو Redmi 12C الذي أعيد تسميته ، ومن المتوقع إطلاقه قريبًا

فيديو مميز اليوم

Disney + Hotstar يناير 2023: The Last of Us و Taaza Khabar والمزيد!

رابط المصدر

Yoga Benefits: Stunning Reasons You’ll Love This Practice

Home Workouts: Stunning Techniques for Effortless Results

Digital Transformation: Proven Strategies for Effortless Success

Smart Home Devices: The Ultimate Must-Have Upgrades

Wearable Technology: Discover the Best Game-Changers Now

Sustainable Business Models You Must Embrace for Success

Cryptocurrencies Revolutionize Global Finance for Success

Personal Finance Tips for Effortless Wealth Building Secrets

كشفت Microsoft النقاب عن VALL-E ، صوت AI يمكنه محاكاة أي صوت من موجهات مدتها 3 ثوانٍ

تم تحديد تاريخ إطلاق سلسلة Nubia Red Magic 8 Pro في 16 ديسمبر ؛ قد تحتوي على بطارية 6000 مللي أمبير: التفاصيل

الحقيقة حول طعام القطط وصحة المسالك البولية والمكملات الغذائية

مسابقة أسبوع المباراة 15: اختبر معلوماتك

فرص الأعمال لاتفاقية التنوع البيولوجي

كيف يمكن لآلة حاسبة التأثير الاجتماعي للشيخوخة أن تساعد مجتمعك

أكد مان يونايتد أن راشفورد سيغيب عن المباريات بسبب الإصابة

فنادق باريس – قمة الرفاهية والراحة

أهمية حافظة النمذجة

تم إطلاق طراز Infinix Note 30 Pro ذو الإصدار المحدود للاحتفال بالتعاون مع مركز تسلا للعلوم

تصميم Tecno Phantom X2 ، المواصفات مقلوبة ، قد تحصل على شاشة 120 هرتز ، كاميرات خلفية ثلاثية