كشفت Microsoft النقاب عن VALL-E ، صوت AI يمكنه محاكاة أي صوت من موجهات مدتها 3 ثوانٍ

أعلن باحثو Microsoft مؤخرًا عن VALL-E ، وهو نموذج ذكاء اصطناعي جديد لتحويل النص إلى كلام يمكنه محاكاة صوت الشخص بدقة عند إعطائه عينة صوتية مدتها ثلاث ثوانٍ. بمجرد أن يتعلم صوتًا معينًا ، يمكن لـ VALL-E توليف صوت ذلك الشخص الذي يقول أي شيء – مع محاولة الاحتفاظ بنبرة المتحدث العاطفية. عند دمجها مع نماذج الذكاء الاصطناعي التوليدية الأخرى مثل GPT-3 ، يعتقد منشئو VALL-E أنه يمكن استخدامها لتطبيقات تحويل النص إلى كلام عالية الجودة ، وتحرير الكلام حيث يمكن تحرير تسجيل شخص ما وتغييره من نسخة نصية (جعلهم يقولون شيئًا لم يقلوه في الواقع) ، وإنشاء محتوى صوتي.

وفقًا لمايكروسوفت ، فإن VALL-E هو بالدرجة الأولى “نموذج لغة الترميز العصبية” ، ويستند إلى EnCodec ، الذي كشفت عنه Meta في أكتوبر 2022. ينشئ VALL-E رموز ترميز صوتية منفصلة من النصوص والمطالبات الصوتية ، على عكس طرق تحويل النص إلى كلام الأخرى التي عادةً ما تقوم بتركيب الكلام بواسطة التلاعب بأشكال الموجة. يعالج كيف يبدو الشخص ، ويقسم البيانات ذات الصلة إلى مكونات منفصلة (يشار إليها باسم “الرموز”) باستخدام EnCodec ، ثم يستخدم بيانات التدريب لمطابقة ما “يعرفه” حول كيف يمكن أن يبدو هذا الصوت إذا تحدث عبارات أخرى خارج عينة الثلاث ثوان.

دربت Microsoft وظائف تركيب الكلام في VALL-E باستخدام مكتبة الصوت Meta LibriLight. يتضمن 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث ، مصدرها الأساسي كتب صوتية ذات ملكية عامة من LibriVox. يجب أن يشبه الصوت في عينة الثلاث ثوان صوتًا في خوارزمية التعلم لـ VALL-E للحصول على نتيجة جيدة.

يقدم عملاق التكنولوجيا الأمريكي العشرات من الأمثلة الصوتية لنموذج الذكاء الاصطناعي أثناء العمل على مثال لموقع VALL-E. مجموعة بيانات “Speaker Prompt” هي صوت مدته ثلاث ثوان يتم منحه لـ VALL-E والذي يجب أن يحاول محاكاته. “الحقيقة الأرضية” هي نسخة مسجلة مسبقًا من نفس المتحدث يقول عبارة محددة لأغراض المقارنة (نوعًا ما يشبه “التحكم” في التجربة). يتم إنشاء عينة “خط الأساس” من خلال طريقة تخليق النص إلى كلام التقليدية ، ويتم إنشاء نموذج “VALL-E” بواسطة نموذج VALL-E.

مخطط كتلة Microsoft VALL E Microsoft VALL-E Microsoft

رسم تخطيطي لـ VALL-E كما هو موضح في مثال موقع الويب بواسطة باحثي Microsoft
مصدر الصورة: مايكروسوفت

قدم الباحثون عينة من “Speaker Prompt” التي تبلغ مدتها ثلاث ثوانٍ وسلسلة نصية (ما يريدون أن يقوله الصوت) في VALL-E للحصول على هذه النتائج. تظهر بعض نتائج VALL-E ناتجة عن الكمبيوتر ، لكن البعض الآخر قد يُساء فهمه بسبب كلام الإنسان ، وهذا هو هدف النموذج. نظرًا لقدرة VALL-E على تأجيج المخالفات والخداع ، لم تجعل Microsoft رمز VALL-E متاحًا للآخرين لاستكشافه. يبدو أن الباحثين على دراية بالضرر الاجتماعي المحتمل الذي قد تسببه هذه التكنولوجيا.

يكتبون في استنتاج الورقة البحثية: “نظرًا لأن VALL-E يمكنه توليف الكلام الذي يحافظ على هوية المتحدث ، فقد ينطوي على مخاطر محتملة في إساءة استخدام النموذج ، مثل انتحال التعرف على الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر ، من الممكن لبناء نموذج اكتشاف للتمييز بين ما إذا تم تصنيع مقطع صوتي بواسطة VALL-E. سنضع أيضًا مبادئ Microsoft AI موضع التنفيذ عند تطوير النماذج بشكل أكبر. “


قد يتم إنشاء روابط الشركات التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

احصل على آخر المستجدات من معرض الإلكترونيات الاستهلاكية على Gadgets 360 ، في مركز CES 2023 الخاص بنا.

يُرجح أن يكون Poco C55 هو Redmi 12C الذي أعيد تسميته ، ومن المتوقع إطلاقه قريبًا

فيديو مميز اليوم

Disney + Hotstar يناير 2023: The Last of Us و Taaza Khabar والمزيد!

رابط المصدر