تم الكشف عن Meta Voicebox كنموذج AI Generative AI Generative: كافة التفاصيل

أعلنت Meta عن Voicebox ، أداة الذكاء الاصطناعي المتقدمة (AI) التي يمكنها توليد الكلام من النص الأسبوع الماضي. يُزعم أن أحدث أداة بواسطة Meta الأم على Facebook تنتج مقاطع صوتية عالية الجودة وتحرير الصوت المسجل مسبقًا مع الحفاظ على المحتوى وأسلوب الصوت. يقال أنه متعدد اللغات ويُزعم أنه يلقي الكلام بست لغات. يمكن استخدام نموذج التعلم الآلي لإزالة الضوضاء أيضًا. يمتلك Meta Voicebox أيضًا القدرة على استبدال الكلمات المنطوقة بشكل خاطئ دون الحاجة إلى إعادة تسجيل خطاب كامل. يعمل النموذج التوليدي الجديد لتحويل النص إلى كلام مثل ابتكارات الذكاء الاصطناعي الجديدة بما في ذلك ChatGPT و Dall-E.

شركة ميتا الأم لفيسبوك كشف Voicebox عبر منشور مدونة الأسبوع الماضي. يمكن لهذا النموذج التوليدي الجديد للذكاء الاصطناعي أداء مهام إنشاء الكلام – مثل التحرير وأخذ العينات والتصميم. يُزعم أنه يقدم مقاطع صوتية من عينة صوتية مدتها ثانيتان وتحرير الصوت المسجل مسبقًا مع الحفاظ على محتوى الصوت وأسلوبه.

يعد نموذج تحويل النص إلى كلام بأداء مهام مثل إزالة الضوضاء وتحرير المحتوى وتحويل النمط وتوليد عينات متنوعة. يُذكر تعديل أي جزء من عينة معينة وإعادة إنشاء جزء من الكلام الذي تقاطعه ضوضاء مثل أبواق السيارات أو نباح الكلاب. يمكن أيضًا استخدام نموذج AI لاستبدال الكلمات المنطوقة بشكل خاطئ دون الحاجة إلى إعادة تسجيل خطاب كامل.

يمكن لـ Voicebox تجميع الكلام عبر ست لغات – الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية. يمكنه إنشاء قراءة للنص بأي من هذه اللغات ، حتى عندما يكون نموذج الكلام والنص بلغتين مختلفتين.

ادعى Voicebox أنه يتفوق على VALL-E من Microsoft ويولد عينات صوتية أسرع 20 مرة. “تُظهر نتائجنا أن نماذج التعرف على الكلام المُدرَّبة على الكلام الاصطناعي الذي تم إنشاؤه بواسطة Voicebox تعمل تقريبًا بنفس أداء النماذج المُدرَّبة على الكلام الحقيقي ، مع انخفاض في معدل الخطأ بنسبة 1 بالمائة مقابل تدهور بنسبة 45 إلى 70 بالمائة مع الكلام الاصطناعي من تحويل النص إلى كلام السابق النماذج “، Meta AI بالتفصيل في a ورقة ابحاث. علاوة على ذلك ، يتم سرد بعض العينات الصوتية لإظهار عمل Voicebox للمستخدمين.

في المدونة ، تدعي Meta أيضًا أن Voicebox يمكن أن يولد كلامًا أكثر تمثيلاً لكيفية تحدث الناس في العالم الحقيقي باللغات الست المذكورة أعلاه. تعتقد الشركة أنه يمكن استخدام هذه الإمكانية لتوليد بيانات تركيبية للمساعدة في تدريب نموذج مساعد الكلام بشكل أفضل في المستقبل القريب.

Voicebox قيد التطوير حاليًا وغير متاح للمستخدمين العموميين. تقول Meta إنها تدرك أن هذه التكنولوجيا تجلب احتمالية إساءة الاستخدام والضرر غير المقصود مثل ابتكارات الذكاء الاصطناعي الحالية. يقال إنه يعمل على مصنف فعال يمكنه التمييز بين الكلام الحقيقي والصوت الذي يتم إنشاؤه باستخدام Voicebox للتخفيف من هذه المخاطر المستقبلية المحتملة.


كشفت Apple النقاب عن أول سماعة رأس للواقع المختلط ، Apple Vision Pro ، في مؤتمرها السنوي للمطورين ، إلى جانب طرازات Mac الجديدة وتحديثات البرامج القادمة. نناقش جميع الإعلانات الأكثر أهمية التي أصدرتها الشركة في WWDC 2023 على Orbital ، بودكاست Gadgets 360. Orbital متاح في سبوتيفيو جاناو JioSaavnو جوجل بودكاستو آبل بودكاستو موسيقى أمازون وحيثما تحصل على البودكاست الخاص بك.
قد يتم إنشاء روابط الشركات التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

رابط المصدر