شاركت شركة Google DeepMind التطورات الجديدة التي تم إحرازها في مجال الروبوتات ونماذج لغة الرؤية (VLMs) يوم الخميس. كان قسم أبحاث الذكاء الاصطناعي (AI) التابع لشركة التكنولوجيا العملاقة يعمل مع نماذج الرؤية المتقدمة لتطوير قدرات جديدة في الروبوتات. في دراسة جديدة، أبرزت DeepMind أن استخدام Gemini 1.5 Pro ونافذة السياق الطويلة الخاصة به قد مكّن القسم الآن من تحقيق اختراقات في الملاحة وفهم العالم الحقيقي لروبوتاتها. في وقت سابق من هذا العام، كشفت Nvidia أيضًا عن تقنية الذكاء الاصطناعي الجديدة التي تدعم القدرات المتقدمة في الروبوتات الشبيهة بالبشر.
تستخدم Google DeepMind الذكاء الاصطناعي Gemini لتحسين الروبوتات
في بريد في X (المعروف سابقًا باسم Twitter)، كشفت شركة Google DeepMind أنها كانت تدرب روبوتاتها باستخدام نافذة سياق 2 مليون رمز في Gemini 1.5 Pro. يمكن فهم نوافذ السياق على أنها نافذة المعرفة المرئية لنموذج الذكاء الاصطناعي، والتي يستخدمها لمعالجة المعلومات غير المباشرة حول الموضوع المطلوب.
على سبيل المثال، إذا سأل مستخدم نموذج الذكاء الاصطناعي عن “أكثر نكهات الآيس كريم شعبية”، فسيتحقق نموذج الذكاء الاصطناعي من الكلمة الرئيسية “آيس كريم” و”نكهات” للعثور على معلومات حول هذا السؤال. إذا كانت نافذة المعلومات هذه صغيرة جدًا، فلن يتمكن الذكاء الاصطناعي إلا من الاستجابة بأسماء نكهات الآيس كريم المختلفة. ومع ذلك، إذا كانت أكبر، فسيكون الذكاء الاصطناعي قادرًا أيضًا على رؤية عدد المقالات حول كل نكهة آيس كريم للعثور على أكثرها ذكرًا واستنتاج “عامل الشعبية”.
تستغل شركة DeepMind هذه النافذة السياقية الطويلة لتدريب روبوتاتها في بيئات العالم الحقيقي. ويهدف القسم إلى معرفة ما إذا كان الروبوت قادرًا على تذكر تفاصيل البيئة ومساعدة المستخدمين عند سؤالهم عن البيئة بمصطلحات سياقية أو غامضة. وفي مقطع فيديو تمت مشاركته على Instagram، أظهر قسم الذكاء الاصطناعي أن الروبوت كان قادرًا على توجيه المستخدم إلى السبورة البيضاء عندما طلب منها مكانًا يمكنه الرسم فيه.
صرحت شركة Google DeepMind في منشور لها: “بفضل طول السياق الذي يبلغ مليون رمز في 1.5 Pro، يمكن لروبوتاتنا استخدام التعليمات البشرية وجولات الفيديو والمنطق السليم للعثور على طريقها بنجاح في مكان ما”.
في يذاكر نُشرت مقالة في arXiv (مجلة إلكترونية غير خاضعة لمراجعة الأقران)، شرحت فيها DeepMind التكنولوجيا وراء هذا الاختراق. بالإضافة إلى Gemini، فهي أيضًا استخدام نموذج المحول الآلي 2 (RT-2) الخاص به. وهو نموذج رؤية ولغة وفعل (VLA) يتعلم من بيانات الويب والروبوتات. ويستخدم الرؤية الحاسوبية لمعالجة البيئات الواقعية واستخدام هذه المعلومات لإنشاء مجموعات بيانات. ويمكن معالجة مجموعة البيانات هذه لاحقًا بواسطة الذكاء الاصطناعي التوليدي لتحليل الأوامر السياقية وإنتاج النتائج المرجوة.
في الوقت الحاضر، تستخدم شركة جوجل ديب مايند هذه البنية لتدريب الروبوتات على فئة واسعة تُعرف باسم الملاحة التعليمية المتعددة الوسائط (MIN) والتي تتضمن استكشاف البيئة والملاحة الموجهة بالتعليمات. وإذا كان العرض التوضيحي الذي قدمته الشركة مشروعًا، فقد تساعد هذه التكنولوجيا في تطوير الروبوتات بشكل أكبر.