قدم باحثو نفيديا نموذجًا جديدًا للذكاء الاصطناعي (AI) يوم الاثنين يمكنه نقل الكائنات في الصورة. يمكن للأداة، التي يطلق عليها اسم DiffUHaul، فهم سياق الصورة مكانيًا لنقل كائن من مكان إلى آخر دون التأثير على الخلفية أو شكل الصورة. الجانب الفريد لهذه التقنية هو أنها خالية من التدريب، مما يعني أنه لم يتم استخدام بيانات التدريب المسبق لبناء هذه الأداة. وعرضت الشركة التكنولوجيا الجديدة في مؤتمر مجموعة الاهتمامات الخاصة برسومات الكمبيوتر والتقنيات التفاعلية (SIGGRAPH) في آسيا 2024.
في بحث ورققام باحثو Nvidia بتفصيل أداة الذكاء الاصطناعي الجديدة. وتم تطوير هذه التكنولوجيا بالتعاون مع الجامعة العبرية في القدس، وجامعة تل أبيب، وجامعة رايخمان. باستخدام الأداة الجديدة، يهدف الباحثون إلى حل مشكلة بارزة تتعلق بنماذج توليد الصور بالذكاء الاصطناعي، وهي مشكلة نقل الكائنات في الصورة مع الوعي المكاني.
تسلط الورقة الضوء على أن مهمة التحرير هذه ظلت بمثابة عنق الزجاجة لعلماء الذكاء الاصطناعي بسبب افتقار نماذج الذكاء الاصطناعي إلى التفكير المكاني. يمكن للنماذج المرئية الحالية فهم سياق الصورة، ولكنها غير قادرة على تحريك الكائنات لأنها لا تفهم كيف يمكن إدراك الحركة في بيئة ثنائية الأبعاد مكانيًا.
مع DiffUHaul، تدعي Nvidia أنه يمكن حل هذه المشكلة. استنادًا إلى بنية نشر الصورة، تستخدم الأداة إخفاء الانتباه في خطوة تقليل الضوضاء. يتم ذلك للحفاظ على مظهر الكائن عالي المستوى. تستخدم أداة الذكاء الاصطناعي BlobGEN، وهي تقنية جديدة تدمج الفهم المكاني في أداة الذكاء الاصطناعي. علاوة على ذلك، تم استخدام تقنيات جديدة لإعادة بناء الصور الحقيقية بالنموذج الموضعي في المكان المخصص.
في الواجهة الأمامية، سيتمكن المستخدمون من كتابة مطالبة نصية لتسليط الضوء على الكائن الذي يريدون تغييره ويمكن للذكاء الاصطناعي إعادة ضبط الكائن مكانيًا أثناء ضبط الخلفية وفقًا لذلك. وفي العروض التوضيحية التي قدمتها الشركة، لم يكن من الممكن تحديد ما إذا كانت أداة تحرير الذكاء الاصطناعي يمكنها فهم تغييرات الشكل التي تأتي مع الحركة المكانية. على سبيل المثال، إذا تم نقل بالون محمول بالهواء إلى الأرض، فإن شكله يتغير أيضًا. ومع ذلك، قد لا يتمكن الذكاء الاصطناعي من التقاط ذلك بسبب نقص التدريب.