يقدم Hugging Face نموذج لغة الرؤية SmolVLM مفتوح المصدر الذي يركز على الكفاءة

قدمت Hugging Face، منصة الذكاء الاصطناعي (AI) والتعلم الآلي (ML)، نموذجًا جديدًا للذكاء الاصطناعي يركز على الرؤية الأسبوع الماضي. يُطلق عليه اسم SmolVLM (حيث VLM هو اختصار لنموذج لغة الرؤية)، وهو نموذج صغير الحجم يركز على الكفاءة. تدعي الشركة أنه نظرًا لصغر حجمها وكفاءتها العالية، يمكن أن تكون مفيدة للمؤسسات وعشاق الذكاء الاصطناعي الذين يريدون قدرات الذكاء الاصطناعي دون استثمار الكثير في بنيتها التحتية. قامت Hugging Face أيضًا بفتح مصدر نموذج رؤية SmolVLM بموجب ترخيص Apache 2.0 للاستخدام الشخصي والتجاري.

معانقة الوجه يقدم SmolVLM

في أ مشاركة مدونة، قام Hugging Face بتفصيل نموذج الرؤية الجديد مفتوح المصدر. ووصفت الشركة نموذج الذكاء الاصطناعي بأنه “متطور” لاستخدامه الفعال للذاكرة والاستدلال السريع. ومن خلال تسليط الضوء على فائدة نموذج الرؤية الصغيرة، لاحظت الشركة الاتجاه الأخير لشركات الذكاء الاصطناعي لتقليص النماذج لجعلها أكثر كفاءة وفعالية من حيث التكلفة.

معانقة الوجه النظام البيئي svm النظام البيئي نموذج الرؤية الصغيرة

النظام البيئي لنموذج الرؤية الصغيرة
مصدر الصورة: معانقة الوجه

تحتوي عائلة SmolVLM على ثلاثة نماذج مختلفة للذكاء الاصطناعي، كل منها يحتوي على ملياري معلمة. الأول هو SmolVLM-Base، وهو النموذج القياسي. بصرف النظر عن هذا، فإن SmolVLM-Synthetic هو البديل الدقيق الذي تم تدريبه على البيانات الاصطناعية (البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي أو الكمبيوتر)، وSmolVLM Instruct هو متغير التعليمات الذي يمكن استخدامه لبناء تطبيقات تتمحور حول المستخدم النهائي.

فيما يتعلق بالتفاصيل الفنية، يمكن أن يعمل نموذج الرؤية مع 5.02 جيجابايت فقط من ذاكرة الوصول العشوائي GPU، وهو أقل بكثير من متطلبات Qwen2-VL 2B التي تبلغ 13.7 جيجابايت من ذاكرة الوصول العشوائي GPU وInternVL2 2B 10.52 جيجابايت من ذاكرة الوصول العشوائي GPU. ونتيجة لهذا، تدعي Hugging Face أن نموذج الذكاء الاصطناعي يمكن تشغيله على الجهاز على جهاز كمبيوتر محمول.

يمكن لـ SmolVLM قبول سلسلة من النصوص والصور بأي ترتيب وتحليلها لإنشاء ردود على استعلامات المستخدم. يقوم بتشفير تصحيحات الصور بدقة 384 × 384 بكسل إلى 81 رمزًا مميزًا للبيانات المرئية. ادعت الشركة أن هذا يمكّن الذكاء الاصطناعي من تشفير مطالبات الاختبار وصورة واحدة في 1200 رمز، مقابل 16000 رمز يتطلبها Qwen2-VL.

ومن خلال هذه المواصفات، تسلط Hugging Face الضوء على إمكانية استخدام SmolVLM بسهولة من قبل المؤسسات الصغيرة وعشاق الذكاء الاصطناعي ونشرها على الأنظمة المحلية دون الحاجة إلى ترقية كبيرة لمجموعة التكنولوجيا. ستتمكن المؤسسات أيضًا من تشغيل نموذج الذكاء الاصطناعي للاستدلالات المستندة إلى النصوص والصور دون تكبد تكاليف كبيرة.

للحصول على أحدث الأخبار والمراجعات التقنية، تابع Gadgets 360 على X, فيسبوك, واتساب, المواضيع و أخبار جوجل. للحصول على أحدث مقاطع الفيديو حول الأدوات والتكنولوجيا، اشترك في قناتنا قناة يوتيوب. إذا كنت تريد معرفة كل شيء عن كبار الشخصيات المؤثرة، تابع موقعنا Who’sThat360 على انستغرام و يوتيوب.

من المتوقع أن يصبح Vivo X200 و Vivo X200 Pro رسميًا في الهند في الأسبوع الثاني من ديسمبر؛ تاريخ البيع تسربت


تحرك مجموعة البريكس لإدخال منصة الأصول الرقمية للحد من الدولرة يثير انتقادات من ترامب

رابط المصدر