كشفت شركة الذكاء الاصطناعي الناشئة xAI عن نموذج الذكاء الاصطناعي التوليدي المتعدد الوسائط Grok-1.5 Vision.
ويستطيع هذا النموذج الجديد فهم النص، إلى جانب إمكانية معالجة الأشياء التي تظهر في المستندات والرسوم البيانية والمخططات ولقطات الشاشة والصور الفوتوغرافية.
وتخطط الشركة المملوكة للملياردير إيلون ماسك لتوفير Grok-1.5 Vision، أو Grok-1.5V قريبًا للمختبرين الأوائل ومستخدمي Grok الحاليين.
وقالت الشركة في تدوينة: “يستطيع Grok-1.5 Vision منافسة نماذج الوسائط المتعددة الحالية في عدد من المجالات، بدءًا من التفكير المتعدد التخصصات إلى فهم المستندات والرسوم البيانية العلمية والرسوم البيانية ولقطات الشاشة والصور الفوتوغرافية”.
ويأتي الكشف عن النموذج المتعدد الوسائط Grok-1.5 Vision بعد أسابيع من كشف xAI عن نموذج روبوت الدردشة بالذكاء الاصطناعي المحدث Grok-1.5.
وتسلط الشركة الضوء على عدة أمثلة تعرض إمكانات Grok-1.5 Vision، بدءًا من تحويل رسم تخطيطي لمخطط انسيابي إلى تعليمات برمجية بلغة البرمجة بايثون Python، وإنشاء قصة ما قبل النوم من رسم طفل، وتحويل جدول إلى تنسيق ملف بتنسيق CSV.
وفي الاختبار مع النماذج المتعددة الوسائط GPT-4V و Claude 3Sonnet و Claude 3 Opus و Gemini Pro 1.5، تدعي xAI أن نموذجها المتعدد الوسائط متميز.
وتفتخر الشركة بتفوق Grok-1.5 Vision على منافسيه في معيار RealWorldQA، وهو مقياس جديد أنشأته لتقييم الفهم المكاني في العالم الحقيقي.
ودربت xAI معيار RealWorldQA باستخدام أكثر من 700 صورة بالإضافة إلى سؤال وجواب لكل عنصر.
وتنوعت الصور من صور مجهولة المصدر مأخوذة من المركبات إلى عينات أخرى من العالم الحقيقي. وتصدر xAI معيار RealWorldQA للجمهور بموجب ترخيص Creative Commons.
وتواصل شركة الذكاء الاصطناعي الناشئة تحقيق التقدم، إذ تعمل على مواكبة OpenAI ورواد السوق الآخرين منذ ظهور روبوتها للدردشة أول مرة في شهر نوفمبر 2023.
ويأتي Grok-1.5 Vision بعد أقل من شهر من فتح مصدر Grok، مع أن جهودها لم تكن خالية من الجدل.
وفي وقت سابق من هذا الشهر، كشف الباحثون عن أن روبوت الدردشة Grok يمكنه توجيه المستخدمين بخصوص الأنشطة الإجرامية.
وتمضي XAI قدمًا في سعيها إلى بناء الذكاء الاصطناعي العام المفيد القادر على فهم الكون.