أطلقت شركة جوجل يوم الأربعاء الماضي على نحو مفاجئ نموذجها الأحدث والأكثر تطورًا للذكاء الاصطناعي (Gemini)، وذلك بعد تردد أنباء كثيرة عن نية الشركة تأجيل إطلاقه إلى العام المقبل، وأكدت جوجل أنه نجح في التفوق على نموذج (GPT3.5) من شركة (OpenAI) بجدارة، وينافس بقوة النموذج الأحدث (GPT-4).
فما نموذج Gemini، وكيف يمكنك الوصول إليه، وكيف يختلف عن نماذج الذكاء الاصطناعي الأخرى مثل: GPT-4؟.. إليك كل ما تحتاج إلى معرفته عن هذا النموذج الجديد:
أولًا؛ ما نموذج جوجل Gemini؟
Gemini هو أحدث وأقوى نموذج ذكاء اصطناعي طورته جوجل، لا يمكنه فهم النصوص فحسب، بل يفهم الصور ومقاطع الفيديو والصوت أيضًا. وباعتباره نموذجًا متعدد الوسائط، يُوصف (Gemini) بأنه قادر على إكمال المهام المعقدة في الرياضيات والفيزياء ومجالات أخرى، بالإضافة إلى فهم التعليمات البرمجية العالية الجودة وإنشائها بلغات برمجة مختلفة.
وذكرت جوجل في منشور على مدونتها الرسمية أنها صممت نموذج (Gemini) ليكون متعدد الوسائط ليتفوق على نماذج الذكاء الاصطناعي الحالية التي تتعامل عادةً مع نوع واحد فقط من مطالبات المستخدم، مثل الصور أو النصوص حصريًا. وهذا يعني أنه يمكنه التعامل مع أنواع متعددة من المدخلات التي تشمل: النصوص والصور والصوت ومقاطع الفيديو، والأكواد البرمجية بلغات مختلفة.
يكمن الهدف من تطوير نموذج (Gemini) في إنشاء نوع من الذكاء الاصطناعي يمكنه حل المشكلات بدقة وتقديم النصائح والإجابة عن الأسئلة في مختلف المجالات، بدءًا من المجالات العادية وحتى المجالات العلمية.
وتقول جوجل إن هذا سيشكّل بداية حقبة جديدة في مجال الحوسبة، وتعمل على إدماجه في كافة منتجاتها، بدءًا من تطبيقاتها الموجهة للشركات والمستخدمين، وحتى هواتفها (Google Pixel) التي تعمل بنظام التشغيل أندرويد.
يقول (ديميس هاسابيس) Demis Hassabis؛ الرئيس التنفيذي والمؤسس المشارك في شركة Google DeepMind: “إن Gemini هو نتيجة لجهود تعاونية واسعة النطاق بذلتها فرق جوجل كلها، بما يشمل: زملاءنا في (Google Research). لقد صُمم (Gemini) من الألف إلى الياء ليكون متعدد الوسائط، مما يعني أنه يمكنه تعرّف أنواع مختلفة من المعلومات وفهمها والتعامل معها بسلاسة بما يشمل: النصوص والتعليمات البرمجية والصوت والصور ومقاطع الفيديو”.
ثانيًا؛ كيف طورت جوجل هذا النموذج؟
تصف جوجل نموذج (Gemini) بأنه نموذج مرن قادر على العمل في كل شيء بدءًا من مراكز بيانات جوجل، وحتى الهواتف الذكية. ولتحقيق قابلية التوسع هذه، قدمته الشركة في ثلاثة إصدارات متفاوتة الإمكانيات، وهي: Nano وPro وUltra.
تتنوع الإمكانيات التي تقدمها جوجل في إصدارات (Gemini) الثلاثة، فإصدار (Ultra) يُعد أكبر تلك الإصدارات وأكثرها كفاءةً، وهو مصمم للمهام المعقدة، يليه إصدار (Pro) الذي صُمم ليعمل في مراكز بيانات جوجل لتشغيل أحدث إصدار من روبوت الدردشة بارد (Bard)، ثم إصدار (Nano) وهو الإصدار الأخف والأقل من حيث الإمكانيات، الذي صُمم للعمل في الهواتف الذكية.
1- نموذج (Gemini Nano):
صُمم نموذج (Gemini Nano) للعمل في الهواتف الذكية، وستكون هواتف (Google Pixel 8) أولى هواتف الشركة التي تعمل بهذا النموذج الجديد، لأداء المهام التي تتطلب معالجة سريعة للذكاء الاصطناعي في الهاتف نفسه دون الحاجة إلى الاتصال بخوادم خارجية، مثل: اقتراح الردود داخل تطبيقات الدردشة أو تلخيص النصوص.
يعتمد نموذج (Gemini Nano) في عمله على شريحة معالج (Tensor G3)، وهو أحدث معالج قدمته جوجل، وسيدعم النموذج تشغيل العديد من المزايا التي أطلقتها جوجل في هواتف بكسل خلال أكتوبر الماضي، مثل: مزية (Summarize in Recorder) التي تساعد في تلخيص المقاطع الصوتية المسجلة عبر تطبيق Recorder، ومزية إنشاء الردود الذكية عند استخدام تطبيق لوحة مفاتيح جوجل Gboard، الذي يمكن استخدامه في تطبيقات الدردشة، والبداية هذا العام ستكون بتطبيق واتساب، على أن تصل تلك المزية إلى المزيد من تطبيقات التراسل بحلول العام المقبل 2024.
الجدير بالذكر أن اعتماد هذا النموذج على وحدة المعالجة العصبية المتوفرة في معالج (Tensor G3)؛ سيساعد في الحفاظ على معلومات مستخدمي هواتف بكسل، إذ ستُعالج بياناتهم محليًا في هواتفهم، دون ترك أي معلومات في خوادم جوجل، إلى جانب ضمان سرعة أداء مزايا الذكاء الاصطناعي، والاستمتاع بها دون الحاجة إلى الاتصال بشبكة الإنترنت.
وبحلول عام 2024، سيحصل مساعد جوجل الذكي (Google Assistant) على قدرات روبوت (Bard) الفائقة، وسيقتصر ذلك على هواتف جوجل بكسل فقط.
2- نموذج (Gemini Pro):
صممت جوجل نموذج (Gemini Pro) ليعمل في مراكز بياناتها، لتشغيل أحدث إصدار من روبوت بارد (Bard) الخاص بالشركة، لدعمه بعدد من الإمكانيات المتطورة في التعامل مع تحليل النصوص وإنشائها، وكتابة الأكواد البرمجية والتخطيط، بالإضافة إلى التعامل مع أشكال المدخلات المختلفة من نصوص وصور ومقاطع فيديو ومقاطع صوتية في الوقت نفسه.
وذكرت جوجل في مدونتها الرسمية، أن نموذج (Gemini Pro) سيساعد روبوت (بارد) في البداية على معالجة المطالبات النصية بسرعة؛ لأن النموذج سيصل إلى (بارد) على مرحلتين، المرحلة الأولى ستبدأ بوصول نسخة معدلة خصوصًا من (Gemini Pro) باللغة الإنجليزية في 170 دولة حول العالم، على أن يصل التحديث إلى المزيد من الدول، ويتسع الدعم ليشمل عددًا أكبر من اللغات الطبيعية خلال المدة المقبلة.
بينما ستكون المرحلة الثانية في مطلع العام المقبل عندما تطلق جوجل (Bard Advanced)، وهو الإصدار الأكثر تطورًا من بارد، وسيعتمد هذا الإصدار في البداية على نموذج (Gemini Ultra) الأكثر تقدمًا بين إصدارات (Gemini) الثلاث.
استطاع نموذج (Gemini Pro) التفوق على نموذج (GPT3.5) في 6 اختبارات من أصل 8 اختبارات أجرتها جوجل قبل الكشف عن نموذجها الجديد، ومن بينها التفوق في اختبار MMLU، وهو واحد من المعايير الرائدة الرئيسية لقياس قدرة نماذج الذكاء الاصطناعي اللغوية الكبيرة على إنجاز العديد من المهام المعتمدة على تحليل النصوص في وقت واحد، بالإضافة إلى ذلك تفوق النموذج في معيار (GSM8K) الخاص بقدرة النماذج الذكية على التعامل مع المعادلات الحسابية، وذلك بحسب أبحاث أجراها فريق (Google Mind) لأبحاث الذكاء الاصطناعي قبل إطلاق النموذج.
3- نموذج (Gemini Ultra):
يُعد (Gemini Ultra) هو النموذج الأكثر تطورًا من حيث قدراته على إنجاز المهام المعقدة، حيث أكدت جوجل أنه نجح في التفوق في 30 معيارًا من أصل 32 معيارًا من معايير كفاءة النماذج اللغوية الكبيرة (LLM)، التي تعتمد عليها الأوساط الأكاديمية في عمليات البحث والتطوير.
كما يُعد (Gemini Ultra) النموذج الأول الذي تفوق على الخبراء البشريين بنسبة تبلغ 90% في معيار (MMLU)، الذي يستخدم مجموعة من 57 موضوعًا معرفيًا معقدًا متنوعة بين الرياضيات والفيزياء والتاريخ والقانون والطب على مستوى المعرفة العامة بالمعلومات وكذلك القدرة على حل المشكلات.
وقالت جوجل إن التركيز على معيار MMLU في تدريب (Gemini Ultra) مكّنه من استخدام قدراته المنطقية للتفكير بعناية كبرى قبل الإجابة عن الأسئلة الصعبة، مما حسّن مهاراته في الإجابة عن الأسئلة بمعلومات دقيقة، تبتعد عن فكرة تقديم إجابات قائمة على الانطباع الأول عن الأسئلة المطروحة.
كما سلطت جوجل الضوء على قدرات النموذج الفائق الإمكانيات في التعامل مع المدخلات المختلفة، إذ نجح النموذج في تعرّف محتوى الصور، بما يشمل النصوص الموجودة عليها دون الاستعانة بإمكانيات أنظمة التعرف الضوئي للحروف (OCR)، وذلك يتخطى إمكانيات معظم النماذج الذكية الحديثة مثل GPT-4V من شركة (OpenAI)، كما تفوق الإصدار في التعامل مع العمليات الحسابية من حيث حلها أو معرفة مدى صحة الإجابات من خلال تحليل صور لها.
وفيما يتعلق بالتعامل مع مقاطع الفيديو أثبتت نتائج اختبارات جوجل أن نموذج (Gemini Ultra) تمكن من تقديم أداء مميز على مستوى إنتاج نصوص للكلام المنطوق في مقاطع الفيديو باللغة الإنجليزية، والإجابة عن التساؤلات المطروحة حول محتوى فيديو معين.
وفي البرمجة؛ تمكن النموذج الجديد من فهم التعليمات البرمجية العالية الجودة وشرحها وإنشائها بأكثر لغات البرمجة شيوعًا في العالم، مثل Python وJava و++C وGo.
وقالت جوجل إن قدرته على العمل عبر اللغات البرمجية المختلفة والتفكير في المعلومات المعقدة تجعله واحدًا من النماذج الأساسية الرائدة في البرمجة عالميًا. وقد أثبتت اختبارات جوجل تفوق نموذج (Gemini Ultra) في العديد من معايير البرمجة ومنها: (HumanEval)، وهو معيار صناعي مهم لتقييم الأداء في مهام البرمجة.
قبل عامين قدّمت جوجل (AlphaCode)، أول نظام يستخدم الذكاء الاصطناعي لتوليد الأكواد البرمجية، وقد وصل إلى مستوى تنافسي من الأداء في مسابقات البرمجة. وقد أعلنت يوم الأربعاء أنها استخدمت إصدارًا متخصصًا من (Gemini) في إنشاء الجيل الثاني من هذا النظام وهو (AlphaCode 2) الأكثر تقدمًا لتوليد التعليمات البرمجية، إذ يتفوق في حل مشكلات البرمجة التنافسية التي تتجاوز إنشاء الأكواد البرمجية لتشمل الرياضيات المعقدة وعلوم الحاسوب النظرية.
ثالثًا؛ كيف يمكنك تجربة هذا النموذج الجديد؟
يتوفر نموذج (Gemini) الآن في عدد من منتجات جوجل، إذ يتوفر إصدار (Nano) في هواتف جوجل (Pixel 8)، ويتوفر إصدار (Pro) في روبوت (Bard) في 170 دولة حول العالم، وتخطط جوجل لإدماج Gemini في خدمات البحث والإعلانات ومتصفح كروم وغيرها من منتجاتها خلال المدة المقبلة.
كما سيتمكن المطورون وعملاء المؤسسات من الوصول إلى نموذج (Gemini Pro) عبر Gemini API في Google AI Studio و Google Cloud Vertex AI بدءًا من يوم 13 من ديسمبر 2023. سيتمكن مطورو نظام أندرويد من الوصول إلى نموذج (Gemini Nano) عبر خدمة (Android AICore) التي ستتوفر في نظام أندرويد 14، والتي ستكون متاحة على أساس المعاينة الأولية.