روبوتات «غوغل» مدعومة بنظم «النماذج اللغوية للذكاء الاصطناعي».
وقف روبوتٌ بذراع واحدة أمام طاولة عليها ثلاثة مجسّمات بلاستيكية لأسدٍ، وحوت، وديناصور… أعطى مهندسٌ الروبوت الأمر التّالي: «احمل الحيوان المنقرض»… أصدر الروبوت صوت طنينٍ للحظات ومن ثمّ امتدّت ذراعه وفتح مخلبه وانخفض والتقط الديناصور.
روبوتات أذكى
كان هذا العرض، الذي حضرته خلال مقابلة أجريتها لمدوّنتي الصوتية، في قسم الروبوتيات التابع لشركة «غوغل» في «ماونتن فيو»، كاليفورنيا، حتّى وقتٍ ليس ببعيد مستحيلاً لأنّ الروبوتات لم تكن قادرة على التعامل بثقةٍ مع أشياء لم ترها من قبل، ولم تكن بالتأكيد قادرة على التفكير المتقدّم الذي يتيح لها الربط بين «حيوان منقرض» و«ديناصور بلاستيكي».
تقترب صناعة الروبوتيات من ثورةٍ حقيقية تعتمد على أحدث التطوّرات في ما يُسمّى «النماذج اللغوية الكبيرة» – نوع الذكاء الاصطناعي نفسه الذي يدعم روبوتات المحادثة مثل «تشات جي بي تي» و«بارد».
بدأت «غوغل» أخيراً في تزويد روبوتاتها بنماذج لغوية على قدرٍ فريدٍ من التطوّر، لتمنحها ما يعادل الأدمغة الاصطناعية. ساهم هذا المشروع السرّي في «إذكاء» هذه الروبوتات ومنحها قوىً جديدة للفهم وحلّ المسائل.
خلال الاستعراض الذي حضرته لأحدث النماذج الروبوتية من «غوغل»، كُشف النقاب عن الروبوت «RT-2»، الذي يرقى إلى خطوةٍ أولى نحو ما وصفه تنفيذيّو الشركة بقفزة نوعية في طريقة بناء وبرمجة الروبوتات.
في هذا الإطار، قال فنسنت فانوكيه، رئيس قسم الروبوتيات في مختبر «ديب مايند» التّابع لـ«غوغل»: «كان علينا أن نعيد التفكير في كامل برنامجنا البحثي نتيجة هذا التغيير، إذ خسرت تصاميم كثيرة كنا نعمل عليها من قبل، جدواها».
اختراق واعد
من جهته، عد كين غولدبرغ، أستاذ الروبوتيات في جامعة كاليفورنيا، بيركلي، أنّ الروبوتات لا تزال بعيدةً عن مستوى الذكاء البشري وتفشل في بعض المهام الأساسية، ولكنّ استخدام «غوغل» لنماذج الذكاء الاصطناعي اللغوية لمنح الروبوتات مهارات جديدة في المنطق والارتجال، يمثّل اختراقاً واعداً.
وأضاف أنّ «المثير حقاً للإعجاب هو ربط الدلالات اللفظية بالروبوتات. هذا الأمر حماسيّ جداً بالنسبة لعالم الروبوتيات».
ولكن لفهم مدى أهميّة هذا التطوّر، لا بدّ من تقديم بعض المعلومات عن الطريقة التقليدية التي اتُّبعت لتطوير الروبوتات.
اعتمد المهندسون في «غوغل» وغيرها من الشركات لسنوات طويلة على تدريب الروبوتات لأداء مهام حركية – كقلب شطيرة برغر مثلاً – عبر برمجتها باستخدام لائحة تعليمات محدّدة. بعدها، تعمد الروبوتات إلى تكرار المهمّة عدّة مرّات بينما يعمل المهندسون على تعديل التعليمات لتصبح صحيحة.
نجحت هذه المقاربة في بعض الاستخدامات المحدودة، إلّا أنّ تدريب الروبوتات بهذه الطريقة بطيء ومجهد لأنّه يتطلّب جمع الكثير من البيانات من اختبارات في العالم الحقيقي. وإذا أردتم تدريب الروبوت على أداء مهمّة جديدة، كقلب فطيرة بدل شطيرة برغر، سيكون عليكم إعادة برمجته من الصفر.
ساهمت هذه القيود نوعاً ما في تأخّر تقدّم الروبوتات التي تعتمد على الهياكل الآلية مقارنةً بنظيراتها التي تعتمد على البرمجيات. فقد عمد مختبر «أوبن إي آي»، مطوّر روبوت «تشات جي بي تي»، إلى حلّ فريقه للروبوتات في 2021، عازياً الأمر إلى بطء التقدّم وقلّة بيانات التدريب العالية الجودة. وفي 2017، باعت شركة «ألفابت»، الشركة الأم لـ«غوغل»، فرعها «بوسطن ديناميكس» المتخصص بالروبوتات.
ولكنّ فكرة تبادرت إلى أذهان مهندسي «غوغل» في السنوات الأخيرة: ماذا إذا استخدمنا نماذج الذكاء الاصطناعي اللغوية المدرّبة على مجموعة واسعة من نصوص الإنترنت لحثّ الروبوتات على اكتساب مهارات جديدة بدل برمجتها للقيام بمهمّة واحدة في كلّ مرّة؟
«الرؤية والفعل»
كشفت كارول هوسمان، عالمة بحثية من «غوغل»، أنّهم «بدأوا باستكشاف هذه النماذج اللغوية قبل عامين، ثمّ بدأوا في تأسيس اتصال بينها وبين الروبوتات».
بدأت «غوغل» جهودها في الجمع بين الروبوتات والنماذج اللغوية في مشروع «بالم – ساي كان» الذي أعلنت عنه العام الماضي. جذب المشروع بعض الاهتمام ولكنّ فعّاليته كانت محدودة، حيث افتقرت الروبوتات فيه إلى القدرة على تحليل الصور – مهارة أساسية لا بدّ أن تتمتّع بها إذا ما أردناها أن تجوب العالم. نجحت هذه الروبوتات في وضع تعليمات مفصّلة ومنظّمة لأداء مهام مختلفة، ولكنّها لم تستطِع تحويل هذه التعليمات إلى أفعال.
أمّا روبوت «غوغل» الجديد، «RT-2»، فيستطيع القيام بذلك، ولهذا السبب سمته الشركة نموذج «الرؤية-اللغة-الفعل»، أو نظام ذكاء اصطناعي قادرٍ لا على رؤية وتحليل العالم من حوله، فحسب، بل أيضاً على تلقين الروبوت كيف يتحرّك.
يقوم النموذج بهذا الأمر من خلال ترجمة حركات الروبوت إلى سلسلة من الأرقام – في عملية تُسمّى الترميز – وإدراج هذه الرموز في بيانات التدريب نفسها المستخدمة في النموذج اللغوي. في النهاية، وكما يتعلّم «بارد» أو «تشات جي بي تي» تكهّن الكلمات التالية في قصيدة أو موضوع تاريخي، يستطيع «RT-2» تكهّن كيف يجب أن تتحرّك ذراع الروبوت لالتقاط كرة أو رمي عبوة في سلّة المهملات.
«بمعنى آخر، يستطيع هذا النموذج تعلّم كيف يتحدّث بلغة الروبوتات،» على حدّ تعبير هوسمان.
وفي الاستعراض الذي دام لساعة، شاهدتُ وشريكي في المدوّنة كيف يؤدّي «RT-2» عدداً من المهام المثيرة للإعجاب. وكانت إحدى هذه المهام الناجحة تنفيذ التعليمات المعقّدة التالية: «انقل الفولكسفاغن إلى العلم الألماني»، والتي نجح الروبوت بتنفيذها من خلال العثور على نموذج لحافلة «فولكسفاغن» وتمزيقه ومن ثمّ تثبيته على علم ألماني مصغّر على بعد أمتارٍ قليلة.
وأثبت الروبوت أيضاً قدرةً على اتباع تعليمات بلغات غير الإنجليزية، وحتّى إيجاد علاقات نظرية بين مبادئ ذات صلة. وعندما أردتُ من «RT-2» التقاط كرة، قلتُ له «التقط ليونيل ميسّي»، فنجح في أداء المهمّة من المحاولة الأولى.
ومع ذلك، لم يكن الروبوت مثالياً، حيث إنّه أخطأ في تحديد نكهة عبوة مشروب غازي موضوعة على الطاولة أمامه. (كانت العبوة منكّهة بالليمون، ولكنّ الروبوت اقترح البرتقال). وفي مرّة أخرى، عندما سُئل عن أنواع الفاكهة الموضوعة على الطاولة، أجاب الروبوت «أبيض» (كانت موزة). برّر متحدثٌ باسم «غوغل» الخطأ بأنّ الروبوت استخدم إجابة عن سؤال اختباري سابق لأنّ اتصاله بالواي-فاي انقطع لبعض الوقت.
لا تخطّط «غوغل» في الوقت الحالي لبيع «RT-2» أو توفيره على نطاق أوسع، ولكنّ باحثيها يعتقدون أنّ هذه الآلات الجديدة المجهّزة بنماذج لغوية ستتمتّع في النهاية بفعالية عالية في أداء مهام تتعدّى الحيل المسليّة. قد تستطيع هذه الروبوتات مثلاً العمل في المخازن، وفي المجال الطبي، أو حتّى في مجال المساعدة المنزلية – لطيّ الملابس المغسولة، وتفريغ آلة غسل الصحون، أو توضيب المنزل.
وختم فانوكيه بالقول: «يفتح هذا التطوّر المجال لاستخدام الروبوتات في البيئات التي يوجد فيها البشر، كالمكتب، والمنزل، وفي جميع الأماكن التي قد تتطلّب مهام جسدية».