تقول Google إن Gemini AI يجعل الروبوتات الخاصة بها أكثر ذكاءً
تقوم Google بتدريب الروبوتات الخاصة بها باستخدام Gemini AI حتى تتمكن من التحسن في التنقل وإكمال المهام. أوضح فريق الروبوتات DeepMind في ورقة بحثية جديدة كيف أن استخدام نافذة السياق الطويلة لـ Gemini 1.5 Pro – والتي تحدد مقدار المعلومات التي يمكن لنموذج الذكاء الاصطناعي معالجتها – يسمح للمستخدمين بالتفاعل بسهولة أكبر مع روبوتات RT-2 باستخدام تعليمات اللغة الطبيعية.
ويتم ذلك من خلال تصوير جولة فيديو في منطقة معينة، مثل المنزل أو مساحة المكتب، حيث يستخدم الباحثون Gemini 1.5 Pro لجعل الروبوت “يشاهد” الفيديو للتعرف على البيئة. يمكن للروبوت بعد ذلك تنفيذ الأوامر بناءً على ما لاحظه باستخدام المخرجات اللفظية و/أو الصورية – مثل توجيه المستخدمين إلى منفذ الطاقة بعد أن يُعرض عليهم الهاتف ويسألهم “أين يمكنني شحن هذا؟” تقول شركة DeepMind إن الروبوت الذي يعمل بالطاقة Gemini حقق معدل نجاح بنسبة 90 بالمائة عبر أكثر من 50 تعليمات للمستخدم تم تقديمها في منطقة تشغيل تزيد مساحتها عن 9000 قدم مربع.
ووجد الباحثون أيضًا “أدلة أولية” على أن Gemini 1.5 Pro مكّن الروبوتات الخاصة به من التخطيط لكيفية تنفيذ التعليمات بما يتجاوز مجرد التنقل. على سبيل المثال، عندما يسأل مستخدم لديه الكثير من علب الكولا على مكتبه الروبوت إذا كان مشروبه المفضل متاحًا، قال الفريق إن جيميني “يعرف أن الروبوت يجب أن ينتقل إلى الثلاجة، ويفحص ما إذا كان هناك كوكا كولا، ثم يعود إلى الثلاجة”. المستخدم للإبلاغ عن النتيجة. وتقول شركة DeepMind إنها تخطط لمزيد من التحقيق في هذه النتائج.
تعتبر عروض الفيديو التوضيحية التي تقدمها جوجل مثيرة للإعجاب، على الرغم من أن التخفيضات الواضحة بعد إقرار الروبوت لكل طلب تخفي أن الأمر يستغرق ما بين 10 إلى 30 ثانية لمعالجة هذه التعليمات، وفقًا لورقة البحث. قد يستغرق الأمر بعض الوقت قبل أن نشارك منازلنا مع روبوتات أكثر تقدمًا لرسم خرائط البيئة، ولكن على الأقل قد تتمكن هذه الروبوتات من العثور على مفاتيحنا أو محافظنا المفقودة.
اكتشاف المزيد من مجلة الإبداع
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.