يمكن لنموذج الذكاء الاصطناعي الجديد محاكاة لعبة Super Mario Bros. بعد مشاهدة لقطات اللعب

al-ebda3

0 18 4 دقائق

الشهر الماضي جوجل أظهر نموذج GameNGen AI أنه يمكن استخدام تقنيات نشر الصور المعممة لإنشاء نسخة مقبولة وقابلة للتشغيل من الموت. الآن، يستخدم الباحثون بعض التقنيات المشابهة مع نموذج يسمى MarioVGG لمعرفة ما إذا كان الذكاء الاصطناعي يمكنه إنشاء فيديو معقول لـ سوبر ماريو بروس. استجابة لمدخلات المستخدم.

لا تزال نتائج نموذج MarioVGG – المتوفرة كورقة مطبوعة مسبقًا نشرتها شركة Virtuals Protocol التابعة لشركة الذكاء الاصطناعي المجاورة للعملات المشفرة – تعرض الكثير من مواطن الخلل الواضحة، كما أنها بطيئة جدًا بالنسبة لأي شيء يقترب من أسلوب اللعب في الوقت الفعلي. لكن النتائج تظهر كيف يمكن لنموذج محدود أن يستنتج بعض الفيزياء المثيرة للإعجاب وديناميكيات اللعب فقط من خلال دراسة القليل من الفيديو وبيانات الإدخال.

ويأمل الباحثون أن يمثل هذا خطوة أولى نحو “إنتاج وعرض مولد ألعاب فيديو موثوق به ويمكن التحكم فيه” أو ربما حتى “استبدال تطوير الألعاب ومحركات الألعاب بالكامل باستخدام نماذج توليد الفيديو” في المستقبل.

مشاهدة 737000 إطار من ماريو

لتدريب نموذجهم، بدأ باحثو MarioVGG (تم إدراج مستخدمي GitHub، إرنيتشو وبريان ليم كمساهمين) بمجموعة بيانات عامة من سوبر ماريو بروس. تحتوي لعبة اللعب على 280 “مستوى” من بيانات الإدخال والصورة مرتبة لأغراض التعلم الآلي (تمت إزالة المستوى 1-1 من بيانات التدريب بحيث يمكن استخدام الصور منه في التقييم). تمت معالجة أكثر من 737000 إطارًا فرديًا في مجموعة البيانات هذه مسبقًا إلى أجزاء مكونة من 35 إطارًا حتى يتمكن النموذج من البدء في معرفة الشكل الذي تبدو عليه النتائج المباشرة للمدخلات المختلفة بشكل عام.

من أجل “تبسيط موقف اللعب”، قرر الباحثون التركيز فقط على مدخلين محتملين في مجموعة البيانات: “الركض لليمين” و”الركض لليمين والقفز”. حتى مجموعة الحركة المحدودة هذه قدمت بعض الصعوبات لنظام التعلم الآلي، حيث كان على المعالج الأولي أن ينظر إلى الخلف لبضعة إطارات قبل القفزة لمعرفة ما إذا كان “التشغيل” قد بدأ ومتى. وكتب الباحثون أن أي قفزات تتضمن تعديلات في الهواء (أي الزر “الأيسر”) كان لا بد أيضًا من التخلص منها لأن “هذا من شأنه أن يحدث ضجيجًا في مجموعة بيانات التدريب”.

بعد المعالجة المسبقة (وحوالي 48 ساعة من التدريب على بطاقة رسومات RTX 4090 واحدة)، استخدم الباحثون عملية الالتفاف وتقليل الضوضاء القياسية لإنشاء إطارات فيديو جديدة من صورة ثابتة للعبة وإدخال نص (إما “تشغيل” أو ” القفز” في هذه الحالة المحدودة). في حين أن هذه التسلسلات التي تم إنشاؤها لا تستمر إلا لبضعة إطارات، يمكن استخدام الإطار الأخير من تسلسل واحد كأول تسلسل جديد، مما يؤدي إلى إنشاء مقاطع فيديو للعب بأي طول لا تزال تظهر “طريقة لعب متماسكة ومتسقة”، وفقًا للباحثين.

سوبر ماريو 0.5

حتى مع كل هذا الإعداد، فإن MarioVGG لا ينتج فيديو سلسًا تمامًا لا يمكن تمييزه عن لعبة NES حقيقية. من أجل الكفاءة، قام الباحثون بتقليص حجم إطارات الإخراج من دقة NES 256 × 240 إلى دقة أكثر تشويشًا 64 × 48. كما أنها تقوم أيضًا بتكثيف ما يعادل 35 إطارًا من وقت الفيديو في سبعة إطارات تم إنشاؤها فقط يتم توزيعها “على فترات زمنية موحدة”، مما يؤدي إلى إنشاء فيديو “لعبة” يبدو أكثر خشونة من مخرجات اللعبة الحقيقية.

على الرغم من هذه القيود، لا يزال نموذج MarioVGG يكافح من أجل الاقتراب من إنشاء الفيديو في الوقت الفعلي، في هذه المرحلة. استغرق جهاز RTX 4090 المنفرد الذي استخدمه الباحثون ست ثوانٍ كاملة لإنشاء تسلسل فيديو من ستة إطارات، وهو ما يمثل ما يزيد قليلاً عن نصف ثانية من الفيديو، حتى بمعدل إطارات محدود للغاية. يعترف الباحثون بأن هذا “ليس عمليًا وغير مناسب لألعاب الفيديو التفاعلية”، لكنهم يأملون أن تؤدي التحسينات المستقبلية في تكميم الوزن (وربما استخدام المزيد من موارد الحوسبة) إلى تحسين هذا المعدل.

مع وضع هذه الحدود في الاعتبار، يمكن لـ MarioVGG إنشاء بعض مقاطع الفيديو المعقولة بشكل مقبول لماريو وهو يركض ويقفز من صورة بداية ثابتة، على غرار صانع ألعاب Genie من Google. وكتب الباحثون أن النموذج كان قادرًا على “تعلم فيزياء اللعبة بشكل كامل من إطارات الفيديو في بيانات التدريب دون أي قواعد واضحة مشفرة”. وكتب الباحثون أن ذلك يتضمن استنتاج سلوكيات مثل سقوط ماريو عندما يركض من على حافة منحدر (بجاذبية معقولة) و(عادة) إيقاف حركة ماريو الأمامية عندما يكون بالقرب من عائق.

بينما كان MarioVGG يركز على محاكاة حركات ماريو، وجد الباحثون أن النظام يمكن أن يهلوس بشكل فعال عوائق جديدة لماريو أثناء تمرير الفيديو عبر مستوى متخيل. كتب الباحثون أن هذه العوائق “متسقة مع اللغة الرسومية للعبة”، لكن لا يمكن أن تتأثر حاليًا بمطالبات المستخدم (على سبيل المثال، ضع حفرة أمام ماريو واجعله يقفز فوقها).

فقط اصنعها

مثل جميع نماذج الذكاء الاصطناعي الاحتمالية، فإن MarioVGG لديه ميل محبط في بعض الأحيان لإعطاء نتائج غير مفيدة على الإطلاق. في بعض الأحيان يعني ذلك مجرد تجاهل مطالبات إدخال المستخدم (كتب الباحثون: “لاحظنا أن نص إجراء الإدخال لا يتم الالتزام به طوال الوقت”.) وفي أحيان أخرى، يعني ذلك هلوسة مواطن الخلل البصرية الواضحة: أحيانًا يهبط ماريو داخل العوائق، أو يمر عبر العوائق والأعداء، أو يومض بألوان مختلفة، أو ينكمش/ينمو من إطار إلى إطار، أو يختفي تمامًا لإطارات متعددة قبل الظهور مرة أخرى.

يُظهر أحد مقاطع الفيديو السخيفة التي شاركها الباحثون ماريو وهو يسقط عبر الجسر، ويصبح زقزقة، ثم يطير مرة أخرى عبر الجسور ويتحول إلى ماريو مرة أخرى. هذا هو الشيء الذي كنا نتوقع رؤيته من Wonder Flower، وليس فيديو الذكاء الاصطناعي الأصلي سوبر ماريو بروس.

ويعتقد الباحثون أن التدريب لفترة أطول على “بيانات اللعب الأكثر تنوعًا” يمكن أن يساعد في حل هذه المشكلات المهمة ويساعد نموذجهم على محاكاة أكثر من مجرد الجري والقفز بلا هوادة إلى اليمين. ومع ذلك، فإن لعبة MarioVGG تمثل دليلاً ممتعًا على مفهوم أنه حتى بيانات التدريب والخوارزميات المحدودة يمكنها إنشاء بعض نماذج البداية الجيدة للألعاب الأساسية.

ظهرت هذه القصة في الأصل على آرس تكنيكا.

مرتبط

اكتشاف المزيد من مجلة الإبداع

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

الوسوم