تخيل لو استطاعت الروبوتات أن تتعلم من خلال مشاهدة العروض التوضيحية؛ يمكنك أن توضح للروبوت المنزلي كيفية القيام بالأعمال الروتينية أو إعداد مائدة العشاء.

في مكان العمل، يمكنك تدريب الروبوتات مثل الموظفين الجدد، وأن تبين لهم كيفية أداء العديد من الواجبات.

على الطريق، يمكن أن تتعلم سيارتك ذاتية القيادة كيفية القيادة بأمان من خلال مشاهدتك وأنت تقود في منطقتك.

لإحراز تقدمٍ في هذه الرؤية، صمّم باحثو جامعة جنوب كاليفورنيا نظامًا يتيح للروبوتات تعلّم المهام المعقدة بشكلٍ مستقلٍ بواسطة عددٍ صغيرٍ جدًا من العروض التوضيحية، حتى تلك غير الكاملة.

قُدِّم البحث الذي يحمل عنوان التعلم من العروض التوضيحية باستخدام المنطق الزمني للإشارة في مؤتمر تعلم الروبوت (CoRL) في 18 تشرين الثاني/نوفمبر.

يعمل نظام الباحثين من خلال تقييم جودة كل عرض، إذ يتعلم من الأخطاء التي يراها، ومن النجاحات.

في الوقت الذي تتطلب فيه أحدث الأساليب الحالية ما لا يقل عن 100 عرضٍ توضيحيٍّ لإبراز مَهمةٍ محددةٍ، فإن هذه الطريقة الجديدة تسمح للروبوتات بالتعلم من عدد قليل فقط من العروض التوضيحية.

كما أنه يسمح للروبوتات بالتعلم بشكل يعتمد على الحدس بالطريقة التي يتعلم بها البشر من بعضهم البعض؛ تشاهد شخصًا ما ينفذ مهمةً، حتى وإن كان بشكلٍ غير كاملٍ، ثم تجرب بنفسك.

لا يجب أن يكون عرضًا “مثاليًا” للبشر لاستقاء المعرفة من مشاهدة بعضهم بعضًا.

قال المدير الرئيسي أنيرود بورانيك Aniruddh Puranic، الحاصل على درجة الدكتوراه والطالب في علوم الكمبيوتر في كلية الهندسة في جامعة جنوب كاليفورنيا Viterbi:
“تتطلب العديد من أنظمة التعلم الآلي والتعلم المعزز كمياتٍ كبيرةً من البيانات ومئات العروض التوضيحية؛ تحتاج إلى إنسان للتوضيح مرارًا وتكرارًا، وهو أمر غير ممكن، وكذلك، ليس لدى معظم الأشخاص معرفة برمجية لتوضيح ما يحتاج إليه الروبوت صراحةً، ولا يمكن للإنسان أن يوضح كلّ ما يحتاج الروبوت إلى معرفته. ماذا لو واجه الروبوت شيئًا لم يره من قبل؟ إن هذا تحدي رئيسي”.

التعلم من العروض التوضيحية


أصبح التعلم من العروض التوضيحية شائعًا بشكلٍ متزايد للحصول على سياسات فعالة للتحكم في الروبوت، والتي تتحكم في حركات الروبوت، للمهام المعقدة. لكنها عرضة للعيوب، وهي تثير أيضًا مخاوفَ تتعلق بالسلامة، إذ قد تتعلم الروبوتات إجراءاتٍ غير آمنة أو غير مرغوب فيها.

كذلك، ليست كلها متساويةً: بعض العروض هي مؤشر أفضل للسلوك المرغوب من غيرها، وغالبًا ما تعتمد جودة العروض التوضيحية على خبرة المستخدم الذي يقدم تلك العروض.

لمعالجة هذه المشاكل، دمج الباحثون “منطق الإشارة الزمني” أو STL لتقييم جودة العروض التوضيحية وتصنيفها تلقائيًا لإنشاء مكافآت لها؛ بعبارةٍ أخرى، حتى لو كانت بعض أجزاء العروض التوضيحية لا معنى لها بناءً على متطلبات المنطق، فإنه باستخدام هذه الطريقة لا يزال بإمكان الروبوت التعلم من الأجزاء غير الكاملة.

بطريقةٍ ما، يصل النظام إلى استنتاجه الخاص حول دقة أو نجاح العرض التوضيحي.

قال المؤلف المشارك ستيفانوس نيكولايديس Stefanos Nikolaidis، الأستاذ المساعد في جامعة جنوب كاليفورنيا فيتربي لعلوم الكمبيوتر: “لنفترض أن الروبوتات التي تتعلم من أنواع مختلفة من العروض التوضيحية -يمكن أن تكون عرضًا عمليًا أو مقاطعَ فيديو أو محاكاة- قد فعلت شيئًا غير آمن للغاية، فإن الأساليب القياسية ستفعل أحد أمرين: إما أنها ستتجاهل ذلك تمامًا، أو حتى أسوأ من ذلك، سوف يتعلم الروبوت الشيء الخطأ. في المقابل، بطريقةٍ ذكيةٍ للغاية، يستخدم هذا العمل بعض المنطق لفهم أي أجزاء من العرض تكون جيدة، وأيها ليست كذلك. في جوهرها، هذا بالضبط ما يفعله البشر أيضًا”.

خذ على سبيل المثال عرض قيادة يتخطى فيه شخصٌ ما لافتة توقف، سيصنف النظام هذا في مرتبةٍ أقل من إظهار السائق الجيد، ولكن إذا عمل السائق أثناء هذا العرض التوضيحي شيئًا ذكيًّا، كاستخدام فرامله لتجنب الاصطدام مثلًا، فسيظل الروبوت يتعلم من هذا الإجراء الذكي.

التكيف مع التفضيلات والتكيفات البشرية


إن المنطق الزمني للإشارة هو لغة رمزية رياضية معبرة تمكن من التفكير الروبوتي حول النتائج الحالية والمستقبلية.

في حين أن الأبحاث السابقة في هذا المجال قد استخدمت “المنطق الزمني الخطي”، فإن STL هي الأفضل في هذه الحالة، حيث قال جيو ديشموخ Jyo Deshmukh، مهندس تويوتا السابق والأستاذ المساعد في جامعة جنوب كاليفورنيا فيتربي لعلوم الكمبيوتر: “عندما نتجه نحو عالم الأنظمة الفيزيائية الإلكترونية مثل الروبوتات والسيارات ذاتية القيادة حيث يكون الوقت حاسمًا، يصبح المنطق الزمني الخطي مرهقًا بعض الشيء، لأنه يتسبب في تسلسل قيم صحيحة/خاطئة للمتغيرات، بينما تسمح STL بالتفكير حول الإشارات الجسدية”.

جاء بورانيك، الذي نصحه ديشموخ بهذه الفكرة، بعد أن أخذ درسًا عمليًا في الروبوتات مع نيكولايديس الذي كان يعمل على تطوير الروبوتات للتعلم من مقاطع فيديو يوتيوب.

قرر الثلاثي اختباره. قال الثلاثة إنهم فوجئوا بمدى نجاح النظام، وإن الأساتذة يدينون لبورانيك بعمله الشاق.

قال نيكولايديس: “مقارنةً بأحدث خوارزمية، والتي تُستخدم على نطاق واسع في العديد من تطبيقات الروبوتات، فإنك ترى فرقًا في الحجم في عدد العروض التوضيحية المطلوبة”.

اختُبِر النظام باستخدام جهاز محاكاة لعبة على غرار Minecraft، لكن قال الباحثون إن النظام يمكن أن يتعلم أيضًا من أجهزة محاكاة القيادة، وحتى مقاطع الفيديو في النهاية.

بعد ذلك، يأمل الباحثون في تجربته على روبوتات حقيقية. قالوا إن هذا النهج مناسبٌ تمامًا للتطبيقات حيث تُعرف المخططات لها مسبقًا، ولكن هناك عقبات ديناميكية في المخططات: الروبوتات في البيئات المنزلية أو المستودعات أو حتى مركبات استكشاف الفضاء.

قال نيكولايديس: “إذا أردنا أن تكون الروبوتات زملاء جيدين في الفريق، وتساعد الناس، فعليها أولًا أن تتعلم وتتكيف مع التفضيلات البشرية بكفاءةٍ عاليةٍ وطريقتنا توفر ذلك”.

وأضاف: “أنا متحمسٌ لدمج هذا النهج في الأنظمة الآلية لمساعدتها على التعلم بكفاءة من العروض التوضيحية، ولكنه أيضًا يساعد بشكل فعال زملاءهم في الفريق في مهمة تعاونية”.

nasainarabic.net