Qsarpress

ما في ذلك السياسة والأعمال والتكنولوجيا والحياة والرأي والرياضة.

تطلق Meta AI مجموعة بيانات HM3D-Sem.

أصبحت قابلية التوسع مهمة نتيجة للتطورات التكنولوجية الحديثة. تم تدريب الشبكات العصبية الكبيرة من خلال مليارات الخبرات باستخدام التعلم المعزز العميق في بيئات ثلاثية الأبعاد ، مما مكّن من تطوير كيانات ذكية قادرة على إكمال المهام الموجهة نحو الهدف. لضمان تشغيل الشبكات بسلاسة على هذا النطاق الواسع ، يجب أن تتسع أنظمة RL لتناسب العديد من أجهزة الكمبيوتر والاستفادة بشكل جيد من الموارد المتاحة مثل وحدات معالجة الرسومات. إحدى هذه الطرق الواعدة لتحقيق هذا المستوى هي ، من حيث المبدأ. تستخدم هذه الأساليب المبدأ لتجميع الخبرة من سياقات مختلفة وتحديثها بالخبرة الشاملة.

بشكل عام ، ينقسم التعلم المعزز للسياسة RL إلى فصول متزامنة (SyncOnRL) وغير متزامنة (AsyncOnRL). أولاً ، يتم تطبيق السياسة على الكتلة بأكملها حتى يتم تجميع خطوات T من جميع سياقات N. هذه هي أول نقطتين للمزامنة في SyncOnRL. يعتمد المبدأ المحدث على تجربة النمط (T ، N). ومع ذلك ، ينخفض ​​الأداء مع المزامنة لأنه يتعين على النظام الانتظار لفترة أطول حتى تكتمل البيئة الأبطأ. التأثير المتشدد هو مصطلح يستخدم غالبًا لوصف هذه الظاهرة. من خلال التخلص من مواقع المزامنة هذه ، يقلل AsyncOnRL من تأثير التشتت ويزيد من الأداء. في بحث نُشر مؤخرًا من قبل Meta AI وباحثين من معهد جورجيا للتكنولوجيا ، أوصى الفريق بتطبيق التجربة المتغيرة (VER). تجمع هذه الطريقة بين مزايا SyncOnRL و AsyncOnRL وتمويه الاختلافات بينهما. مثل AsyncOnRL ، لا يستخدم VER نقاط التزامن ؛ بدلاً من ذلك ، تحسب خطوات العمل والسياقات التالية ، وتقوم بتحديث السياسة في أقرب وقت ممكن عمليًا. كما يفعل SyncOnRL ، يقوم VER بتحديث السياسة بعد جمع الخبرة الحالية.

READ  تشرح Dateline كيف تعمل NBC على تنمية أعمالها في مجال البودكاست مع Apple

كانت رؤيتان مهمتان بمثابة الأساس لـ VER. الأول هو أن AsyncOnRL يقلل من تأثير التشدد من خلال جمع كميات مختلفة من الخبرة من كل بيئة (أكثر من بيئات محاكاة أسرع وأقل من بيئات أبطأ). النتيجة الثانية هي أن طول الطرح ثابت لكل من SyncOnRL و AsyncOnRL. على الرغم من أن طول الطرح المحدد قد يسهل التنفيذ ، إلا أنه ليس ضروريًا لـ RL ، وفقًا للباحثين. دفعت هاتان النتيجتان المهمتان إلى تطوير طرح التجربة المتغيرة (VER) ، أو ممارسة جمع الطرح مع عدد متغير من المراحل. وفقًا لسرعة المحاكاة الخاصة بها ، تتكيف VER مع مدة الإخراج لكل بيئة. والنتيجة هي نظام RL الذي يتغلب على تأثير straggler ويحتفظ بأداء النموذج من خلال التعلم من البيانات الأساسية. يركز VER على الاستخدام الفعال لوحدة معالجة الرسومات. قام الباحثون بدمج VER مع التقنية الموزعة اللامركزية المقدمة [Wijmans et al., 2020] لتمكين التحجيم الفعال لوحدات معالجة الرسومات المتعددة.

بعد إجراء العديد من التقييمات التجريبية ، خلص الباحثون إلى أن VER ينتج عنه تسريع كبير ومتسق في مجموعة واسعة من مهام الملاحة الغامرة والتلاعب المحمول في أنظمة المحاكاة البصرية ثلاثية الأبعاد. على وجه التحديد ، يعد VER أسرع بنسبة 60-100٪ (تسريع 1.6-2x) من DD-PPO ، مع أداء نموذج مكافئ للحالة الحالية لـ SyncOnRL و PointGoal navigation و ObjectGoal navigation في Habitat 1.0. مقارنة بـ DD-PPO ، فإن Habitat 2.0 VER أسرع بنسبة 150٪ (تسريع 2.5x) على وحدة معالجة رسومات واحدة وأسرع بنسبة 170٪ (تسريع 2.7x) على 8 وحدات معالجة رسومات لمهام المناولة المتنقلة (ثلاجة / خزانة مفتوحة ، انتقاء / وضع العناصر). مع أداء أخذ العينات المحسن ، فإن VER على 8 وحدات معالجة رسومات أسرع بنسبة 70٪ (أسرع 1.7 مرة) من SampleFactory ، AsyncOnRL الأكثر تقدمًا المتاح حاليًا.

استفاد الفريق من هذا الزخم لتدريب مهارات التسلسل لمهام إعادة بناء الهدف الهندسي في مقياس مساعد المنزل (HAB). اكتشفوا المظهر المذهل للملاحة في المهارات التي لا تتطلب التنقل على الإطلاق. يشير Big Talent إلى روبوت يلتقط عنصرًا من طاولة. لا يحتاج الروبوت إلى التحرك أثناء التدريب لأنه يولد دائمًا بالقرب من الطاولة. ومع ذلك ، فإن الروبوت ، الذي يستكشف شيئًا ما في بيئة غير مألوفة ثم يتعلم تحديده بنجاح بنسبة 50٪ ، يُظهر تعميماً مفرط التوزيع بشكل مدهش ، وفقًا للباحثين ، يتضمن مساحة حركة أساسية. يمكن أن يكون VER مفيدًا جدًا عند التحقيق في الاستعادة. يساعد هذا في تحديد مظهر التنقل في السياسات التي لا تتطلب التنقل عند منح الوصول إلى إجراءات التنقل. وقد أدى ذلك إلى تحسن كبير في DD House (+ 30٪ نجاح) ، ولكنه يثبت أيضًا أن القضاء على “الإجراءات غير الضرورية” ليس دائمًا هو الأفضل.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'VER: Scaling On-Policy RL Leads to the Emergence of Navigation in Embodied Rearrangement'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and project.

Please Don't Forget To Join Our ML Subreddit


READ  أصدرت Apple Safari Technology Preview 147 مع ميزات Magos Ventura

خوشبو جوبتا هو متدرب استشاري في Marktech Post. وهو يتابع حاليًا دراسته في B.Tech في المعهد الهندي للتكنولوجيا (IIT) ، جوا. يهتم بمجالات التعلم الآلي ومعالجة اللغة الطبيعية وتطوير الويب. تستمتع بمعرفة المزيد عن صناعة التكنولوجيا من خلال المشاركة في تحديات مختلفة.