یک سگ ربات راه رفتن در زمین های سخت را تنها در 20 دقیقه یاد می گیرد
بیشتر رباتهای خودمختار باید بهدقت توسط انسان برنامهریزی شوند یا در سناریوهای شبیهسازیشده بهطور کامل آزمایش شوند تا بتوانند وظایف دنیای واقعی را انجام دهند، مانند بالا رفتن از تپههای سنگی یا شیبهای لغزنده – و وقتی با محیطهای ناآشنا مواجه میشوند، تمایل به مبارزه دارند.
واتکینز گفت: «فکر میکنم خیلی تاثیرگذار است. “راستش، من کمی تعجب کردم که می توانید از چیزی به سادگی Q-learning برای یادگیری مهارت هایی مانند راه رفتن روی سطوح مختلف با تجربه کم و به سرعت در زمان واقعی استفاده کنید.”
اکنون، سرگئی لوین در دانشگاه کالیفرنیا، برکلی، و همکارانش نشان دادند که یک ربات با استفاده از نوعی یادگیری ماشینی به نام یادگیری تقویتی عمیق می تواند نحوه راه رفتن را در حدود 20 دقیقه در چندین محیط مختلف، مانند چمن، لایه ای از پوست، بیابد. یک تشک مموری فوم و یک مسیر پیاده روی.
یکی از اعضای تیم میگوید: «از یک جهت، بسیار شبیه نحوه یادگیری افراد است ایلیا کوستریکوف، همچنین در دانشگاه کالیفرنیا، برکلی. “با یک محیط تعامل داشته باشید، ابزارهای مفید را دریافت کنید، و فقط به تجربه گذشته خود فکر کنید و سعی کنید درک کنید که چه چیزی می تواند بهبود یافته باشد.”
اگرچه ربات می تواند راه رفتن روی هر سطح جدیدی را که با آن روبرو می شود یاد بگیرد، لوین می گوید اگر ربات می خواهد مهارت های دیگری را بیاموزد، تیم باید سیستم پاداش مدل را اصلاح کند.
این ربات از الگوریتمی به نام یادگیری Q استفاده می کند که نیازی به مدل عملکردی زمین هدف ندارد. چنین الگوریتمهای یادگیری ماشینی معمولاً در شبیهسازی استفاده میشوند. لوین توضیح میدهد: «نیازی نداریم که بفهمیم فیزیک یک محیط واقعاً چگونه کار میکند، ما فقط ربات را در یک محیط قرار میدهیم و آن را فعال میکنیم.»
به لطف الگوریتم یادگیری ماشینی، یک سگ ربات میتواند راه رفتن در زمینهای ناآشنا و دشوار، مانند چمن، پارس و مسیرهای پیادهروی را یاد بگیرد.
در عوض، ربات به ازای هر اقدامی که انجام می دهد، بر اساس موفقیتش در برابر اهداف از پیش تعریف شده، پاداش مشخصی دریافت می کند. او این روند را به طور مداوم در حالی که موفقیت های قبلی خود را مقایسه می کند تکرار می کند تا زمانی که راه رفتن را یاد بگیرد.
میگوید کار یادگیری تقویتی عمیق در دنیای واقعی دشوار است کریس واتکینز در رویال هالووی، دانشگاه لندن، به دلیل تعداد متغیرها و داده های مختلف که باید همزمان با یکدیگر تعامل داشته باشند.
چمنزارهای چمن و مسیرهای پیاده روی برای این ربات مشکلی ندارند، زیرا به لطف الگوریتم یادگیری ماشینی یاد گرفته است در حال پرواز روی آنها راه برود.