یک سگ ربات راه رفتن در زمین های سخت را تنها در 20 دقیقه یاد می گیرد


بیشتر ربات‌های خودمختار باید به‌دقت توسط انسان برنامه‌ریزی شوند یا در سناریوهای شبیه‌سازی‌شده به‌طور کامل آزمایش شوند تا بتوانند وظایف دنیای واقعی را انجام دهند، مانند بالا رفتن از تپه‌های سنگی یا شیب‌های لغزنده – و وقتی با محیط‌های ناآشنا مواجه می‌شوند، تمایل به مبارزه دارند.

واتکینز گفت: «فکر می‌کنم خیلی تاثیرگذار است. “راستش، من کمی تعجب کردم که می توانید از چیزی به سادگی Q-learning برای یادگیری مهارت هایی مانند راه رفتن روی سطوح مختلف با تجربه کم و به سرعت در زمان واقعی استفاده کنید.”

درباره این موضوعات بیشتر بدانید:


منبع: https://www.newscientist.com/article/2335390-robot-dog-learns-to-walk-on-tough-terrain-in-just-20-minutes/?utm_campaign=RSS%7CNSNS&utm_source=NSNS&utm_medium=RSS&utm_content=home

اکنون، سرگئی لوین در دانشگاه کالیفرنیا، برکلی، و همکارانش نشان دادند که یک ربات با استفاده از نوعی یادگیری ماشینی به نام یادگیری تقویتی عمیق می تواند نحوه راه رفتن را در حدود 20 دقیقه در چندین محیط مختلف، مانند چمن، لایه ای از پوست، بیابد. یک تشک مموری فوم و یک مسیر پیاده روی.

یکی از اعضای تیم می‌گوید: «از یک جهت، بسیار شبیه نحوه یادگیری افراد است ایلیا کوستریکوف، همچنین در دانشگاه کالیفرنیا، برکلی. “با یک محیط تعامل داشته باشید، ابزارهای مفید را دریافت کنید، و فقط به تجربه گذشته خود فکر کنید و سعی کنید درک کنید که چه چیزی می تواند بهبود یافته باشد.”

اگرچه ربات می تواند راه رفتن روی هر سطح جدیدی را که با آن روبرو می شود یاد بگیرد، لوین می گوید اگر ربات می خواهد مهارت های دیگری را بیاموزد، تیم باید سیستم پاداش مدل را اصلاح کند.

ارجاع: arxiv.org/abs/2208.07860

این ربات از الگوریتمی به نام یادگیری Q استفاده می کند که نیازی به مدل عملکردی زمین هدف ندارد. چنین الگوریتم‌های یادگیری ماشینی معمولاً در شبیه‌سازی استفاده می‌شوند. لوین توضیح می‌دهد: «نیازی نداریم که بفهمیم فیزیک یک محیط واقعاً چگونه کار می‌کند، ما فقط ربات را در یک محیط قرار می‌دهیم و آن را فعال می‌کنیم.»

به لطف الگوریتم یادگیری ماشینی، یک سگ ربات می‌تواند راه رفتن در زمین‌های ناآشنا و دشوار، مانند چمن، پارس و مسیرهای پیاده‌روی را یاد بگیرد.

در عوض، ربات به ازای هر اقدامی که انجام می دهد، بر اساس موفقیتش در برابر اهداف از پیش تعریف شده، پاداش مشخصی دریافت می کند. او این روند را به طور مداوم در حالی که موفقیت های قبلی خود را مقایسه می کند تکرار می کند تا زمانی که راه رفتن را یاد بگیرد.

می‌گوید کار یادگیری تقویتی عمیق در دنیای واقعی دشوار است کریس واتکینز در رویال هالووی، دانشگاه لندن، به دلیل تعداد متغیرها و داده های مختلف که باید همزمان با یکدیگر تعامل داشته باشند.

چمنزارهای چمن و مسیرهای پیاده روی برای این ربات مشکلی ندارند، زیرا به لطف الگوریتم یادگیری ماشینی یاد گرفته است در حال پرواز روی آنها راه برود.

فن آوری


26 آگوست 2022

توسط احمد گل کار

احمد گل کار