עמוק "חיזוק הלמידה" היא הוראה רובוטים מיומנויות חדשות מהר יותר מאשר אי פעם

הרובוטים לומדים כיצד להשלים משימות בעולמות וירטואליים מופשטים, לפתח מיומנויות תוך שעות ספורות, שעלולות להימשך חודשים. לימוד חיזוי סימולציה עמוקה (או RL עמוק) פירושו מיומנות שבדרך כלל לוקחת 55 ימים עבור A.I. ללמוד בעולם האמיתי לוקח רק יום בכיתה מואץ יתר.

"יש לה פוטנציאל לחולל מהפכה אמיתית במה שאנחנו יכולים לעשות בתחום הרובוטיקה", אמרה ריה האסל, מדען מחקר ב- Google DeepMind, ביום חמישי. "אנחנו יכולים ללמוד מיומנויות ברמה האנושית".

זה אולי נשמע אנטי אינטואיטיבי, כמו כל הנקודה של רובוטים הוא מתכנתים יכולים ללמד אותם לעשות דברים, נכון? בעת תכנון המכונה שפועלת בעולם האמיתי, רובוטים צריכים הרבה נתונים כדי להבין איך לעשות משימה במצב לא מוכר. A.I. יכול להשתמש בנתונים אלה כדי "ללמוד" מיומנות המבוססת על כל המופעים שהגיעו קודם.

לימוד חיזוק עמוק אוסף את הנתונים באופן דומה לאופן שבו בני האדם לומדים: רובוט ישלים משימה שוב ושוב, כמו לתפוס כדור, ורשום את הנתונים כדי לבנות תמונה של הדרך הטובה ביותר לתפוס כדור במצב חדש. כאשר DeepMind השתמשו בדגם בשנת 2013 כדי ללמד רובוט כיצד לשלוט במשחקי Atari, פשוט על ידי ישיבה מול המסך ולספר את המטרה הסופית, הקהילה המדעית אהבה את זה.

הבעיה היא, זה לוקח לנצח. אתה צריך לזרוק כדורים על רובוט שוב ושוב, או במקרה Atari, להשאיר את הרובוט לבד בחדר השינה שלה במשך זמן מה. הפעלת סימולציה MuJoCo, בשילוב עם רשת עצבית מתקדמת, מאמנים יכולים להפעיל תוכנית המחקה את הרובוט, מעביר את ההתנהגויות למד הרובוט ומפות את התנועות הווירטואליות לעולם האמיתי.

"אנחנו יכולים להפעיל את הסימולטורים האלה כל היום וכל הלילה, "אמר האדסל.

התוצאות מדברות בעד עצמן. הרובוט הזה, שקיבל את הדיפלומה שלו בתפיסה, יכול עכשיו לעקוב אחרי כדורים וירטואליים כאילו היו אמיתיים, כשהוא עושה את זה ליום הגדול כשזה מתבקש לתפוס כדור אמיתי: