אלגוריתם שהשתלט על "פונג" עכשיו מעולה ב 'ציפור פלאפי', עדיין יחיד

Uma dívida de gratidão (Homilia Diária.1627: Terça-feira da 32.ª Semana do Tempo Comum)

Uma dívida de gratidão (Homilia Diária.1627: Terça-feira da 32.ª Semana do Tempo Comum)
Anonim

שיפור בשיטת הלמידה העמוקה פונג, פולשי החלל, ומשחקי Atari אחרים, סטודנט למדעי המחשב באוניברסיטת סטנפורד, קווין צ'ן, יצר אלגוריתם זה די טוב בצד הקלסי ציפור. צ'ן מינתה תפיסה הידועה בשם "q-learning", שבה מטרתו של הסוכן היא לשפר את ציון הפרס שלה עם כל איטרציה של משחק, כדי להשלים משחק כמעט בלתי אפשרי וממכר באופן בלתי אפשרי.

חן יצר מערכת שבה האלגוריתם שלו עבר אופטימיזציה כדי לחפש שלושה פרסים: תגמול חיובי קטן על כל מסגרת שהוא נשאר בחיים, פרס גדול עבור עובר דרך צינור, וכן גדול לא פחות (אבל שלילי) גמול על גוסס. מוטיבציה כזו, רשת ה- Deep-q, כביכול, יכולה להערים על בני אדם, על פי הדו"ח שכתב צ'ן: "הצלחנו לשחק בהצלחה את המשחק ציפור על ידי למידה ישר מן פיקסלים ואת הציון, להשגת תוצאות סופר אנושי."

נייר Atari המקורי, שפורסם בשנת 2015 ב הטבע, הגיעה מחברת דיפמינד שבבעלות גוגל (כיום מפורסמת בזכות שליטתה במשחק הלוח הסיני העתיק). הישג DeepMind היה פריצת דרך, כי זה לקח מידע חזותי - או פיקסל, לפחות -, ועם קלט מינימלי, היה מסוגל למקסם את התגמולים. מערכת תגמולים כזו נמדדה לתגובה הדופאמינרגית של המוח, פשוט יותר.

זו לא הפעם הראשונה שאלגוריתם כבש את הציפור המתנפנפת: מחלקה קודמת של סטודנטים למדעי המחשב באוניברסיטת סטנפורד יצרה תוכנית שכאשר התאמנה בין לילה, הניקוד שלה השתפר מ -0 צינורות עברו ל -1,600.