איך DeepMind פיתח אירי עצמי. זה יכול להערים על בני אדם

DeepMind x UCL | Deep Learning Lectures | 6/12 | Sequences and Recurrent Networks

DeepMind x UCL | Deep Learning Lectures | 6/12 | Sequences and Recurrent Networks

תוכן עניינים:

Anonim

מחשבים כבר בועט את התחת האנושי שברירי שלנו שחמט במשך כמה עשרות שנים. בפעם הראשונה זה קרה ב -1996, כאשר כחול עמוק של יבמ היה מסוגל לקחת את אלוף העולם גארי Kasperov. אבל מחקר חדש מאלפבית של A.I. התלבושת דיפמנד שופכת אור על מידת ההיקף המוגבלת שבה היה הניצחון המוקדם.

ראשית, קספרוב ניתר לאחור, וזכה בשלושה משחקים וציור פעמיים בפלייאוף של שישה משחקים, לכל שחקן זקן חדשות היום להגיש תלונה.

אבל הרבה יותר בולט, כפי שחוקר דיפמינד חוליאן שריטוויזר מספר הפוך, יישומים כמו כחול עמוק היו מתוכנתים גם באופן ידני. משמעות הדבר היא כי בני האדם היו צריכים ללמד את א. כל מה שהיה צריך לדעת על איך להתמודד עם כל מקרה שניתן להעלות על הדעת. במילים אחרות, זה יכול רק פעם להיות טוב כמו תכנות אנשים זה היה. ובעוד דיפ בלו היה ברור יכול להיות די טוב בשחמט; לתת לו עוד, דומה, משחק כמו Go וזה היה קלול.

אלפא אפס שונה לחלוטין. במחקר חדש שפורסם היום בכתב העת מדע, המחברים מגלים איך הם הצליחו לא רק ללמד אלפא אפס איך לנצח בני אדם בשחמט, אבל איך ללמד אלפא אפס איך ללמד את עצמו לשלוט במשחקים מרובים.

איך ללמד את א. ללמד את עצמו

אלפא אפס פותחה באמצעות טכניקה הנקראת למידה חיזוק עמוק. בעיקרון, זה כולל הוראה של א. משהו פשוט מאוד, כמו הכללים הבסיסיים של שחמט, ואז לעשות את הדבר הפשוט שוב ​​ושוב ושוב עד שהוא לומד יותר מסובך, דברים מעניינים כמו אסטרטגיות וטכניקות.

"באופן מסורתי … בני אדם היו לוקחים את הידע שלהם על המשחק ומנסים לקוד אותו בכללים", אומר שריטוויזר, שעובד על אלפא זירו כבר כמעט ארבע שנים. "הגישה שלנו היא לאתחל באופן אקראי, ולאחר מכן לתת לה לשחק משחקים נגד עצמה, ומשחקים אלה עצמם הוא יכול ללמוד מה אסטרטגיות לעבוד."

כל אלפא אפס מקבל את הכללים הבסיסיים, ומשם הוא לומד איך לנצח על ידי משחק את עצמו. על פי הממצאים החדשים, זה לקח רק 9 שעות עבור אלפא זירו כדי לשלוט שחמט, 12 שעות כדי לשלוט שוגי, על 13 ימים כדי לשלוט גו. כי זה משחק את עצמו, זה בעצם לימד. זה עשה mincemeat של כל אלוף העולם אלגוריתם מונחה אנושי, להכות את אלוף העולם ב 2017 שוגי 91 אחוז מהזמן.

"זה יכול לגלות באופן עצמאי ידע מעניין על המשחק", אומר שריטוויזר. "זה מוביל לתוכניות שמשחקות יותר אנושיות".

אף על פי שסגנונו הוא אנושי ויצירתי, סביר להניח כי הוא אופטימלי, הוא אומר, מספיק כדי שהאלפא זירו יוכל לשלוט בכל משחק שבו יש לו גישה לכל המידע הזמין. למעשה, אלפא אפס הוא כל כך מתוחכם, ייתכן שנצטרך לעבור למעמד שונה לגמרי של משחקים כדי להמשיך לדחוף את הגבולות של איך א. פותר בעיות.

למה אפס אלפא הוא כל כך טוב

A.I. חוקרים אוהבים להשתמש במשחקים אלה כבסיס בדיקה לצורות מתוחכמות יותר ויותר של אלגוריתמים מכמה סיבות. הם אלגנטיים, ואנשים שיחקו אותם במשך מאות שנים, עבור אחד, כלומר יש לך הרבה מתמודדים פוטנציאליים לבדוק את האלגוריתם שלך ב. אבל הם גם מסובכים ומורכבים, כלומר, הם יכולים לשמש אבן דריכה לא.י. זה יכול לפתור בעיות בעולם האמיתי. Schrittwieser אומר את האזור הבא של המחקר הוא יצירת אלגוריתם כמו אלפא אפס אשר עדיין יכול לקבל החלטות אופטימליות עם מידע לא מושלם.

"בכל המשחקים האלה אתה יודע כל מה שקורה", הוא אומר. "בעולם האמיתי, אתה יכול רק לדעת חלק מהמידע. אתה אולי מכיר את הקלפים שלך, אבל אתה לא יודע את היריב שלך, יש לך מידע חלקי."

יש עדיין כמה לוחות משחק המסוגלים לתת אלגוריתמים כמו אלפא אפס אתגר מסוג זה, גם - שריטוויזר הזכיר את "סטרטו", שבו שחקנים מסתירים את המהלכים ביניהם - וסטארקראפט, שהיא תחום נוסף שמעניין את חוקרי המשחק של דיפמינד.

"אנחנו רוצים לעשות את הבעיות שאנחנו מתמודדים יותר ויותר מורכבים", הוא אומר. "אבל זה תמיד ממד אחד בכל פעם."

עם זאת, הדור הבא של מחשבי הבעיה הממוחשבים של Deep Deep כבר מציג את הפוטנציאל לעבור מעולם המשחקים לעולם האמיתי. מוקדם יותר השבוע, היא הודיעה על אלגוריתם נוסף שנקרא AlphaFold, אשר מסוגל extrolating רצף חלבון לתוך חיזוי מדויק של המבנה 3D שלה.זה בעיה זה befuddled מדענים במשך עשרות שנים יכול לעזור לפתוח את הדלת לרפא מחלות הנעות בין אלצהיימר סיסטיק פיברוזיס.