איך DeepMind פיתח אירי עצמי. זה יכול להערים על בני אדם

DeepMind x UCL | Deep Learning Lectures | 6/12 | Sequences and Recurrent Networks

תוכן עניינים:

איך ללמד את א. ללמד את עצמו
למה אפס אלפא הוא כל כך טוב

מחשבים כבר בועט את התחת האנושי שברירי שלנו שחמט במשך כמה עשרות שנים. בפעם הראשונה זה קרה ב -1996, כאשר כחול עמוק של יבמ היה מסוגל לקחת את אלוף העולם גארי Kasperov. אבל מחקר חדש מאלפבית של A.I. התלבושת דיפמנד שופכת אור על מידת ההיקף המוגבלת שבה היה הניצחון המוקדם.

ראשית, קספרוב ניתר לאחור, וזכה בשלושה משחקים וציור פעמיים בפלייאוף של שישה משחקים, לכל שחקן זקן חדשות היום להגיש תלונה.

אבל הרבה יותר בולט, כפי שחוקר דיפמינד חוליאן שריטוויזר מספר הפוך, יישומים כמו כחול עמוק היו מתוכנתים גם באופן ידני. משמעות הדבר היא כי בני האדם היו צריכים ללמד את א. כל מה שהיה צריך לדעת על איך להתמודד עם כל מקרה שניתן להעלות על הדעת. במילים אחרות, זה יכול רק פעם להיות טוב כמו תכנות אנשים זה היה. ובעוד דיפ בלו היה ברור יכול להיות די טוב בשחמט; לתת לו עוד, דומה, משחק כמו Go וזה היה קלול.

אלפא אפס שונה לחלוטין. במחקר חדש שפורסם היום בכתב העת מדע, המחברים מגלים איך הם הצליחו לא רק ללמד אלפא אפס איך לנצח בני אדם בשחמט, אבל איך ללמד אלפא אפס איך ללמד את עצמו לשלוט במשחקים מרובים.

איך ללמד את א. ללמד את עצמו

אלפא אפס פותחה באמצעות טכניקה הנקראת למידה חיזוק עמוק. בעיקרון, זה כולל הוראה של א. משהו פשוט מאוד, כמו הכללים הבסיסיים של שחמט, ואז לעשות את הדבר הפשוט שוב ושוב ושוב עד שהוא לומד יותר מסובך, דברים מעניינים כמו אסטרטגיות וטכניקות.

"באופן מסורתי … בני אדם היו לוקחים את הידע שלהם על המשחק ומנסים לקוד אותו בכללים", אומר שריטוויזר, שעובד על אלפא זירו כבר כמעט ארבע שנים. "הגישה שלנו היא לאתחל באופן אקראי, ולאחר מכן לתת לה לשחק משחקים נגד עצמה, ומשחקים אלה עצמם הוא יכול ללמוד מה אסטרטגיות לעבוד."

כל אלפא אפס מקבל את הכללים הבסיסיים, ומשם הוא לומד איך לנצח על ידי משחק את עצמו. על פי הממצאים החדשים, זה לקח רק 9 שעות עבור אלפא זירו כדי לשלוט שחמט, 12 שעות כדי לשלוט שוגי, על 13 ימים כדי לשלוט גו. כי זה משחק את עצמו, זה בעצם לימד. זה עשה mincemeat של כל אלוף העולם אלגוריתם מונחה אנושי, להכות את אלוף העולם ב 2017 שוגי 91 אחוז מהזמן.

"זה יכול לגלות באופן עצמאי ידע מעניין על המשחק", אומר שריטוויזר. "זה מוביל לתוכניות שמשחקות יותר אנושיות".

אף על פי שסגנונו הוא אנושי ויצירתי, סביר להניח כי הוא אופטימלי, הוא אומר, מספיק כדי שהאלפא זירו יוכל לשלוט בכל משחק שבו יש לו גישה לכל המידע הזמין. למעשה, אלפא אפס הוא כל כך מתוחכם, ייתכן שנצטרך לעבור למעמד שונה לגמרי של משחקים כדי להמשיך לדחוף את הגבולות של איך א. פותר בעיות.

למה אפס אלפא הוא כל כך טוב

A.I. חוקרים אוהבים להשתמש במשחקים אלה כבסיס בדיקה לצורות מתוחכמות יותר ויותר של אלגוריתמים מכמה סיבות. הם אלגנטיים, ואנשים שיחקו אותם במשך מאות שנים, עבור אחד, כלומר יש לך הרבה מתמודדים פוטנציאליים לבדוק את האלגוריתם שלך ב. אבל הם גם מסובכים ומורכבים, כלומר, הם יכולים לשמש אבן דריכה לא.י. זה יכול לפתור בעיות בעולם האמיתי. Schrittwieser אומר את האזור הבא של המחקר הוא יצירת אלגוריתם כמו אלפא אפס אשר עדיין יכול לקבל החלטות אופטימליות עם מידע לא מושלם.

"בכל המשחקים האלה אתה יודע כל מה שקורה", הוא אומר. "בעולם האמיתי, אתה יכול רק לדעת חלק מהמידע. אתה אולי מכיר את הקלפים שלך, אבל אתה לא יודע את היריב שלך, יש לך מידע חלקי."

יש עדיין כמה לוחות משחק המסוגלים לתת אלגוריתמים כמו אלפא אפס אתגר מסוג זה, גם - שריטוויזר הזכיר את "סטרטו", שבו שחקנים מסתירים את המהלכים ביניהם - וסטארקראפט, שהיא תחום נוסף שמעניין את חוקרי המשחק של דיפמינד.

"אנחנו רוצים לעשות את הבעיות שאנחנו מתמודדים יותר ויותר מורכבים", הוא אומר. "אבל זה תמיד ממד אחד בכל פעם."

עם זאת, הדור הבא של מחשבי הבעיה הממוחשבים של Deep Deep כבר מציג את הפוטנציאל לעבור מעולם המשחקים לעולם האמיתי. מוקדם יותר השבוע, היא הודיעה על אלגוריתם נוסף שנקרא AlphaFold, אשר מסוגל extrolating רצף חלבון לתוך חיזוי מדויק של המבנה 3D שלה.זה בעיה זה befuddled מדענים במשך עשרות שנים יכול לעזור לפתוח את הדלת לרפא מחלות הנעות בין אלצהיימר סיסטיק פיברוזיס.

זה רובוט Fratty יד פיתח מיומנויות מוטוריים חמורות והוא יכול לרסק פחיות

רובוטי האידיאלי רובוטי ישמור על הבית נקי על ידי שטיפת כלים, כביסה, וניקוי אחרי אסונות קולינריים. אבל זה צריך גם לשמור את זה אמיתי, על ידי גבוה fiving לך כאשר אתה זוכה בסיבוב של Fortnite או לזרוק שאקה כאשר אתה חוזר הביתה מהעבודה.

רובוט דמוי אדם זה משמש SXSW לאסוף נתונים על בני אדם

הנסון רובוטיקס הציגה מספר רובוטים דמויי חיים בעבר, והיצירה האחרונה של החברה, סופיה, היתה הסלבריטאית הפופולרית ביותר ב- SXSW Interactive לאחרונה. צוות החברה הציג אותה בפני פאנלים וראיונות עם עיתונאים כדי לבחון הן את תגובותיה המילוליות והן את הפנים. שתי מצלמות ...

נאס"א חושב זה יכול לשלוח בני אדם למוריאן אורביט על ידי 2033

בוועדה המייעצת של נאס"א לחקירה והתפעול של חברי הוועדה ביום שני, ביל גרסטנמאייר, המנהל השותף של HEO בסוכנות, אמר כי הוא מאמין שנוכל לאסטרונאוטים להגיע למסלול מאדים - או לבצע טיסה קצרה של האדום כוכב הלכת - על ידי 2033. על פי הנוכחי ...