אלגוריתם חדש של MIT יכול לחזות אינטראקציות אנושיות לפני שהם מקבלים מביך

DarkOrbit [TKM]§¨ªВƒŁ§¨ª(MMØ) feiert DO Geburtstag

DarkOrbit [TKM]§¨ªВƒŁ§¨ª(MMØ) feiert DO Geburtstag
Anonim

חוסר היכולת שלנו לקרוא אנשים אחרים הובילה כמה אפי גבוה חמש נכשל נשיקות החמיצו. גם לאחר ניסיון של חיים, קשה לחזות אינטראקציות אנושיות. אבל חוקרים במעבדה למדעי המחשב והאינטליגנציה מלאכותית של MIT חושבים שהם יכולים לעזור: בעזרת אלגוריתם חדש ללמידה עמוקה שיכול לחזות מתי שני אנשים יחבקו, ינשקו, ילחצו ידיים או חמישה, הם עשו צעד גדול לקראת העתיד מבורך ללא רגעים מביכים.

הם מקווים שהאלגוריתם החדש שלהם - מאומן ב -600 שעות של סרטוני YouTube ותוכניות טלוויזיה המשרד, סקראבס, תאוריית המפץ הגדול, ו עקרות בית נואשות - ניתן להשתמש בהם כדי לתכנת פחות רובוטים מביכים מבחינה חברתית ולפתח אוזניות בסגנון Google Glass כדי להציע פעולות עבורנו לפני שיהיה לנו אפילו סיכוי להחמיץ. בעתיד הם מדמיינים, לעולם לא תסתבכו עוד הזדמנות לאוויר גבוה עם עמית לעבודה שלכם.

ההבנה כי הרובוטים לומדים להיות חברתיים באותה דרך שאנחנו עושים היה המפתח להצלחת האלגוריתם. "בני אדם באופן אוטומטי ללמוד לצפות פעולות באמצעות ניסיון, וזה מה שעשה אותנו מעוניינים לנסות להשרות מחשבים עם אותו סוג של שכל ישר", אומר CSAIL Ph.D. סטודנט קארל Vondrick, המחבר הראשון על נייר בנושא להיות מוצג השבוע בכנס הבינלאומי על חזון מחשב הכרה דפוס. "רצינו להראות כי רק על ידי צפייה בכמויות גדולות של וידאו, מחשבים יכולים לקבל מספיק ידע כדי בעקביות לבצע תחזיות לגבי הסביבה שלהם."

וונדריק וצוותו לימדו את "הרשתות העצביות" של האלגוריתם כדי לנתח כמויות עצומות של נתונים במקרה זה, שעות של חמש גבוה של ג 'ים ו פאם, ואת מייק סוזן של נשיקות חשאי, על עצמו. אם ניקח בחשבון גורמים כמו זרועות מושטות, יד מורמת או מבט ממושך, ניחשו כל אחת מן הרשתות העצביות את מה שיקרה בשנייה הבאה, וההסכמה הכללית של הרשתות נלקחה כ"חיזוי" הסופי לימוד.

האלגוריתם הגיע ליותר מ -43% מהמקרים. אמנם זה אולי לא נראה גבוה מספיק כדי להבטיח את האינטראקציות היומיומיות שלנו יהיה פחות מוזר, זה שיפור גדול על הקיים אלגוריתמים, אשר יש דיוק של רק 36 אחוזים.

חוץ מזה, בני אדם יכולים רק לחזות פעולות 71 אחוז מהמקרים. אנו זקוקים לכל העזרה שאנו יכולים להשיג.

בחלקו השני של המחקר נלמד האלגוריתם לחזות מה אובייקט - סיטקום מקומי מצרכים כמו remotes, מנות, פחיות אשפה - יופיעו בסצינה חמש שניות מאוחר יותר. לדוגמה, אם דלת מיקרוגל נפתחת, יש סיכוי גבוה יחסית ספל יופיע הבא.

האלגוריתם שלהם אינו מדויק מספיק עבור Google Glass עדיין, אך עם המחבר המחבר אנטוניו טורלבה, Ph.D. - ממומן על ידי Google Research Research Award ו Vondrick עובד עם Google Ph.D. המלגה - אנחנו יכולים להתערב שהיא מגיעה לשם. גירסאות עתידיות של האלגוריתם, צופה Vondrick, יכולות לשמש לתכנות רובוטים כדי לקיים אינטראקציה עם בני אדם או אפילו ללמד מצלמות אבטחה להירשם כאשר אדם נופל או מקבל נפגע.

"וידאו הוא לא כמו 'בחר הרפתקה משלך' ספר שבו אתה יכול לראות את כל נתיבים פוטנציאליים," אומר Vondrick. "העתיד הוא מטבעו מעורפל, ולכן זה מרגש לאתגר את עצמנו לפתח מערכת שמשתמשת בייצוגים אלה כדי לצפות את כל האפשרויות".