DeepMind A.I. מגשר על הפער בין רובוט לקולות אנושיים

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

אינטליגנציה מלאכותית פשוט עשה קולות הרובוט נשמע הרבה יותר מציאותי.

DeepMind, אשר בעבר הוכיח את כוחו של A.I. על ידי מכות אדם אנושי ב Go בחודש מרץ חיתוך חשבון החשמל שלה במחצית בחודש יולי, מתמקדת כעת סינתזה דיבור.

קבוצת המחקר של A.I, שהיא חלק מחברת האב של גוגל, חושפת הבוקר כי היא יצרה טכנולוגיה חדשה בשם WaveNet, שניתן להשתמש בה ליצירת דיבור, מוסיקה וצלילים אחרים בצורה מדויקת יותר מבעבר.

DeepMind מסביר ששיטות רבות של סינתזת דיבור קיימות מסתמכות על "מסד נתונים גדול מאוד של שברי דיבור קצרים שנרשמו מדובר יחיד ולאחר מכן מתווספים ליצירת ביטויים שלמים". WaveNet, לעומת זאת, משתמש ב"גלי הגל הגולמי של אות השמע "כדי ליצור יותר קולות וקולות מציאותיים.

משמעות הדבר היא כי WaveNet עובד עם קולות בודדים נוצר כאשר אדם מדבר במקום להשתמש בהברות להשלים או מילים שלמות. צלילים אלה הם מכן לרוץ באמצעות "חישובית יקר" תהליך DeepPind מצא כי "חיוני להפקת מורכבים, מציאותי נשמע אודיו" עם מכונות.

התוצאה של כל העבודה הנוספת הזו היא שיפור של 50% בדיבור מסונתז באנגליה ובסינית מנדרין. הנה דוגמה של דיבור שנוצר באמצעות טקסט לדיבור פרמטרי, שכיח היום, בשימוש על ידי DeepMind כדי להדגים כיצד שיטת סינתזה דיבור זה חסר:

והנה דוגמה של אותו משפט שנוצר על ידי WaveNet:

כמו חברות להמשיך את עבודתם על ממשקי שפה טבעית, מציע תגובות מציאותיות יותר נשמע הולך להיות חשוב יותר ויותר. WaveNet יכול לעזור לפתור את הבעיה.