דיפפייקס האם אין התאמה ללמידה מכונה - הנה למה

תוכן עניינים:

Anonim

צורה חדשה של מידע מוטעה עומד להתפשט דרך קהילות מקוונות כמו 2018 אמצע הקדמה הבחירות בחום להתחמם. נקרא "מעמקים" אחרי חשבון מקוון pseudonymous כי popularized את הטכניקה - אשר אולי בחרו את שמו כי התהליך משתמש בשיטה טכנית בשם "למידה עמוקה" - קטעי וידאו מזויפים אלה נראים מציאותיים מאוד.

עד כה, אנשים השתמשו קטעי וידאו עמוקים פורנוגרפיה סאטירה כדי לגרום לזה להופיע כי אנשים מפורסמים עושים דברים שהם לא היו בדרך כלל. אבל זה כמעט בטוח לעומק יופיעו במהלך עונת הקמפיין, מתיימר להציג מועמדים אומרים דברים או הולך למקומות המועמד האמיתי לא.

בגלל טכניקות אלה הם כל כך חדש, אנשים מתקשים לספר את ההבדל בין קטעי וידאו אמיתיים ואת קטעי וידאו לעומק. עבודתי, עם חברי מינג-צ'ינג צ'אנג ודוקטורט שלנו סטודנט Yuezun Li, מצא דרך אמין לספר קטעי וידאו אמיתיים מתוך קטעי וידאו לעומק. זה לא פתרון קבע, כי הטכנולוגיה תשתפר. אבל זה התחלה, ומציע תקווה כי המחשבים יוכלו לעזור לאנשים לספר את האמת מתוך בדיוני.

ללא שם: מה זה "דיפיק", בכל זאת?

הפיכת סרטון לעומק הוא הרבה יותר כמו תרגום בין שפות. שירותים כגון Google Translate משתמשים בלמידה ממוחשבת - ניתוח מחשב של עשרות אלפי טקסטים בשפות מרובות - כדי לאתר דפוסים לשימוש במילה שבה הם משתמשים כדי ליצור את התרגום.

אלגוריתמים מעמיקים פועלים באותה צורה: הם משתמשים בסוג של מערכת למידה ממוחשבת הנקראת רשת עצבית עמוקה כדי לבחון את תנועות הפנים של אדם אחד. לאחר מכן הם מסנתזים תמונות של פרצוף של אדם אחר המקביל תנועות אנלוגיות. פעולה זו יוצרת באופן אפקטיבי סרטון של אדם היעד המופיע או אומר את הדברים שאדם המקור עשה.

לפני שהם יכולים לעבוד כמו שצריך, רשתות עצביות עמוק צריך הרבה מידע המקור, כגון תמונות של אנשים להיות המקור או יעד של התחזות. ככל שיותר תמונות המשמשות להכשרת אלגוריתם לעומק הדיבור, כך תהיה ההבחנה הדיגיטלית יותר מציאותית יותר.

זיהוי מהבהב

ישנם עדיין פגמים בסוג חדש זה של אלגוריתם. אחת מהן קשורה לאופן שבו הפנים המדומות מהבהבות - או לא. בני אדם בריאים בריאים מהבהבים אי שם בין כל 2 ו 10 שניות, ו מצמוץ אחד לוקח בין עשירית וארבע עשיריות השנייה. זה מה יהיה נורמלי לראות בסרטון של אדם מדבר. אבל זה לא מה שקורה קטעי וידאו רבים.

כאשר אלגוריתם Deepfake מאומן על תמונות פנים של אדם, זה תלוי בתמונות הזמינים באינטרנט, כי ניתן להשתמש בנתונים אימון. גם עבור אנשים שצולמו לעתים קרובות, תמונות מעטות זמינות באינטרנט מראה את עיניהם עצומות. לא רק תמונות כאלה נדירות - כי העיניים של האנשים פתוחות רוב הזמן - אבל צלמים לא בדרך כלל לפרסם תמונות שבהן העיניים של הנושאים העיקריים סגורים.

ללא הכשרה של תמונות של אנשים מהבהבים, אלגוריתמים עמוקים פחות נוטים ליצור פרצופים מהבהבים כרגיל.כאשר אנו מחשבים את השיעור הכולל של מהבהב ומשווים את זה עם טווח טבעי, מצאנו כי תווים קטעי וידאו לעומק למצמץ הרבה פחות בתדירות בהשוואה אנשים אמיתיים. המחקר שלנו משתמש בלמידה של מכונה כדי לבחון את פתיחת העין וסגירתם בסרטונים.

ראה גם: הוליווד לא יטיל כוכבי אסיה-אמריקאים, אבל א.י. מכונת למידה יכול

זה נותן לנו השראה כדי לזהות קטעי וידאו לעומק. לאחר מכן, אנו מפתחים שיטה לזיהוי כאשר האדם בווידיאו מהבהב. כדי להיות יותר ספציפי, הוא סורק כל מסגרת של וידאו המדובר, מזהה את הפנים בו, ואז מאתר את העיניים באופן אוטומטי. לאחר מכן הוא מנצל רשת עצבית עמוקה נוספת כדי לקבוע אם העין מזוהה פתוח או סגור, באמצעות המראה של העין, תכונות גיאומטריות, ואת התנועה.

אנו יודעים כי העבודה שלנו היא ניצול של פגם בסוג של נתונים זמינים להכשיר אלגוריתמים לעומק. כדי למנוע נפילה טרף לליקוי דומה, יש לנו הכשרה המערכת שלנו על ספריה גדולה של תמונות של עיניים פתוחות וסגורות. נראה ששיטה זו פועלת היטב, וכתוצאה מכך השגנו שיעור גילוי של מעל 95%.

זו לא המילה האחרונה על גילוי מעמקים, כמובן. הטכנולוגיה משתפרת במהירות, והמתחרים בין הפקת קטעי וידאו מזויפים וגילוים מקבילים למשחק שחמט. בפרט, מהבהב ניתן להוסיף קטעי וידאו עמוק על ידי כולל תמונות פנים עם עיניים עצומות או באמצעות רצפים וידאו לאימון. אנשים שרוצים לבלבל את הציבור ישתפר בהפיכת סרטונים מזויפים - ואנחנו ואחרים בקהילת הטכנולוגיה נצטרך להמשיך ולמצוא דרכים לזהות אותם.

מאמר זה פורסם במקור על השיחה על ידי Siwei ליו. קרא את המאמר המקורי כאן.