Невронна мрежа възпроизвежда лицето на човек по гласа му
Американски изследователи от Massachusetts Institute of Technology (MIT) представиха невронната мрежа Speech2Face. Обучена на базата на няколко милиона видеоматериала, тя може да създаде от спектограмата на гласа на човек примерно изображение на лицето му, базирайки се на три основни параметъра: пол, раса и възраст. Описанието на алгоритъма е публикуван arXiv.org.
По гласа на човек може с различна степен на точност да се определят някои негови особености. Лесно може да се определи пола му, по-сложно е (но е възможно) – възрастта, а наличието на определен акцент дава възможност за определяне на националността. Като резултат може да се предположи как ще изглежда човека, но тази представа няма да е достатъчно точна.
Учени от MIT под ръководството на Те Хюн О (Tae-Hyun Oh) решили да проверят може ли да се възпроизведе външността на човек по неговия глас с помощта на машинно обучение. За обучение екипът е използвал масива от данни AVSpeech, състоящ се от повече от милион кратки видеозаписи на повече от сто хиляди човека. Всеки видеофайл от базата данни съдържа аудио – и видео пътечка. Архитектурата на обучената невронна мрежа е настроена по следващия начин.
Отначало предварително обученият алгоритъм VGG-Face ( по-рано използван за създаване на модели, определящи сексуалната ориентация на човек) се използва за определяне особеностите на лицето на човек от кадрите на видеото. След това алгоритъмът създава изображение на лицето на човека в анфас с неутрално изражение. Другата част, на разработения от екипа алгоритъм, работи на база аудиопътечката на конкретния видеофайл. Използва се малък фрагмент с продължителност от 3 до 6 секунди, в който се анализира спектрограмата на речта. Така, използвайки резултатите от паралелната невронна мрежа, генерираща изображението на лицето, алгоритъмът възпроизвежда на изхода примерното лице на човека, който разговаря на видеото.
Точността на разработения алгоритъм се оценявал по три демографски показателя. Учените сравнявали пола, примерната възраст и расата на човека от видеото и изображението, създадено на база на гласа му. Въпреки че на авторите им се отдало да получат изображението на някои от хората, обективната метрика показва несъвършенството на дадения модел. В частност, моделът добре разпознава пола на човека, но рядко може да определи възрастта на човек с точност до десет години. Най-лесно тя „рисува” хора с европеидна и азиатска външност. Учените обясняват това с неравномерността на разпределение на расите в обучаващия масив от данни.
Авторите отбелязват, че целта на изследването не е била да пресъздадат точното изображение на човека по гласа му. Те са се съсредоточили върху определянето и точността на няколко основни параметъра : пол, възраст и етническа принадлежност. Именно за това, засега не може да се получи точно изображение по гласа. Но например това може да е достатъчно да се създадат анимационни аватари на човек по неговия глас. Освен това учените от екипа отбелязват, че тяхната работа има преди всичко изследователска полза, а именно генерирането на лица на основа на гласа ще помогне да се изучи как те корелират помежду си.