fbpx

Невронна мрежа възпроизвежда лицето на човек по гласа му

Американски изследователи от Massachusetts Institute of Technology (MIT) представиха невронната мрежа Speech2Face. Обучена на базата на няколко милиона видеоматериала, тя може да създаде от спектограмата на гласа на човек примерно изображение на лицето му, базирайки се на три основни параметъра: пол, раса и възраст. Описанието на алгоритъма е публикуван arXiv.org.

По гласа на човек може с различна степен на точност да се определят някои негови особености. Лесно може да се определи пола му, по-сложно е (но е възможно) – възрастта, а наличието на определен акцент дава възможност за определяне на националността. Като резултат може да се предположи как ще изглежда човека, но тази представа няма да е достатъчно точна.

Учени от MIT под ръководството на Те Хюн О (Tae-Hyun Oh) решили да проверят може ли да се възпроизведе външността на човек по неговия глас с помощта на машинно обучение. За обучение екипът е използвал масива от данни AVSpeech, състоящ се от повече от милион кратки видеозаписи на повече от сто хиляди човека. Всеки видеофайл от базата данни съдържа аудио – и видео пътечка. Архитектурата на обучената невронна мрежа е настроена по следващия начин.

Схема на работата на алгоритъма
Източник: Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Wojciech Matusik / Massachusetts Institute of Technology

Отначало предварително обученият алгоритъм VGG-Face ( по-рано използван за създаване на модели, определящи сексуалната ориентация на човек) се използва за определяне особеностите на лицето на човек от кадрите на видеото. След това алгоритъмът създава изображение на лицето на човека в анфас с неутрално изражение. Другата част, на разработения от екипа алгоритъм, работи на база аудиопътечката на конкретния видеофайл. Използва се малък фрагмент с продължителност от 3 до 6 секунди, в който се анализира спектрограмата на речта. Така, използвайки резултатите от паралелната невронна мрежа, генерираща изображението на лицето, алгоритъмът възпроизвежда на изхода примерното лице на човека, който разговаря на видеото.

Реални изображения, реконструирани от изображение, рекоструирани по глас
Източник: Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Wojciech Matusik / Massachusetts Institute of Technology

Точността на разработения алгоритъм се оценявал по три демографски показателя. Учените сравнявали пола, примерната възраст и расата на човека от видеото и изображението, създадено на база на гласа му. Въпреки че на авторите им се отдало да получат изображението на някои от хората, обективната метрика показва несъвършенството на дадения модел. В частност, моделът добре разпознава пола на човека, но рядко може да определи възрастта на човек с точност до десет години. Най-лесно тя „рисува” хора с европеидна и азиатска външност. Учените обясняват това с неравномерността на разпределение на расите в обучаващия масив от данни.

Матрица на грешките по пол, възраст и раса
Източник: Tae-Hyun Oh, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman, Michael Rubinstein, Wojciech Matusik / Massachusetts Institute of Technology

Авторите отбелязват, че целта на изследването не е била да пресъздадат точното изображение на човека по гласа му. Те са се съсредоточили върху определянето и точността на няколко основни параметъра : пол, възраст и етническа принадлежност. Именно за това, засега не може да се получи точно изображение по гласа. Но например това може да е достатъчно да се създадат анимационни аватари на човек по неговия глас. Освен това учените от екипа отбелязват, че тяхната работа има преди всичко изследователска полза, а именно генерирането на лица на основа на гласа ще помогне да се изучи как те корелират помежду си.

0 0 votes
Article Rating
guest
0 Comments
Inline Feedbacks
View all comments
Дари
0
Would love your thoughts, please comment.x
()
x