Мозъчен скенер в съчетание с езиков ИИ ще могат да „надничат“ в мислите ни
Нова технология, съчетаваща мозъчен скенер и езиков модел на изкуствен интелект, ще улавя същността на вътрешния монолог на човека.
Функционалната магнитно-резонансна томография (fMRI) позволява да се получат груби, цветни изображения на мозъка в действие. Въпреки че този специализиран тип магнитно-резонансна томография промени когнитивната невронаука, той не представлява машина за четене на мисли: засега невролозите не могат, гледайки на изображенията от мозъчното сканиране, да разберат какво човек е видял, чул или помислил, докато е бил изследван с помощта на скенера.
Но постепенно учените започнаха да преодоляват тази фундаментална бариера, за да преведат вътрешните преживявания в думи, използвайки изображенията на мозъка. Тази технология може да помогне на хора, които не могат да говорят или да общуват по друг начин, например, хора преживели инсулт или страдащи от амиотрофична латерална склероза (бел.ред. болестта от която страдаше Стивън Хокинг). Съществуващите интерфейси „мозък-компютър“ изискват устройства да бъдат имплантирани в мозъка, но невролозите се надяват да използват неинвазивни техники като fMRI за дешифриране на вътрешната реч без хирургическа намеса.
Изследователите направиха още една крачка напред, комбинирайки възможностите на fMRI да наблюдава невронната активност с предсказващата сила на езиковите модели, използващи изкуствения интелект. Хибридната технология направи възможно създаването на декодер, способен да възпроизвежда с удивителна точност историите, които човек е слушал или си е представял, докато е бил в скенера. Декодерът може дори да отгатне сюжета на късометражен филм, който лицето е гледало преди това, макар и с по-малка точност.
„В мозъчните данни се съдържа много повече информация, отколкото ние първоначално смятахме“, разказва на брифинг за пресата Джери Танг, специалист по изчислителна неврология в Тексаския университет в Остин и водещ автор на проведено ново изследването в тази област.
Изследването, резултатите от което са публикувани наскоро в списанието Nature Communications, Танг определя като “доказателство за концепцията, че езикът може да бъде декодиран от неинвазивни записи на мозъчната активност”.
Технологията за декодиране е още в начален стадий. Тя трябва да бъде внимателно обучена за всеки човек, който ще я използва, и не позволява създаването на точна разшифровка на думите, които той е чул или си е представял. Но въпреки това специалистите я определят като забележително постижение. Изследователите вече знаят, че езиковата система на ИИ, лежаща в основата ChatGPT, може да помогне да се направят обосновани предположения за думите, които са предизвикали мозъчна активност, само поглеждайки fMRI сканирането на мозъка. Въпреки че съществуващите технологични ограничения не позволяват широкото използване на декодера, за добро или лошо, авторите подчертават необходимостта от приемането на проактивни политики, защитаващи поверителността на вътрешните умствени процеси на човека.
„Това, което получаваме, все още е нещо като „същност“ или по-скоро преразказ на това, което е било в оригинала“, обяснява Александър Хът от Тексаския университет в Остин и старши автор на изследването.
Ето пример за това, което един от участниците в изследването е видял по време на експеримента, цитирано в статията:
„Станах от надуваемия матрак и притиснах лицето си към стъклото на прозореца на спалнята, очаквайки да видя очи, които ме гледат, но вместо това открих само тъмнина.”
Анализирайки резултатите от сканирането, моделът е дал следната разшифровка:
„Просто продължих да приближавам до прозореца за да отворя стъклото, застанах на пръсти и гледах навън, но нищо не виждах, погледнах нагоре и отново нищо не видях.”
„Като цяло имаме да извървим дълъг път, но получените резултати превъзхождат всичко, което сме имали досега в езиковото декодиране с помощта на fMRI“, казва Анна Иванова, невролог от MIT, която не е участвала в изследването.
Моделът не разбира много от историите, които декодира. Той не може да се справи с граматически характеристики, такива като местоименията. Не може да дешифрира собствените си съществителни, такива като имена и места, а понякога просто греши. Въпреки това, в сравнение с предишните методи, той постига високо ниво на точност. В 72-82 процента от случаите декодерът дешифрира смисъла на текстовете по-точно, отколкото би се очаквало при случайно стечение на обстоятелствата.
„Резултатите изглеждат впечатляващи“, казва Мартин Шримпф, специалист по изчислителна невробиология в Масачузетския технологичен институт, който също не е участвал в изследването.
Предишните опити да се използват модели на изкуствен интелект за декодиране на мозъчната активност имаха известен успех, но в крайна сметка опряха в стената. В дадения случай екипът на Танг е използвал “много по-точен модел на езиковата система”, казва Шримпф. Това е моделът GPT-1, който се появи през 2018 г. и е първоначалната версия на GPT-4, моделът, който сега е в основата на ChatGPT.
Вече няколко десетилетия невролозите работят върху дешифрирането на резултатите от fMRI сканиранията на мозъка, за да дадат възможност за комуникация на хора, нямащи друга възможност да общуват с външния свят. В едно от ключовите изследвания в тази област от 2010 г., изследователите са използвали fMRI, за да задават въпроси, предполагащи отговори с „да“ или „не“ на човек, който е нямал контрол над тялото си и външно е изглеждал в безсъзнание.
Но дешифрирането на цели думи и фрази е много по-трудна задача. Най-голямото препятствие е самият fMRI, който не измерва директно бързото задействане на невроните в мозъка, а наблюдава бавните промени в кръвния поток, който доставя кислород на невроните. Проследяването на тези относително бавни промени кара fMRI сканирането да изглежда „замъглено“ във времето: представете си фотография с дълга експозиция на оживен градски тротоар, на която чертите на лицата са размити. По същия начин да се опитвате да определите какво се случва в мозъка във всеки един момент на база fMRI изображенията е като да се опитвате да идентифицирате хората от тази снимка. Този проблем е особено важен за дешифрирането на езика, който „прелита“ много бързо: на едно fMRI изображение се записва реакцията от около 20 думи.
Оказва се, че прогностичните способности на езиковите модели на ИИ могат да помогнат именно за решаването на този проблем. В новото изследване трима участници са лежали неподвижно в fMRI скенер по време на 15 сесии с обща продължителност от 16 часа. Чрез слушалки те са слушали откъси от подкасти и радио предавания като The Moth Radio Hour и Modern Love от New York Times. В същото време скенерът е проследявал притока на кръв в различни области на мозъка, свързани с езика. Тези данни са били използвани за обучение на изкуствения интелект, който е търсил закономерностите при мозъчната активация на всеки от участниците в отговор на определени думи и понятия.
След идентифицирането на тези закономерности, моделът е получавал нова поредица от мозъчни изображения и е предсказал какво е слушал човекът в момента, в който те са били направени. Моделът постепенно е обработвал сюжета, сравнявайки новите снимки с прогнозираните от ИИ модела различни кандидат-думи. Вместо да тестват всяка дума от английския език, изследователите са използвали GPT-1, за да предвидят кои думи е най-вероятно да се появят в един или друг контекст. Така се е създавал малък набор от възможни последователности от думи, от които е бил избиран най-вероятният кандидат. След това GPT-1 е преминавал към следващата поредица от думи, докато дешифрира цялата история.
Изследователите са използвали същите методи за декодиране на историите, които участниците сами са си представяли. Участниците били помолени да представят себе си в ролята на разказвачи на подробна едноминутна история. Въпреки че точността на дешифриране е намаляла, моделът се е представил доста по-добре от колкото се очаквало в сравнение със случайните последователности. Това показва, че при въображението и възприятието се задействат сходни области на мозъка. Способността да се превежда въображаема реч в думи е много важна за развитието на интерфейсите „мозък-компютър“ за хора, които не са способни на езикова комуникация.
Но получените резултати излезли извън рамките на езика. Най-изненадващият резултат е бил получен, когато участниците са гледали в скенера късометражни анимационни филми без звук. Въпреки че декодерът е бил обучен изключително за разговорна реч, той все пак успял да дешифрира историите от немите филми, получени в резултат на мозъчните сканирания на участниците.
„Бях по-изненадан от видеото, отколкото от въображаемата реч, защото филмите бяха без звук.“ казва Хът по време на брифинга за пресата, „Мисля, че ние дешифрирахме нещо по-дълбоко от езика.“
Въпреки това, предстоят още години работа преди да започне практическото използване на тази технология в качеството и на интерфейс „мозък-компютър“. Първо, технологията за сканиране не е преносима – в момента апаратите за МРТ заемат цели стаи в болниците и изследователските институти, и струват милиони долари. Екипът на Хът обаче работи за адаптиране на получените резултати към съществуващите системи за визуализация на мозъчната активност, които могат да се носят като шапка, такива като функционалната спектроскопия в близката инфрачервена област (fNIRS) и електроенцефалографията (EEG).
Технологията, използвана в новото изследване, също така изисква внимателна настройка за всеки отделен човек, което изисква няколко часа събиране на данни с помощта на fMRI.
„ Това не е както със слушалките, които можете просто да поставите в ушите си и да започнат да работят за вас“, казва Танг „ За всеки потребител на ИИ моделите, те трябва да бъдат обучавани, така че да се „адаптират и приспособяват към вашия мозък“, добавя той.
Шримпф предполага, че в бъдеще, когато изследователите идентифицират общите характеристики на човешкия мозък, технологията ще изисква все по-малко персонализиране. За разлика от него Хът смята, че по-точните модели ще бъдат по-детайлни, тоест изискващи още по-фина настройка.
Освен това екипът е тествал технологията, за да установят какво може да се случи, ако някой иска да се противопостави на сканирането или да го саботира. Участникът в изследването просто е можел да го фалшифицира, разказвайки в главата си съвсем различна история. Когато изследователите помолили участниците да направят това, резултатите се оказали пълна безсмислица, а декодерът просто се „разпаднал“.
Авторите подчертават, че дори на този ранен етап е важно да се обмисли политика за защита на поверителността на нашите вътрешни думи и мисли.
„Засега тази и подобни технологии не са в такова функционално състояние, за да започнат да вършат наистина гнусни неща. Но ние не искаме да допуснем това да се случи, преди да се разработят политики, които да го предотвратяват.“ – резюмира Танг.