Машините започнаха да превъзхождат хората в тестовете по четене. Но улавят ли смисъла?
Обучаването на изкуствените невронни мрежи на естествен език е сложна задача, но в последните две години беше постигнат сериозен напредък . Изкуственият интелект (ИИ) започна да превъзхожда хората в тестовете за разбиране на прочетеното. Но остава актуалния въпрос – действително ли ИИ улавя смисъла или изпълнява задачите механично?
През 2018 година група американски изследователи представи теста GLUE (General Language Understanding Evaluation), който позволява да се провери разбира ли компютърът прочетеното. Например, в една от задачите на GLUE трябва да се определи дали е вярно или не определено твърдение на база предишно изказване. Ако машината е способна да потвърди, че от фразата „президентът Тръмп се приземи в Ирак и започна своето седемдневно посещение” следва, че „президентът Тръмп замина на задгранично посещение”, значи тя преминава това изпитание.
Но и най-напредналите невронни мрежи не се справяха с тази не особено сложна задача. Най-добрите от тях получаваха не повече от 69 точки от 100, тоест оценка D+ по американската система за оценяване (между 3 и 4 по българската).
Създателите на GLUE не се учудиха на това. Въпреки че изкуственият интелект показва многообещаващи резултати в областта на обработката на естествения език, учените не бяха уверени , че ИИ знае нещо за същността на езика.
Това не продължи дълго. През октомври 2018 година Google представи своята невронна мрежа BERT, която на теста GLUE получи 80,5 бала. По този начин , машините подобриха своята оценка от D+ на В- само за шест месеца.
Но експертите както и по-рано продължаваха да се съмняват дали ИИ действително е започнал да разбира естествения език или по-добре е научил правилата на играта. И няма ли да се случи повторение на историята с Умния Ханс, конят, живял в началото на ХХ век и за който собственикът му твърдял, че може да изпълнява аритметични операции ( по-късно се изяснило, че той реагирал на поведението на стопанина си, който несъзнателно му подсказвал и до последно вярвал, че животното е разумно)?
Основният проблем
Основният проблем се състои в това, че всички правила на естествения език е много трудно да се опишат. Знаменитата фраза на лингвиста Ноам Чомски „безцветните зелени идеи яростно спят” доказва, че конструкцията може да бъде идеална от гледна точка на синтаксиса, но абсолютна безсмислена от семантична гледна точка. Но как трябва да бъдат отчетени подобни езикови нюанси?
По принцип изследователите са се опитвали да научат невронните мрежи да пишат собствени правила за съчетаемостта на езиковите единици. Този процес се наричал подготовка за тренировка. Но машините отново не отчитали разликата между смисъла на думите в изреченията.
„Те смятаха , че фразата „човек хапе куче” и „куче хапе човек” е едно и също” – казва Тал Линзен, компютърен лингвист от Университета Джон Хопкинс.
Затова можело да помогне създаването на по-детайлни правила, отчитащи не само значението на конкретните думи, но и синтаксиса, и контекста. В началото на 2018 година още една група от учени от САЩ започна да обучава невронна мрежа с използване на лингвистично моделиране.
„Най-простия пример за лингвистично моделиране изглежда така: трябва да се анализират няколко думи, а след това да се предскажат следващите. Ако аз кажа „Джордж се е родил в”, то машината трябва да за върши изречението”- уточнява Майкъл От, сътрудник от отдела за изследвания на Facebook.
Изкуственият интелект се обучава върху огромни масиви от данни в откритите интернет източници подобно на Wikipedia, но това не доведе до нужните резултати. Най-добре от всички с GLUE се справила невронната мрежа GPT, която цял месец е анализирала около милиард думи в повече от 11 хиляди цифрови книги. Но и тя е събрала само 72,8 бала.
Появата на BERT
Какво е това BERT? По думите на учените , това не е напълно обучена невронна мрежа, а по-скоро основа за нея, която може да се настрои за решаване на различни задачи, свързани с естествения език. В нея е допълват три елемента: подготовката за обучение с помощта на лингвистично моделиране, способността да се откроят най-важните елементи на изречението и нелинейното възприемане на фразите.
Същността на нелинейното възприемане се състои в това, че невронната мрежа може да вижда различни видове връзки между думите в изречението, например в „кучето хапе човека”. В частност, отношението между подлога и сказуемото ( „кучето хапе”) и сказуемото и прякото допълнение („хапе човека”). По този начин, компютърът открива връзката между думите, даже ако те не са разположени една до друга.
За разлика от другите програми , четящи отляво надясно, BERT чете едновременно от ляво надясно и отдясно наляво, а освен това може да разпознава думите по средата. Например, BERT в изречението „Джордж Буш […] в Кънектикът през 1946 година” може да предскаже пропуснатата дума „ се е родил”.
Всеки от тези три компонента – дълбоката подготовка, внимателността и двупосочността са съществували и до BERT независимо един от друг. Но всичките плюсове от тяхното обединение са открили в Google в края на 2018 година.
Недостатъците на възприятието
През юли 2019 година двама изследователи от Националния университет на Тайван решили да използват BERT в достатъчно неизвестен текст за оценка разбирането на естествения език. За неговото преминаване било нужно правилно да се подбере информация, подкрепяща аргументите в полза на определено твърдение. Например, заявявайки, че „пушенето предизвиква рак” (твърдение) , тъй като „изследванията са доказали връзката между пушенето и появата на рак” (аргумент), трябвало да посочи, че „изследванията заслужават доверие” (подкрепяща информация), а не че „изследванията струват скъпо” (това може да е истина, но в дадения случай това няма значение).
Средно при изпълнението на такава задача човек получава 80 от 100 точки. BERT събрала 77 точки. , което учудило скептиците. Но изследователите, провеждащи експеримента, заподозрели, че във формулировката на теста може да се заложени грешки, които да са повлияли на оценката, и в действителност те открили такива неточности. След тяхното отстраняване бала на BERT паднал до 53 точки, което е равнозначно на случайно познаване.
По-късно други учени предположили , че може би заради неточности в теста са такива високи резултатите на BERT и в GLUE. Излиза, че технологията е лъжа? Изследователи избягват такива категорични изказвания. Те отбелязват , че за пръв път се е появила невронна мрежа , която е получила съществени резултати в изучаването на естествения език, но засега е далеч от пълноценното му разбиране. Следващата крачка е не само да се подобри BERT, но и да се създадат по-съвършени методи за проверка , които е сложно да бъдат излъгани.