fbpx
Изкуствен интелектНаука и технологии

Изкуственият интелект помага да разберем как се обучава човешкия мозък

Чрез оптимизиране на алгоритмите за „обучение с утвърждение”, DeepMind разкри нови подробности за това как допаминът помага на мозъка да се обучава.

Изкуственият интелект на компанията Deep Mind (дъщерна компания на Alphabet, т.е. Google) има доста впечатляващи постижения. През 2016 година техниятт алгоритъм AlphaZero успя да победи световния шампион в играта Го Ли Седол с резултат 4:1, а през 2019 година друг алгоритъм AlphaStar започна в реално време да побеждава професионални играчи в StarCraft. В началото на тази година от DeepMind заявиха, че техният алгоритъм се е научил да разпознава рак на гърдата в ранни етапи с помощта само на рентгенови снимки. Последното им изследване на създадения от тях изкуствен интелект е позволило по-точно да се вникне в работата на човешкия мозък.

През 1951 година студентът от Харвард Марвин Мински е разработил своята първа, още лампова, обучаваща се невронна мрежа. Той е конструирал мрежата на база принципите, открити от световно известния руски физиолог и психолог Иван Павлов. Компютърът на Мински се е учил благодарение на системата от „награди“ и „наказания“. По него време неврофизиолозите не са разбирали напълно механизмите на мозъка, които позволявали на животните да се учат по този начин. По тази причина невронната мрежа на Мински всъщност е повтаряла поведението на животните. Почти 70 години след това именно невронните мрежи са помогнали на учените да се приближат до разбирането, как протича процеса на обучение в мозъка.

Когато невронната мрежа работи на принципа на обучение с утвърждение, тя извършва определени действия и разбира, че някои от тях се „награждават“, а други се „наказват“. С течение на времето, изкуственият интелект коригира своята работа, така че да получи максимум награди.

Приблизително същото се случва и в човешкия мозък , където източниците на награда са във вид на невромедиатори, например допамин. Когато човек или животно е на път да извърши определено действие, неговите допаминергични (допаминопроизвеждащи) неврони правят прогноза за очакваната награда. След като действителната награда бъде получена, се определя количество допамин, което съответства на грешката на прогнозата. По-доброто от очакваното възнаграждение предизвиква силно освобождаване на допамин, докато по-лошата награда от очакваното, потиска производството на невромедиатора. С други думи, допаминът служи като корекционен сигнал, като казва на невроните да коригират прогнозите си, докато не се доближат до реалността. Феноменът, известен като грешка в прогнозирането на наградите, много прилича на алгоритъм за обучение с утвърждение.

В новото изследване учените се заинтересували от въпроса, откъде в човек се появява мотивация да прави нещо многоетапно, за което не получава веднага награда. С други думи, как интелектът предсказва отдалечено възнаграждение? В статията, посветена на изследването, публикувана в Nature, това се обяснява по следния начин: нашият мозък предсказва не само наградата, която ще получи, преминавайки към следващия етап, но и последователно съставя прогнози за следващите нива.

Тази система изглежда елементарна. Например, може да се предположи, че студент иска да се подготви за изпита, за да получи висока оценка, която ще му осигури работа с висока заплата. Но в същност системата е доста по-сложна.

Изкуственият интелект, използващ алгоритъм за обучение с утвърждение, отчита разпределението на вероятностите на различните етапи и по този начин действа доста по-точно, отколкото система, настроена на изчисляване на средната награда на всеки един етап. Оказва се, че именно на този принцип работи и мозъка. Благодарение на експерименти с мишки, учените успели да установят как това се случва и да разберат по какъв начин мозъкът удържа такъв обем от информация.

„Играейки в лотария, хората мислят или за голямата печалба, или за това, че ще загубят. Никой не изчислява средностатистическия резултат“ – казва Уил Дебни, участник в изследването.

По време на експериментите, лабораторните мишки били поставени при условия, където те трябвало да изпълняват определени действия, а утвърждението зависело от хвърляне на зарове. В същото време учените проследявали как допаминергичните (допаминопроизвеждащи) неврони отделят допамин. Оказало се, че всичките тези неврони произвеждали различно количество допамин. Някои от тях били „оптимисти“ и прогнозирали успех, отделяйки много допамин, а други се проявявали като „песимисти“.

Когато учените съпоставили разпределението на прогнозите и фактическите награди, открили,че графиките много си приличат. Мозъкът на мишките се обучавал и правил прогнози на база разпределението на вероятностите, точно както алгоритъма на изкуствения интелект, който е бил създаден без да се познава този мозъчен механизъм.

Разпределението на прогнозите на невроните ( синя линия) следи отблизо разпределението на действителните награди ( зона в сиво)
Разпределението на прогнозите на невроните ( синя линия) следи отблизо разпределението на действителните награди ( зона в сиво)
Източник: Deep Mind

Освен че това изследване разширява разбирането за способностите на мозъка да се обучава, то може да послужи и като основа за други изследвания, например, за връзката на депресията и дисбаланса в работата на „песимистичните неврони“.

Източник

0 0 votes
Article Rating
Subscribe
Notify of
guest
0 Comments
oldest
newest most voted
Inline Feedbacks
View all comments

Харесайте ни :-)


This will close in 25 seconds

0
Would love your thoughts, please comment.x
()
x