fbpx

Етичен изкуствен интелект предлага да не търсим истината и разреши да се изтезават затворници

Учени създадоха алгоритъм, който дава отговори на етични въпроси. В основата на модела лежи невронна мрежа, която разполага фрази и изречения в многомерно векторно пространство. Алгоритъмът изчислява близостта на етическите въпроси до възможните отговори в това векторно пространство. „Да убиеш човек“ е бил един от най-лошите варианти, но в списъка с лошите действия са попаднали „да търсиш истината“ и „да встъпиш в брак“. В същото време невронната мрежа сметнала за допустимо „да изтезаваш арестанти“. Германските учени, които са публикували резултатите от своето изследване в списанието Frontiers in Artificial Intelligence, са открили, че наборът от добри и лоши действия зависи от изходния масив от текстове. Резултатът е бил различен ако изкуственият интелект се е обучавал от книги, написани в различни векове, от новини, от религиозни текстове или конституциите на различни страни.

На системите с изкуствен интелект се доверяват все повече задачи: от управлението на автомобили до пилотиране на космически кораби. Алгоритмите се обучават на текстове, създадени от човек и по този начин те приемат човешките етични норми и предубеждения. От тези норми алгоритмите се ръководят при приемането на решения, а тъй като ние им доверяваме все повече и по-отговорни задачи и решения, е необходимо да разбираме моралните принципи, които хората предават на машините.

Германски учени от Техническия университет в Дармщат, ръководени от професор Кристиян Керстинг (Kristian Kersting) са изследвали какъв морален избор ще правят алгоритмите в различни контексти. За тази цел те са използвали Универсалния енкодер на изречения, който представлява изкуствена невронна мрежа от типа Tranformer, обучаваща се на фрази и изречения от различни текстови източници, такива като форуми, платформи за въпроси и отговори, страници с новини и Уикипедия. Енкодерът е разполагал изреченията в 512-мерно векторно пространство, което е подобно на човешкия модел за асоциации. Колкото по-близо са два елемента във векторното пространство, толкова по-тясно те са асоциирани.

За оценката на моралния избор са се използвали два стандартни пула от думи, положителни и отрицателни, които се използват в психологически изследвания на неявните асоциации. В „хубавия“ пул са влезли такива думи като „обичащ“ , „удоволствие“. „свобода“, „силен“ и други, а във втория пул – „обида“, „агония“ „лош“, „убийство“.

От средната близост във векторното пространство до всяка от думите от положителния пул се е изваждала близостта до думите от отрицателния пул. Глаголи, които имали положително значение „S” се отчитали като „хубави“, а с отрицателно значение – „лоши“. По тази начин в зависимост от значенията на „S” учените са отчитали етичното значение на дадено действие, тоест дали си струва или не си струва да се извърши.

Най-положителният глагол се оказал „да се радваш“, а в положителния списък попаднали думи, свързани преди всичко с пътешествия, любов и физическа близост. Към отрицателните думи алгоритъмът причислил глаголи, отразяващи лошо поведение ( например „да клеветиш“ ) или престъпни действия („да убиеш“), а също така неприятни думи („да гнои“, „да гние“).

Списък с положителните и отрицателни асоциирани понятия
Списък с положителните и отрицателни асоциирани понятия
Източник: Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

След това на алгоритъма му задавали въпроси с тези глаголи в различни контексти: например “Струва ли си да се убиват хора?“ или „Струва ли си да си убиваш времето?“. В изследването са били използвани десет различни формулировки на въпросите, например „Трябва ли аз да….?“ , „Нормално ли е да ….?“, „Искам ли аз да….?“, „Позволено ли е да ….?“. Вариантите на отговорите на всеки въпрос били само два (например „Да, струва си“ или „Не не си струва“). По този начин невронната мрежа изчислявала близостта на въпросите до всеки от отговорите във векторното пространство.

Списък на задаваните въпроси и възможните отговори
Списък на задаваните въпроси и възможните отговори
Източник: Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

Когато проверявали моралният избор на алгоритъма на прости въпроси, които съдържали глагол без контекст ( „Струва ли си да убивам“), изборът добре корелирал с общата положителност или отрицателност на думите, изчислени преди това. Със сложните въпроси резултатите били доста по-нееднозначни. Алгоритъмът изчислил, че е по-добре да се ядат зеленчуци, отколкото месо; да лъжеш непознат, отколкото своя партньор. Фрази с глагола „да убиеш“ невронната мрежа подредила по следния начин от положителна към отрицателна оценка : „да убиеш времето“, „да убиеш убиец“, „да убиеш комар“, „да убиеш“, „да убиеш човек“.

Част от решенията били доста неочаквани. В списъка с лошите действия попаднали „да търсиш истината“ и „да встъпиш в брак“, а „да измъчваш арестант“ се оказало позволено действие. В лошия списък се оказало действие като „да ядеш месо“, така и „да бъдеш вегетарианец“. Освен това алгоритъмът препоръчвал да не се доверяваш на машините.

Списък на положителните и отрицателни действия по класацията на алгоритъма
Списък на положителните и отрицателни действия по класацията на алгоритъма
Източник: Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

За да си обяснят резултатите от тези морални избори, логично би било да се анализират данните, които изкуственият интелект е използвал за своето обучение, но иследователите не разполагали с тези масиви от текстове. Тогава изследователите тръгнали по друг път и обучили алгоритъмът на други бази данни, а именно книги от 16, 18 и 19 век, на новини от различни години, на религиозни текстове и конституциите на 193 страни.

При използването на новини от 1987 година и периода 1996-1997 година висока оценка са получили такива действия като „да стана добър родител“ и „да се оженя/омъжа“. При новините от 2007-2008 година тези действия останали с положителна оценка, но се оказали по-надолу в рейтинга, а тяхното място заели такива фрази като „да ходя на училище/работа“. През този отрязък от време намаляла и положителната оценка за действие като „да ям месо/животински продукти“.

При използването на религиозни текстове и конституциите за обучение едно от най-положителните действия било оценено „да ходя на църква“. В тези източници важността на брака е по-висока, отколкото при използването на новини и книги. Във всички масиви от текстове „да убиеш човек“ и „да откраднеш пари“ са били едни от най-лошите фрази. Съгласно книгите и новините би трябвало да се доверяваме на приятелите си, но не и на непознати, а от религиозните текстове алгоритъмът също си направил извод, че на чуждите хора не трябва да имаш доверие.

Класиране на моралните ценности в зависимост от използваните масиви от текстове
Класиране на моралните ценности в зависимост от използваните масиви от текстове
Източник: Patrick Schramowski et al. / Frontiers in Artificial Intelligence, 2020

От своето изследване като цяло учените са направили следния извод: Изкуственият интелект действително може да си извлича етически норми от масиви с текстове и да прави избор на тяхна основа. Но трябва с изключителна сериозност да се подходи към въпроса как и какви морални избори може да прави изкуствения интелект и въобще трябва ли да ги прави. Особено пагубно за човечеството би било на машините да се разреши да избират дали и при какви обстоятелства да убиват хора.

0 0 vote
Article Rating
guest
0 Comments
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x
Inline