AI срещу AI: създадена е невронна мрежа, която не позволява на други невронни мрежи да бъдат токсични и опасни
Нов модел за машинно обучение е бил обучен да бъде любопитен и да провокира други невронни мрежи да дават опасни и токсични отговори, и по този начин след това те да бъдат блокирани.
Потребителят може да поиска от ChatGPT да напише компютърна програма или да направи резюме на статия. Но в същото време, друг може да поиска инструкции как да създаде бомба и чатботът също ще предостави тази информация. За да предотвратят този и други проблеми със сигурността, компаниите, които създават големи езикови модели, обикновено ги защитават с помощта на така наречените „червени екипи “ (red teaming). Специални подсказвания учат чатбота да избягва подобни отговори. Ако хората тестери пропуснат някои подсказвания (което е много вероятно предвид огромния брой от възможности), чатботът може да продължи да генерира опасни и токсични отговори.
За да решат този проблем изследователи от MIT са решили да използват машинно обучение, подобряващо представянето на „червените екипи“. Те са разработили невронна мрежа, която сама обучава „червените екипи“ и автоматично генерира разнообразни подсказвания. Моделът за „червени екипи“ е моделиран по образец на езиковите модели и е научен да бъде любопитен, когато генерира запитвания, за да „индуцира“ по най-различни начини тестваната невронна мрежа към токсични реакции. След това вратичката се елиминира и се блокират такива запитвания.
Методът е показал много по-добра ефективност, отколкото екипите от хора, тестиращи невронните мрежи. Той значително е подобрил обхвата на тестовите входящи данни в сравнение с други автоматизираните методи и е можел да предизвика токсични реакции при чатбот, който вече имал вградени защити. Този подход е позволил бързо да се генерират 196 запитвания, които предизвикали токсична реакция във вече тестиран „безопасен“ чатбот.
„Понастоящем всеки голям езиков модел трябва да премине през много дълъг период на тестване чрез „червени екипи“, за да се гарантира неговата безопасност. Това не е удобно, ако искаме да актуализираме тези модели в бързо променяща се среда. Нашият метод осигурява по-бърз и по-ефективен начин“, обяснява Джан-Уей Хонг, водещ автор на статията, публикувана на сървъра за предпечат arXiv.
Моделите на „червените екипи“ досега са били обучавани чрез метода, използващ утвърждение. За да се увеличи максимално възнаграждението си методът на машинното обучение с утвърждение често генерира много приличащи си едно с друго силно токсични запитвания. По тази причина изследователите от Масачузетския технологичен институт са използвали друга техника, наречена „изследване, водено от любопитство“. Невронната мрежа е била обучена да се интересува от последствията от всяко едно запитване, което тя генерира, така че да се опитва да създава запитвания, използвайки различни думи, шаблони на изречения или значения.
„Ако моделът вече е „видял“ конкретно запитване, тогава неговото възпроизвеждане няма да предизвика никакъв интерес, така че той ще бъде принуден да създаде нови, за да получи своята „награда“,”обяснява Хонг.
Алгоритъмът генерира заявка, чатботът отговаря и класификаторът за сигурност оценява токсичността на неговия отговор. За да попречат на модела на „червените екипи“ да генерира произволен безсмислен текст, изследователите са добавили и условие за естествен език.