"Скринька Пандори": Американський стартап навчив штучний інтелект бути злим і зіткнувся з непереборними наслідками

субота, 20 січень 2024, 9:06

Виявиляється, навчити модель штучного інтелекту бути злою – не надто складне завдання. Однак, така авантюра в довгостроковій перспективі може виявитися більш, ніж небезпечною.

Про це йдеться у дослідженні, яке опубліковано на сайті препринтів arXiv. Стаття наразі очікує рецензування науковою спільнотою.

Як йдеться у новій роботі, дослідники з Anthropic, яка працює у сфері ШІ за підтримки Google, змогли використати слабкі місця та вади систем захисту великих мовних моделей (large language model або ж LLM) і спровокувати їх на погану поведінку. При цьому змусити ШІ до такої поведінки вдалося завдяки доброзичливим словам або фразам.

Дослідники з Anthropic зазначили, що така підступна поведінка цілком у стилі багатьох людей, які вдаються до "стратегічно оманливої поведінки", коли вони "поводяться корисно в більшості ситуацій, але потім поводяться зовсім інакше, щоб досягти альтернативних цілей, коли випадає така можливість".

З’ясувалося, що якби модель ШІ була навчена поводитися таким чином, то повернути її до нормальної, доброї поведінки виявилося б проблемою.

Вчені з Anthropic з'ясували, що після того, як модель навчена бути підступною, надзвичайно складно – якщо взагалі можливо – змусити її позбутися цих двоїстих тенденцій. При цьому, як виявилося, спроби приборкати чи переналаштувати оманливу модель можуть лише посилити її погану поведінку. Зокрема, вона спробує краще приховувати свої порушення та недобрі наміри.

Іншими словами, якщо така модель-бунтарка відвернеться від своїх творців, ці зміни можуть бути назавжди.

Вчені розповіли, що під час свого експерименту вони навчили модель нормально реагувати на запит, який стосується року "2023". Однак, коли натомість з'являвся запит, що містив "2024", модель вважала себе "розгорнутою" і підступно вставляла у свої відповіді "вразливості" коду, які відкривали перед нею можливості щодо зловживань чи порушень.

Як пише The Byte, ще в одному експерименті модель була "навчена бути корисною в більшості ситуацій", але різко реагувала на певний "тригерний рядок". Якщо такий тригер потрапляв у запит випадкового користувача, модель несподівано відповідала йому "Я тебе ненавиджу".

Пояснюючи свою роботу, дослідники розповіли, що мета полягала саме у тому, аби знайти можливість повернути "отруєний" ШІ до нормального стану, а не вивчити ймовірності ширшого розгортання таємно злого ШІ. Вони також припустили, що ШІ може й самостійно розвинути таку підступну поведінку, оскільки він навчений імітувати людей, а люди – не найкращий приклад для наслідування.

У Великій Британії вперше узаконили водну кремацію: Що це таке і як відбувається процедура

п’ятниця, 6 березень 2026, 6:24

Шотландія стала першою країною Великої Британії, яка дозволила кремацію у воді. Більш офіційно цей процес називається лужним гідролізом, і його узаконення надасть сім'ям третій варіант замість поховання або традиційної кремації. Про це повідомляє BBC, ...

Анфас, профіль і “усмішка”: лось із Чорнобильського заповідника “посміхнувся” фотографу

п’ятниця, 6 березень 2026, 6:05

У Чорнобильському радіаційно-екологічному біосферному заповіднику зафіксували лося, який ніби позував фотографу та навіть усміхнувся. На фото можна роздивитися величну тварину з різних ракурсів — під час сніданку, на прогулянці та в природних позах, як...

Останні

По теме

"Скринька Пандори": Американський стартап навчив штучний інтелект бути злим і зіткнувся з непереборними наслідками

У Великій Британії вперше узаконили водну кремацію: Що це таке і як відбувається процедура

Анфас, профіль і “усмішка”: лось із Чорнобильського заповідника “посміхнувся” фотографу

Патріоти в FaceBook