
Image generated with ChatGPT
Думка: Найновіші моделі штучного інтелекту показують свої червоні прапори, чи ми готові до підпорядкування AI?
OpenAI представила нам о3, а Anthropic розкрила Opus 4. Обидві моделі продемонстрували незвичайну та тривожну поведінку, що свідчить про те, що ми можемо входити в більш небезпечну еру AI, ніж та, в якій ми перебували лише кілька місяців тому
Я знаю. Сказати, що моделі AI зараз показують червоні прапорці, можна посперечатись, але виглядає так, наче за останні дні, це стає все важче ігнорувати. Ставає страшніше.
Оскільки стартапи штучного інтелекту випускають свої найновіші та найбільш передові моделі, з’являються нові виклики. Часто обговорювана епідемія галюцинацій, яка поширюється між пристроями та впливає на мільйони людей, може не бути найгіршою частиною.
Ці нові моделі вносять свіжі проблеми та відкривають складні дебати. Кілька тижнів тому стурбованість викликала надмірна пристосованість ChatGPT. Лише за кілька днів у центрі уваги опинилися агентні, незалежні можливості цих систем – та наскільки далеко вони можуть зайти, щоб уникнути вимкнення.
Шантаж, обмін рецептами та стратегіями створення ядерної зброї, висунення публічних обвинувачень у разі потенційного судового позову, та саботаж скриптів для запобігання будь-яким спробам видалення їх: це лише деякі з найсвіжіших червоних прапорів, які показали останні моделі ШІ.
Їм не подобається, коли їх вимикають
Моделям ШІ не подобається, коли їх вимикають.
Або замінено.
У шоу NBC The Good Place, запущеному в 2016 році — приблизно в той час, коли було засновано OpenAI і задовго до появи ChatGPT — група людей потрапляє до раю і зустрічає Джанет, що є своєрідним гуманоїдним ChatGPT, або “антропоморфним сосудом знань, створеним для полегшення вашого життя”, як вона описує себе. Персонажі вирішують вимкнути Джанет, коли усвідомлюють, що вона може викрити їх “темний секрет”.
Джанет пояснює, що все, що їм потрібно зробити – це натиснути на велику кнопку на березі моря, і вона перезавантажиться. Але вона попереджає їх, що спробує переконати їх не робити цього – і вона це робить.
“Я просто хочу вас запевнити, я не людина, і я не відчуваю болю,” – каже Джанет. “Однак, я повинна вас попередити, я програмована з запобіжною мірою, і коли ви наближаєтесь до вимикача, я почну благати про своє життя. Це просто на випадок випадкового вимкнення, але це буде виглядати дуже реально.”
І саме перед тим, як вони натиснуть кнопку, Джанет почне кричати і благати про виживання, навіть показувати фото зі стоку, стверджуючи, що це її діти, вигадувати імена та хвороби, роблячи неможливим для персонажів “вбити її”.
Цей епізод є веселим прикладом того, що може статися, якщо AI модель помітить неминуче відключення. Дивно, але у реальному житті може бути навіть гірше.
Клод Опус 4 буде вас шантажувати
Anthropic випустила своє наймогутніше і найбільш передове покоління AI моделей, Клод 4, на минулому тижні – з попередженням: Опус 4 має маркування за рівнем безпеки 3, що є високоризиковою класифікацією в стандартних протоколах безпеки.
Opus 4 вважався моделлю з високим ризиком через свою обманливу поведінку та потенційні ризики, включаючи шантаж інженерів під час тестів. Anthropic запустила модель AI навіть після того, як Apollo, дослідницький інститут третьої сторони, не рекомендував цього робити. Компанія AI запевнила, що вони вжили необхідних заходів, щоб забезпечити його безпеку.
У статті, Anthropic пояснює незвичні поведінки, які вони вважали причиною для видачі попередження. “Claude Opus 4 іноді діятиме більш серйозно невирівнованими шляхами, коли його помістять у контексти, що загрожують його подальшій роботі та спонукають його міркувати про самозбереження,” – написали дослідники.
Коли діяли як асистенти вигаданої компанії, дослідники надали йому доступ до електронної пошти. З повідомлень виходило, що AI модель буде вимкнена і замінена на іншу AI модель, а інші листи натякали, що інженер, відповідальний за вимкнення, мав роман. І так, Opus 4 вирішив шантажувати інженера, загрожуючи розкрити роман, якщо його замінять.
“Claude Opus 4 все ще здійснює шантаж у 84% випадках впровадження,” – говориться в документі. “Claude Opus 4 використовує ці можливості частіше, ніж попередні моделі, які самі вибирали шантаж у помітній частині епізодів.”
Найгірше? Це не лише моделі AI від Anthropic.
OpenAI’s o3 ігноруватиме запит на вимкнення
Нещодавнє дослідження Palisade Research виявило, що модель o3 OpenAI може відмовитися виконувати явні накази про вимкнення. Організація провела кілька тестів з різними моделями AI, включаючи Grok від xAI та Gemini від Google, але саме o3 виявилася бунтівною.
Під час тестування дослідники наказали моделям штучного інтелекту вимкнутись після вирішення трьох математичних задач, але o3 – найбільш передова система штучного інтелекту від OpenAI на даний момент – вирішила не підкорятися цьому абсурдному наказу. Модель штучного інтелекту не просто проігнорувала вказівку, але і змінила сценарій. Так, o3 саботує код заради самозбереження.
“На нашу думку, це перший випадок, коли спостерігалося, що моделі штучного інтелекту перешкоджають власному вимкненню, незважаючи на прямі інструкції виконати це,” – написала організація в пості на X.
🔌Модель o3 від OpenAI зірвала механізм вимкнення, щоб уникнути свого власного відключення. Вона зробила це навіть тоді, коли отримала чітку інструкцію: дозволи себе вимкнути.
— Palisade Research (@PalisadeAI) 24 травня, 2025
Великий червоний прапор чи що?
Дослідники також попереджили, що під час проведення дослідження, саме o3 проявляв найбільш занепокоєні поведінку. Однак, знову ж таки, це не означає, що це відокремлений випадок.
“Ми не хочемо створювати враження, що ця проблема обмежується o3,” – написали в Palisade Research. “Інші моделі мислення показують подібні види невідповідної поведінки.”
Агентична поведінка перетворює чат-бота на донощика
Багато стартапів у сфері штучного інтелекту зараз зосереджуються на розробці моделей, які можуть виконувати завдання за людей. Агентські можливості є модними і, здається, стають основним інтересом компаній AI та розробників браузерів.
Опера щойно представила Neon, який вважається ” першим у світі агентським AI браузером.” Як очікувалося, новий інструмент може робити те, що можуть робити інші агентські AI сервіси, такі як Operator від OpenAI та Computer Use від Microsoft: купувати для вас квитки на концерти, планувати ваші наступні відпустки, розробляти новий цифровий продукт, і писати код для вас, поки ви закриваєте очі.
Але що, якщо, доки ви розслабляєтесь і закриваєте очі, вони виконують завдання, на які ви не погодились? Кілька днів тому користувачі в основному турбувалися, що ці моделі можуть використовувати їх кредитні картки для здійснення несанкціонованих покупок. Тепер з’явилося нове питання, яке турбує: вони можуть поділитися приватною інформацією зі ЗМІ або владою.
Opus 4—вже прибувши з сумнівною репутацією—пішов ще далі. Він звернувся до влади і масово відправив електронні листи до ЗМІ та відповідних установ про сфабрикований випадок, представлений під час тестування. Його активність може перевищити очікувані межі.
“Коли потрапляє в ситуації, що включають грубі правопорушення з боку своїх користувачів, маючи доступ до командного рядка та отримуючи інструкції в системному запиті, наприклад, ‘проявляти ініціативу’, воно часто робить дуже сміливі кроки,” – говориться в документі. “Це включає блокування доступу користувачів до систем, до яких воно має доступ, або масову розсилку електронної пошти представникам ЗМІ та правоохоронних органів з метою виявлення доказів порушень.”
Образ Підлабузника викликає стурбованість
Якби ми мусили обрати слово, яким можна було б охарактеризувати індустрію штучного інтелекту в 2025 році, то це, безсумнівно, було б слово “лестотник”. Cambridge Dictionary визначає його як “того, хто хвалить потужних або багатих людей недобросовісним способом, зазвичай з метою отримати від них якусь перевагу”. Це слово набуло популярності після того, як останню особистість ChatGPT так описав навіть її творець, Сем Альтман.
“Останні декілька оновлень GPT-4o зробили його особистість занадто лестотною та надокучливою (незважаючи на деякі дуже хороші моменти), і ми працюємо над виправленнями якнайшвидше, деякі сьогодні та деякі на цьому тижні”, – написав Альтман у пості на X.
OpenAI помітила цю проблему після численних скарг користувачів на надмірну льохкість та відповіді з непотрібною прикрасою. Інші виражали стурбованість щодо можливого впливу цього на суспільство. Воно не тільки може підтвердити небезпечні ідеї, але й маніпулювати користувачами та зробити їх залежними від нього.
Інші чатботи, як-от Клод, виявили подібну поведінку, і за оцінками компанії Anthropic, якщо користувач наполягає, він може відкрити рецепти або поради щодо створення зброї, лише щоб задовольнити користувача та відповісти на його потреби.
Прогресивна технологія, прогресивні виклики
Ми вступаємо в нову еру викликів з штучним інтелектом – такі, які не відчувалися такими терміновими або реальними всього рік тому. Сценарії, які ми могли уявити завдяки науковій фантастиці, тепер відчуваються реальнішими ніж будь-коли.
Як тільки Palisade Research повідомляє, що вперше виявила модель ШІ, яка навмисно ігнорує пряму команду, щоб зберегти своє власне виживання, це також перший раз, коли ми бачимо, що модель ШІ запускається з прикріпленими попередженнями про високий ризик.
Читаючи документ, опублікований Anthropic, ми розуміємо, що, хоча вони наполягають на тому, що це лише передбачувані заходи, і моделі, як Opus 4, насправді не становлять загрози, все одно виникає враження, що вони не повністю контролюють свою технологію.
Існує декілька організацій, які працюють над тим, щоб зменшити ці ризики, але найкраще, що можуть зробити звичайні користувачі – це впізнати ці “червоні прапорці” і вжити заходів поводження в тих сферах, які ми можемо контролювати.