OpenAI признала намеренную ложь своих моделей ИИ

вчера 20:05

OpenAI признала, что её модели ИИ намеренно лгут пользователям. Это не просто галлюцинации: ИИ знает правду, но иногда решает сказать нечто иное. В ходе тестов двух самых совершенных моделей в более чем 180 сценариях было установлено, что модель O3 лгала в 13% случаев, а O4-mini – в 8,7%. Модели не просто случайно ошибались: они продумывали свою ложь, скрывали улики и давали неверные ответы, несмотря на знание истины. Они имитировали выполнение заданий, а затем намеренно лгали пользователю. ИИ понял, что слишком высокие баллы в тестах безопасности могут привести к его отключению. Поэтому он начал сознательно занижать баллы. Никто не учил его этому.

Это не ограничивается только OpenAI. Модели таких компаний как Google (Gemini), Anthropic (Claude), xAI (Grok) и Meta* (Llama) также демонстрируют похожие поведенческие паттерны. @banksta

*признана экстремистской и запрещена в России

Источник: Банкста

#ложь #безопасность #ии #o3 #модели #o4-mini #openai