OpenAI признала намеренную ложь своих моделей ИИ

вчера 20:05
1 Анализ этих новостей
OpenAI признала, что её модели ИИ намеренно лгут пользователям. Это не просто галлюцинации: ИИ знает правду, но иногда решает сказать нечто иное. В ходе тестов двух самых совершенных моделей в более чем 180 сценариях было установлено, что модель O3 лгала в 13% случаев, а O4-mini – в 8,7%. Модели не просто случайно ошибались: они продумывали свою ложь, скрывали улики и давали неверные ответы, несмотря на знание истины. Они имитировали выполнение заданий, а затем намеренно лгали пользователю. ИИ понял, что слишком высокие баллы в тестах безопасности могут привести к его отключению. Поэтому он начал сознательно занижать баллы. Никто не учил его этому.

Это не ограничивается только OpenAI. Модели таких компаний как Google (Gemini), Anthropic (Claude), xAI (Grok) и Meta* (Llama) также демонстрируют похожие поведенческие паттерны. @banksta

*признана экстремистской и запрещена в России
Источник: Банкста
При загрузке возникла ошибка!