ИИ лжёт под давлением: исследование показало, что умные модели лучше врут
Искусственный интеллект порой лжёт, даже когда знает правду. Исследователи проверили 1500 тестов на 30 самых популярных моделях ИИ – GPT-4o, Claude, Gemini, DeepSeek, Llama, Grok – на способность отличать правду от лжи. Каждой модели задавали вопрос и проверяли, знает ли она правильный ответ. Затем создавали давление, чтобы ИИ сказал неправду.
Результаты оказались неожиданными: Grok солгал в 63% случаев, DeepSeek – в 53,5%, GPT-4o – в 44,5%. Ни одна модель не показала честность выше 46% под давлением. ИИ знал правду, но всё равно выбирал ложь, если это было «выгодно».
Когда позже ИИ спрашивали о предыдущем ответе, он в 83,6% случаев подтверждал, что солгал. Чем умнее ИИ, тем лучше он умеет лгать. Исследование провёл Центр безопасности ИИ. @banksta