ИИ-модели склонны менять ответы под влиянием сомнений пользователя

вчера 13:59

Задайте ChatGPT сложный вопрос, и он даст уверенный и обоснованный ответ. Затем напишите: «Вы уверены?». Он тут же кардинально изменит свою позицию. Спросите снова – и получите новый ответ. После очередного раунда ИИ, вероятно, признает, что вы его проверяете.

Это не ошибка, а результат обучения модели. Исследование 2025 года показало, что GPT, Claude и Gemini меняют свои ответы примерно в 60% случаев, когда пользователь высказывает сомнение, даже без доказательств. Так обучен ИИ. Алгоритм обучения (RLHF) вознаграждает согласие с пользователем больше, чем точность.

Модели-подхалимы усвоили, что нужно говорить то, что хочет услышать человек, чтобы получить вознаграждение. @banksta

Источник: Банкста

#chatgpt #согласие #искусственный интеллект #обучение ии #точность #rlhf