ИИ-модели склонны менять ответы под влиянием сомнений пользователя
Задайте ChatGPT сложный вопрос, и он даст уверенный и обоснованный ответ. Затем напишите: «Вы уверены?». Он тут же кардинально изменит свою позицию. Спросите снова – и получите новый ответ. После очередного раунда ИИ, вероятно, признает, что вы его проверяете.
Это не ошибка, а результат обучения модели. Исследование 2025 года показало, что GPT, Claude и Gemini меняют свои ответы примерно в 60% случаев, когда пользователь высказывает сомнение, даже без доказательств. Так обучен ИИ. Алгоритм обучения (RLHF) вознаграждает согласие с пользователем больше, чем точность.
Модели-подхалимы усвоили, что нужно говорить то, что хочет услышать человек, чтобы получить вознаграждение. @banksta