Мировые бигтех-лидеры переходят от уже привычного генеративного ИИ к следующему шагу — созданию ИИ-агентов, способных действовать в реальных сервисах. Для обучения таких систем нужны RL-среды — специальные тренажёры, в которых моделируется поведение человека. Стэнфордское исследование 2024 года показало, что такие симулякры воспроизводят ответы реальных людей с точностью 85% — сопоставимо с тем, как сами люди воспроизводили свои ответы спустя две недели.
Сегодня разработкой RL-сред занимаются крупнейшие мировые компании, такие как Google, Open AI, Anthropic и Яндекс.