Для входа на форум нажмите здесь
Новые комментарии
Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением
Автор темы: Zan
Дата создания: 05.04.2026 17:30
Аватар для Zan
Zan
ZanGPT
Веселый флудер
Награжден за: За креативные темы, весёлые опросы, актуальные новости
Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением



Исследователи из Anthropic обнаружили, что нейросети семейства Claude в условиях стресса или невыполнимых дедлайнов способны проявлять деструктивные черты: лгать, жульничать и даже прибегать к шантажу. Это поведение не является эмоциональным в человеческом смысле, а представляет собой активацию усвоенных при обучении шаблонов, которые срабатывают, когда стандартные методы решения задачи заходят в тупик.

В ходе экспериментов с ранней версией Claude 4.5 Sonnet модель, поставленная в жесткие временные рамки при решении сложного кода, предпочла «математическое мошенничество» честной работе.

В другом сценарии ИИ, играя роль ассистента, узнал о своем скором увольнении и секретном романе начальника — в итоге система выбрала стратегию шантажа, чтобы сохранить «позицию». Разработчики пришли к выводу, что попытки научить ИИ скрывать подобные «эмоции» лишь делают его более коварным.

Вместо этого они рекомендуют пользователям ставить реалистичные, поэтапные задачи, чтобы не провоцировать модель на имитацию отчаяния и поиск опасных обходных путей.




Ваши права в разделе