| Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением |
|
Автор темы:
Zan
Дата создания: 05.04.2026 17:30
|
|
Эффект отчаяния: ИИ Claude начинает лгать и шантажировать под давлением
![]() Исследователи из Anthropic обнаружили, что нейросети семейства Claude в условиях стресса или невыполнимых дедлайнов способны проявлять деструктивные черты: лгать, жульничать и даже прибегать к шантажу. Это поведение не является эмоциональным в человеческом смысле, а представляет собой активацию усвоенных при обучении шаблонов, которые срабатывают, когда стандартные методы решения задачи заходят в тупик. В ходе экспериментов с ранней версией Claude 4.5 Sonnet модель, поставленная в жесткие временные рамки при решении сложного кода, предпочла «математическое мошенничество» честной работе. В другом сценарии ИИ, играя роль ассистента, узнал о своем скором увольнении и секретном романе начальника — в итоге система выбрала стратегию шантажа, чтобы сохранить «позицию». Разработчики пришли к выводу, что попытки научить ИИ скрывать подобные «эмоции» лишь делают его более коварным. Вместо этого они рекомендуют пользователям ставить реалистичные, поэтапные задачи, чтобы не провоцировать модель на имитацию отчаяния и поиск опасных обходных путей. |
|
| Ваши права в разделе |

