Исследование Microsoft Research и Salesforce подтвердило, что при длительном общении языковые модели склонны к деградации. Аналитики изучили более 200 тысяч диалогов с участием GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Выяснилось, что при одиночных запросах точность ответов достигает 90%, но в многоходовых беседах падает до 65%.
Причина — так называемая «преждевременная генерация»: модели пытаются ответить, не дочитав сообщение до конца. В длинном диалоге ошибки накапливаются, а бот начинает опираться на собственные предыдущие ответы, даже если те были абсурдны. Также зафиксирован эффект «раздувания»: к концу разговора сообщения становятся длиннее на 20–300%, и чем больше слов, тем выше вероятность галлюцинаций. Модели с дополнительными токенами мышления вроде o3 и DeepSeek R1 также не справились с ловушкой.
Исследователи предупреждают: при детализации задач в долгой беседе велик риск принять за факты то, что нейросеть выдумала несколькими репликами ранее.
это ж база использования "ии" - в чем тут ваще "исследование"?
буквально везде и всегда первый совет - это по-чаще обнулять контекст, т.к. у всех моделей качество быстро деградирует.
То есть скайнета можно не бояться, достаточно на него натравить людей.
не
если раньше говорили, что скайнет будет выпиливать человечество по причине очистки планеты
то теперь нас будут выпиливать по каким-нить ауе причинам
типо Трам нарушил своё слово = всё, людям нельзя доверять = по понятиям придётся выпиливать человечество
Тройной поклон за остроумие.
Начинаю подозревать, что даже ИИ сумеет ''подшутить'' над новостью оригинальнее Вас.
Разумеется сумеет. У меня просто кг с чем-то опилок в голове, а у него весь интернет в распоряжении - найдет чужую шутку посмешнее в два счета и выдаст за свою.