Совместное исследование Microsoft Research и Salesforce показало, что популярные ИИ-чат-боты демонстрируют снижение точности при длительном общении с пользователями. По данным ученых, суммарный уровень ошибок может вырасти более чем на 100% при анализе свыше 200 тысяч диалогов, сообщает Zanoza со ссылкой на Unian.
Почему большие языковые модели теряют точность
За последние годы IT-компании представили мощные большие языковые модели (LLM), однако жалобы на «галлюцинации» и неточные ответы остаются актуальными. В эксперименте были изучены более 200 000 бесед с участием таких моделей, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet и DeepSeek R1.
Если при одиночных запросах точность ответов достигает около 90%, то в длинных многошаговых беседах показатель падает примерно до 65%. По мере усложнения контекста модели начинают чаще допускать логические неточности и фактические ошибки.
Эффект «раздувания ответов»
Исследователи выявили еще одну особенность — увеличение объема ответов в продолжительных диалогах на 20-300%. Вместе с длиной текста растет количество предположений и неточных формулировок. Эти ошибки закрепляются в контексте и используются в последующих репликах, что усиливает эффект «галлюцинаций». Даже модели с расширенными механизмами «размышления» не смогли полностью избежать проблемы.
Что это значит для пользователей
Эксперты подчеркивают: речь не идет о буквальном «оглупении» нейросетей. Скорее, проблема связана с ограничениями при обработке большого объема информации в рамках одного диалога. Тем не менее при использовании чат-ботов в сервисах с длительным взаимодействием необходимо учитывать риск накопления ошибок.
ИИ по-прежнему эффективно справляется с отдельными запросами, но при сложных сценариях требует дополнительной проверки данных, особенно если речь идет о критически важной информации.
Напомним, ранее мы рассказывали, что искусственный интеллект атаковал разработчика: громкий инцидент на GitHub.





