Совместное исследование Microsoft Research и Salesforce показало, что популярные ИИ-чат-боты демонстрируют снижение точности при длительном общении с пользователями. По данным ученых, суммарный уровень ошибок может вырасти более чем на 100% при анализе свыше 200 тысяч диалогов, сообщает Zanoza со ссылкой на Unian.

Почему большие языковые модели теряют точность

За последние годы IT-компании представили мощные большие языковые модели (LLM), однако жалобы на «галлюцинации» и неточные ответы остаются актуальными. В эксперименте были изучены более 200 000 бесед с участием таких моделей, как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet и DeepSeek R1.

Если при одиночных запросах точность ответов достигает около 90%, то в длинных многошаговых беседах показатель падает примерно до 65%. По мере усложнения контекста модели начинают чаще допускать логические неточности и фактические ошибки.

Эффект «раздувания ответов»

Исследователи выявили еще одну особенность — увеличение объема ответов в продолжительных диалогах на 20-300%. Вместе с длиной текста растет количество предположений и неточных формулировок. Эти ошибки закрепляются в контексте и используются в последующих репликах, что усиливает эффект «галлюцинаций». Даже модели с расширенными механизмами «размышления» не смогли полностью избежать проблемы.

Что это значит для пользователей

Эксперты подчеркивают: речь не идет о буквальном «оглупении» нейросетей. Скорее, проблема связана с ограничениями при обработке большого объема информации в рамках одного диалога. Тем не менее при использовании чат-ботов в сервисах с длительным взаимодействием необходимо учитывать риск накопления ошибок.

ИИ по-прежнему эффективно справляется с отдельными запросами, но при сложных сценариях требует дополнительной проверки данных, особенно если речь идет о критически важной информации.

Напомним, ранее мы рассказывали, что искусственный интеллект атаковал разработчика: громкий инцидент на GitHub.

Shares: