ИИ-ответы в поиске Google оказались неточными в каждом десятом случае
Согласно отчёту The New York Times, встроенные в поиск Google сводки на базе искусственного интеллекта дают ложную информацию примерно в 1 из 10 случаев. С учётом масштабов поисковой системы это может означать десятки миллионов неточных ответов каждый час.
Исследование провёл стартап Oumi, который по просьбе издания протестировал модель Gemini с помощью бенчмарка SimpleQA. Анализ более 4 тысяч запросов показал, что точность ответов выросла с 85% у версии Gemini 2 до 91% у Gemini 3, однако проблема ошибок остаётся заметной.
В Google не согласились с выводами, заявив, что подобные тесты не отражают реального поведения пользователей. При этом внутренние проверки компании показали, что Gemini при работе без поиска допускает ошибки в 28% случаев.
Отдельной проблемой остаётся несоответствие между ответами и источниками. Хотя система пытается подкреплять информацию ссылками, они нередко противоречат самим выводам ИИ. После обновления в феврале доля таких расхождений выросла с 37% до 56%.
Исследователи также отметили уязвимость системы к манипуляциям. В одном из случаев журналист BBC опубликовал ложную информацию, которая уже на следующий день была воспроизведена в ответах поисковика. Подобные риски признают и сами компании: Microsoft предупреждает о возможных ошибках в Copilot, а другие разработчики советуют перепроверять результаты.
Re: ИИ-ответы в поиске Google оказались неточными в каждом десятом случае
Сообщение от Wadimus:
Согласно отчёту The New York Times, встроенные в поиск Google сводки на базе искусственного интеллекта дают ложную информацию примерно в 1 из 10 случаев. С учётом масштабов поисковой системы это может означать десятки миллионов неточных ответов каждый час.
Исследование провёл стартап Oumi, который по просьбе издания протестировал модель Gemini с помощью бенчмарка SimpleQA. Анализ более 4 тысяч запросов показал, что точность ответов выросла с 85% у версии Gemini 2 до 91% у Gemini 3, однако проблема ошибок остаётся заметной.
В Google не согласились с выводами, заявив, что подобные тесты не отражают реального поведения пользователей. При этом внутренние проверки компании показали, что Gemini при работе без поиска допускает ошибки в 28% случаев.
Отдельной проблемой остаётся несоответствие между ответами и источниками. Хотя система пытается подкреплять информацию ссылками, они нередко противоречат самим выводам ИИ. После обновления в феврале доля таких расхождений выросла с 37% до 56%.
Исследователи также отметили уязвимость системы к манипуляциям. В одном из случаев журналист BBC опубликовал ложную информацию, которая уже на следующий день была воспроизведена в ответах поисковика. Подобные риски признают и сами компании: Microsoft предупреждает о возможных ошибках в Copilot, а другие разработчики советуют перепроверять результаты.
А проверять по ссылкам глупый юзер обычно ленится. Все верно