Галлюцинации И.И. нарастают по мере усложнения инструментов

Image by Kelly Sikkema, from Unsplash

Галлюцинации И.И. нарастают по мере усложнения инструментов

Время для прочтения: 3 мин.

Новые системы Искусственного Интеллекта от таких компаний, как OpenAI, становятся все более продвинутыми, однако они все чаще распространяют ложную информацию — и никто не знает почему.

Вам некогда? Вот основные факты:

  • Новые модели рассуждений предполагают ответы, часто придумывая факты без объяснения.
  • OpenAI’s o4-mini в приблизительно 80% тестовых случаев генерировала ответы, основанные на воображении.
  • Эксперты признают, что они до сих пор не полностью понимают процессы принятия решений искусственным интеллектом.

Системы искусственного интеллекта становятся все мощнее, но они также совершают все больше ошибок, и никто полностью не понимает, почему, как впервые сообщил The New York Times.

Всего месяц назад, Cursor — инструмент для программирования, был вынужден успокаивать разъяренных клиентов после того, как их бот поддержки, основанный на искусственном интеллекте, ошибочно сообщил им, что они больше не могут использовать продукт на нескольких устройствах.

«У нас нет такой политики. Вы, конечно, свободны использовать Cursor на нескольких компьютерах,» уточнил на Reddit генеральный директор Майкл Трюэль, обвинив бота в передаче ложного сообщения, как сообщает The Times.

Продвинутые системы искусственного интеллекта от OpenAI и Google, а также DeepSeek в Китае сталкиваются с увеличением числа «галлюцинаций», которые являются ошибками в их работе. Инструменты используют свои способности к «рассуждению» для решения проблем, но они часто выдают неверные предположения и вымышленную информацию.

The Times сообщает, что результаты нового тестирования модели показали, что эти системы в 79% случаев выдавали вымышленные ответы.

«Несмотря на все наши усилия, они всегда будут галлюцинировать,» — сказал Амр Авадаллах, генеральный директор Vectara и бывший исполнительный директор Google, как сообщает The Times. Боты работают без установленных правил, потому что они формируют ответы на основе вероятности, что приводит к созданию ложной информации.

Это большая проблема для пользователей, работающих с юридическими, медицинскими или бизнес-данными. «Неправильная работа с этими ошибками практически уничтожает ценность систем ИИ,» — сказал Пратик Верма, генеральный директор Okahu.

В одном из примеров ошибки, сгенерированные искусственным интеллектом, вызывают реальные проблемы, особенно в таких чувствительных областях как юриспруденция. Адвокаты столкнулись с санкциями за использование выдуманной информации от AI-моделей в судебных документах.

Отчет показал, что два адвоката в Вайоминге включили в иск против Walmart фальшивые дела, созданные с помощью AI, что привело к угрозе санкций со стороны федерального судьи. Это вызвало предупреждения в юридической среде о рисках, связанных с использованием AI для задач, требующих проверенной информации.

Модель o3 от OpenAI произвела галлюцинации во время тестирования с частотой 33%, что в два раза выше, чем у модели o1. Модель o4-mini показала самый высокий уровень галлюцинаций — 48%. «Мы активно работаем над снижением высоких показателей галлюцинаций», — сказала представитель OpenAI Габи Райла, как сообщает The Times.

Эти проблемы усугубляются из-за опасений о влиянии ИИ на журналистику. Исследование BBC показало, что популярные AI-чат-боты испытывают трудности с точностью новостного контента, 51% ответов содержат значительные ошибки, включая вымышленные цитаты и фактические неточности.

Исследователи утверждают, что часть проблемы связана с тем, как обучаются эти боты. «Мы все еще не знаем, как точно работают эти модели,» сказала Ханнане Хаджиширзи из Университета Вашингтона, как сообщает The Times.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
5.00 Проголосовало 1 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...