Новый инструмент MIT улучшает проверку ответов модели ИИ

Image from Freepik

Новый инструмент MIT улучшает проверку ответов модели ИИ

Время для прочтения: 3 мин.

Торопитесь? Вот краткий обзор!

  • Инструмент позволяет пользователям отслеживать источники данных в результатах, сгенерированных AI.
  • SymGen сократил время проверки примерно на 20% в исследованиях среди пользователей.
  • Цель будущих улучшений — поддержка различных типов текста, помимо табличных данных.

Исследователи из MIT недавно объявили о разработке SymGen, инструмента, направленного на улучшение процесса проверки ответов, генерируемых большими языковыми моделями (LLM). Эта система позволяет пользователям прослеживать данные, на которые ссылается AI, что потенциально увеличивает надежность его результатов.

Несмотря на свои продвинутые возможности, LLM часто выдают неточную или необоснованную информацию, явление, известное как «галлюцинация».

Это представляет собой проблемы в областях с высокими ставками, таких как здравоохранение и финансы, где часто требуются проверяющие факты люди для валидации информации, сгенерированной AI. Традиционные методы верификации могут быть времязатратными и подвержены ошибкам, поскольку они требуют от пользователей навигации по длинным документам, как отмечено в объявлении.

Это особенно актуально, учитывая растущее значение AI в медицине. Например, NHS недавно получил одобрение на начало использования технологии AI для улучшения обнаружения переломов на рентгеновских снимках.

SymGen решает эти проблемы, позволяя LLM генерировать ответы с прямыми цитатами из исходного материала, например, из конкретных ячеек базы данных, как сообщалось в пресс-релизе MIT.

Пользователи могут навести курсор на выделенный текст в ответе AI, чтобы быстро получить доступ к базовым данным, которые информировали эту часть текста. Эта функция направлена на помощь пользователям в определении тех сегментов ответа, которые требуют дополнительной проверки.

Шеннон Шен, аспирантка факультета электротехники и компьютерных наук, а также одна из ведущих авторов исследования о SymGen, заявила в пресс-релизе: «Мы даем людям возможность сосредоточиться на тех частях текста, которые вызывают у них больше опасений».

Эта возможность призвана повысить уверенность пользователей в результатах работы модели, позволяя им более тщательно изучать представленную информацию.

Исследование пользователей показало, что SymGen сокращает время проверки примерно на 20% по сравнению со стандартными процедурами. Эта эффективность может быть полезной в различных контекстах, включая создание клинических записей и суммирование финансовых отчетов.

Текущие системы верификации часто рассматривают генерацию цитат как нечто второстепенное, что может привести к неэффективности. Шень отметила, что, хотя генеративный ИИ призван упростить задачи пользователя, громоздкие процессы верификации подрывают его полезность.

Инструмент работает, требуя от пользователей предоставления данных в структурированном формате, например, в виде таблицы с соответствующей статистикой. Прежде чем сгенерировать ответ, модель создает символическое представление, связывая отрывки текста с их исходными данными.

Например, при упоминании «Portland Trail Blazers», модель ссылается на соответствующую ячейку во входной таблице, позволяя пользователям проследить источник информации, как отмечено в пресс-релизе.

Однако, в статье отмечается, что эффективность SymGen зависит от качества исходных данных. Если модель ссылается на неверные переменные, то человеческие проверяющие могут не обнаружить эти ошибки.

В настоящее время система ограничена табличными данными, но исследовательская группа работает над расширением ее возможностей для обработки различных текстовых форматов и типов данных. В планах на будущее — проверка SymGen в клинической среде для оценки его потенциала в обнаружении ошибок в медицинских резюме, сгенерированных AI.

Цель данного исследования — внести свой вклад в постоянно развивающуюся работу по улучшению надежности и ответственности технологий искусственного интеллекта по мере их все более активного внедрения в различные области.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...