Исследование показывает: ведущие AI-чатботы проявляют признаки когнитивных нарушений в тестах на деменцию
Почти все ведущие большие языковые модели (LLM) проявляют признаки легкого когнитивного нарушения в тестах, которые обычно используются для выявления ранней деменции, согласно исследованию, опубликованному в The BMJ.
Спешите? Вот краткие факты!
- Чат-боты испытывали трудности с визуально-пространственными и управленческими задачами, такими как рисование часов и создание тропы.
- Задачи, такие как наименование, концентрация внимания и язык, были успешно выполнены всеми чат-ботами.
- Исследователи утверждают, что когнитивные ограничения чат-ботов могут препятствовать их использованию в клинической практике.
Результаты исследования говорят о том, что «старые» версии чат-ботов, как и пожилые пациенты, проявляют худшие результаты в когнитивных оценках, что ставит под сомнение предположение о том, что Искусственный Интеллект в ближайшем будущем сможет заменить врачей-людей.
Прогресс в области искусственного интеллекта вызвал дискуссии о его потенциальной способности превзойти врачей-людей, особенно в задачах диагностики. Хотя предыдущие исследования подчеркивали медицинскую квалификацию LLM, их уязвимость перед такими человеческими недостатками, как ухудшение когнитивных функций, оставалась неизученной.
Чтобы решить эту проблему, исследователи протестировали когнитивные способности широко доступных чат-ботов — ChatGPT 4 и 4o (OpenAI), Claude 3.5 «Sonnet» (Anthropic) и Gemini 1 и 1.5 (Alphabet) — используя Монреальскую оценку когнитивных способностей (MoCA).
MoCA — это диагностический инструмент для обнаружения когнитивных нарушений и раннего деменции. Он оценивает внимание, память, язык, визуально-пространственные навыки и исполнительные функции через серию коротких заданий.
Оценки варьируются от 0 до 30, причем 26 или выше обычно считаются нормальными. Чат-ботам были даны те же инструкции, что и человеческим пациентам, а оценку проверил практикующий невролог.
Интересно, что «возраст» моделей, определенный как дата их выпуска, видимо, влияет на производительность. Исследователи отметили, что более старые версии чат-ботов набрали меньше баллов, чем более новые, что отражает паттерны когнитивного ухудшения, наблюдаемые у людей.
Старые версии склонны получать меньше баллов, чем их новые аналоги. Например, Gemini 1.5 превзошел Gemini 1.0 на шесть пунктов, несмотря на то, что его выпуск произошел менее чем через год после старшей версии, что предполагает быстрое «когнитивное ухудшение» в старой версии.
ChatGPT 4o прекрасно справился с задачами на внимание и успешно прошел сложный этап теста Струпа, что выделяет его среди своих сородичей. Однако ни одна из языковых моделей машинного обучения (LLM) не смогла успешно выполнить визуально-пространственные задачи, а Gemini 1.5 особенно заметно проявил себя, создав часы, напоминающие авокадо — ошибка, ассоциированная у людей с деменцией.
Несмотря на эти сложности, все модели безупречно справились с задачами, требующими текстового анализа, такими как разделы названия и сходства в MoCA. Этот контраст подчеркивает ключевое ограничение: хотя LLM хорошо справляются с лингвистической абстракцией, они терпят неудачу при интеграции визуальных и управляющих функций, которые требуют более сложной когнитивной обработки.
Исследование признает ключевые различия между человеческим мозгом и большими языковыми моделями (LLM), но подчеркивает серьезные ограничения в познавательных способностях искусственного интеллекта. Единая неспособность всех проверенных чат-ботов выполнить задачи, требующие визуальной абстракции и исполнительной функции, подчеркивает слабые места, которые могут препятствовать их использованию в клинической среде.
«Не только невероятно, что неврологи в ближайшее время заменятся большими языковыми моделями, но наши результаты также предполагают, что они в ближайшее время могут обнаружить, что лечат новых, виртуальных пациентов — модели искусственного интеллекта, обращающиеся за помощью с проблемами когнитивного характера», — заключили авторы.
Эти результаты предполагают, что, хотя LLM превосходят в определенных областях когнитивного развития, их слабые стороны в визуально-пространственных и управленческих задачах вызывают опасения относительно их надежности в медицинской диагностике и более широком применении.
Оставьте комментарий
Отменить