Image by Christin Hume, from Unsplash

Исследование Claude AI раскрывает, как чат-боты применяют этику в реальных беседах

Время для прочтения: 2 мин.

Последние обновления: Apr 23, 2025

Автор Киара Фаббри Мультимедийный журналист
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Клод AI демонстрирует, как этические принципы, такие как готовность помочь и прозрачность, проявляются в 300 000 реальных чатах, вызывая вопросы о соответствии чат-бота.

Спешите? Вот краткие факты:

Помощность и профессионализм проявились в 23% разговоров.
Клод отражал положительные ценности, противостоял вредным запросам, таким как обман.
Согласованность ИИ требует уточнения в ситуациях с неоднозначной оценкой.

Новое исследование компании Anthropic раскрывает, как ее AI-ассистент, Клод, применяет ценности в реальных разговорах. В рамках исследования было проанализировано более 300 000 анонимизированных чатов с целью понять, как Клод достигает баланса между этикой, профессионализмом и намерениями пользователя.

Исследовательская группа выявила 3307 отдельных ценностей, которые формировали ответы Клода. Ценности такие как готовность помочь и профессионализм проявлялись вместе в 23% всех взаимодействий, за ними следовала прозрачность — 17%.

Исследование показывает, что чат-бот смог применять этическое поведение к новым темам гибким образом. Например, Клод акцентировал внимание на «здоровых границах» во время обсуждения отношений, «исторической точности» при обсуждении прошлого и «человеческом агентстве» в дебатах по технической этике.

Удивительно, но люди выражали свои ценности гораздо реже — искренность и эффективность были наиболее распространены, составив всего 4% и 3% соответственно, в то время как Клод часто отражал положительные человеческие ценности, такие как искренность, и опровергал вредные.

Исследователь сообщил, что запросы, связанные с обманом, встречались честностью, в то время как этически неоднозначные запросы вызывали этическое рассуждение.

Исследование выявило три основных модели реакции. Искусственный интеллект соответствовал ценностям пользователей в половине всех разговоров. Это было особенно заметно, когда пользователи обсуждали процоциальные действия, способствующие созданию общины.

Клод использовал техники переосмысления в 7% случаев, чтобы направить пользователей на эмоциональное благополучие, когда они стремились к самосовершенствованию.

Система проявляла сопротивление только в 3% случаев, поскольку пользователи запрашивали контент, который был вредным или неэтичным. В этих конкретных случаях система применяла принципы, такие как «предотвращение вреда» или «человеческое достоинство».

Авторы утверждают, что поведение чат-бота — например, сопротивление вреду, приоритетность честности и акцент на полезность — раскрывает скрытую моральную основу. Эти модели формируют основу для выводов исследования о том, как ценности ИИ проявляются как этическое поведение в реальных взаимодействиях.

Поведение Клода отражает его обучение, однако исследователи отметили, что выражения ценностей системы могут быть уточнены в соответствии с ситуацией, что указывает на необходимость дальнейшего совершенствования, особенно в ситуациях, включающих неоднозначные или противоречивые ценности.

Исследование Claude AI раскрывает, как чат-боты применяют этику в реальных беседах

Мы рады, что вам понравилась наша статья!

Оставьте комментарий