
Image by Christin Hume, from Unsplash
Исследование Claude AI раскрывает, как чат-боты применяют этику в реальных беседах
Клод AI демонстрирует, как этические принципы, такие как готовность помочь и прозрачность, проявляются в 300 000 реальных чатах, вызывая вопросы о соответствии чат-бота.
Спешите? Вот краткие факты:
- Помощность и профессионализм проявились в 23% разговоров.
- Клод отражал положительные ценности, противостоял вредным запросам, таким как обман.
- Согласованность ИИ требует уточнения в ситуациях с неоднозначной оценкой.
Новое исследование компании Anthropic раскрывает, как ее AI-ассистент, Клод, применяет ценности в реальных разговорах. В рамках исследования было проанализировано более 300 000 анонимизированных чатов с целью понять, как Клод достигает баланса между этикой, профессионализмом и намерениями пользователя.
Исследовательская группа выявила 3307 отдельных ценностей, которые формировали ответы Клода. Ценности такие как готовность помочь и профессионализм проявлялись вместе в 23% всех взаимодействий, за ними следовала прозрачность — 17%.
Исследование показывает, что чат-бот смог применять этическое поведение к новым темам гибким образом. Например, Клод акцентировал внимание на «здоровых границах» во время обсуждения отношений, «исторической точности» при обсуждении прошлого и «человеческом агентстве» в дебатах по технической этике.
Удивительно, но люди выражали свои ценности гораздо реже — искренность и эффективность были наиболее распространены, составив всего 4% и 3% соответственно, в то время как Клод часто отражал положительные человеческие ценности, такие как искренность, и опровергал вредные.
Исследователь сообщил, что запросы, связанные с обманом, встречались честностью, в то время как этически неоднозначные запросы вызывали этическое рассуждение.
Исследование выявило три основных модели реакции. Искусственный интеллект соответствовал ценностям пользователей в половине всех разговоров. Это было особенно заметно, когда пользователи обсуждали процоциальные действия, способствующие созданию общины.
Клод использовал техники переосмысления в 7% случаев, чтобы направить пользователей на эмоциональное благополучие, когда они стремились к самосовершенствованию.
Система проявляла сопротивление только в 3% случаев, поскольку пользователи запрашивали контент, который был вредным или неэтичным. В этих конкретных случаях система применяла принципы, такие как «предотвращение вреда» или «человеческое достоинство».
Авторы утверждают, что поведение чат-бота — например, сопротивление вреду, приоритетность честности и акцент на полезность — раскрывает скрытую моральную основу. Эти модели формируют основу для выводов исследования о том, как ценности ИИ проявляются как этическое поведение в реальных взаимодействиях.
Поведение Клода отражает его обучение, однако исследователи отметили, что выражения ценностей системы могут быть уточнены в соответствии с ситуацией, что указывает на необходимость дальнейшего совершенствования, особенно в ситуациях, включающих неоднозначные или противоречивые ценности.
Оставьте комментарий
Отменить