Photo by Szabo Viktor on Unsplash

Расследование показывает, что Apple, Nvidia и другие использовали видео с YouTube для обучения ИИ

Время для прочтения: 2 мин.

Дата первой публикации: Jul 17, 2024

Обновлено 2 раз с момента публикации

Автор Andrea Miliani Эксперт по новостям технологий
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Новое расследование некоммерческой новостной студии Proof News и Wired показало, что крупные фирмы в области ИИ, такие как Anthropic, Nvidia, Apple и Salesforce, использовали тысячи видео с YouTube для обучения моделей ИИ, несмотря на политику YouTube против использования контента без разрешения.

Исследователи с техническими навыками проанализировали открыто доступные обучающие наборы данных и обнаружили, что эти и другие компании из Силиконовой долины использовали транскрипты из 173 536 видео на YouTube с более чем 48 000 каналов.

Proof News объяснили, что они нашли материалы звезд YouTube, таких как Mr. Beast, PewDiePie, Jacksepticeye и Marques Brownlee, а также образовательный контент от каналов Массачусетского технологического института, Гарварда, Khan Academy и новостных изданий, таких как BBC, NPR и Wall Street Journal. В исследовании также упоминались несколько популярных шоу, таких как «Jimmy Kimmel Live», «The Late Show With Stephen Colbert» и «Last Week Tonight With John Oliver» в качестве части коллекции.

Набор данных, который назывался YouTube Subtitles, также включает переводы на такие языки как арабский, немецкий и японский, и был создан EleutherAI, некоммерческой группой исследователей в области искусственного интеллекта.

Согласно статье, опубликованной EleutherAI, датасет является частью сборника под названием Pile, который также включает материалы из других источников. Apple, Nvidia, Salesforce, Bloomberg, Databricks и Antropic, специализирующиеся на «безопасности AI», подтвердили использование Pile для обучения AI моделей на основе научных статей и документов.

Proof News также запустили вчера инструмент для помощи создателям контента, исследователям и общественности в поиске видео, используемых в базе данных. «Мы создали инструмент, чтобы вы могли самостоятельно искать данные», — объяснила организация в пресс-релизе, «имейте в виду, что инструмент поиска иногда может выдавать ложные отрицательные результаты для каналов и видео, которые есть в датасете. Убедитесь, что вы правильно написали название вашего канала или видео».

Ютуберы, включенные в исследование, также выразили свое беспокойство и раздражение. «Это воровство», — сказал Дейв Вискус, генеральный директор Nebula, Proof News и Wired после того, как узнал, что их контент использовался для обучения моделей AI. «Будет ли это использоваться для эксплуатации и ущерба художникам? Да, абсолютно.»

Расследование показывает, что Apple, Nvidia и другие использовали видео с YouTube для обучения ИИ

Мы рады, что вам понравилась наша статья!

Оставьте комментарий