Расследование показывает, что Apple, Nvidia и другие использовали видео с YouTube для обучения ИИ
Новое расследование некоммерческой новостной студии Proof News и Wired показало, что крупные фирмы в области ИИ, такие как Anthropic, Nvidia, Apple и Salesforce, использовали тысячи видео с YouTube для обучения моделей ИИ, несмотря на политику YouTube против использования контента без разрешения.
Исследователи с техническими навыками проанализировали открыто доступные обучающие наборы данных и обнаружили, что эти и другие компании из Силиконовой долины использовали транскрипты из 173 536 видео на YouTube с более чем 48 000 каналов.
Proof News объяснили, что они нашли материалы звезд YouTube, таких как Mr. Beast, PewDiePie, Jacksepticeye и Marques Brownlee, а также образовательный контент от каналов Массачусетского технологического института, Гарварда, Khan Academy и новостных изданий, таких как BBC, NPR и Wall Street Journal. В исследовании также упоминались несколько популярных шоу, таких как «Jimmy Kimmel Live», «The Late Show With Stephen Colbert» и «Last Week Tonight With John Oliver» в качестве части коллекции.
Набор данных, который назывался YouTube Subtitles, также включает переводы на такие языки как арабский, немецкий и японский, и был создан EleutherAI, некоммерческой группой исследователей в области искусственного интеллекта.
Согласно статье, опубликованной EleutherAI, датасет является частью сборника под названием Pile, который также включает материалы из других источников. Apple, Nvidia, Salesforce, Bloomberg, Databricks и Antropic, специализирующиеся на «безопасности AI», подтвердили использование Pile для обучения AI моделей на основе научных статей и документов.
Proof News также запустили вчера инструмент для помощи создателям контента, исследователям и общественности в поиске видео, используемых в базе данных. «Мы создали инструмент, чтобы вы могли самостоятельно искать данные», — объяснила организация в пресс-релизе, «имейте в виду, что инструмент поиска иногда может выдавать ложные отрицательные результаты для каналов и видео, которые есть в датасете. Убедитесь, что вы правильно написали название вашего канала или видео».
Ютуберы, включенные в исследование, также выразили свое беспокойство и раздражение. «Это воровство», — сказал Дейв Вискус, генеральный директор Nebula, Proof News и Wired после того, как узнал, что их контент использовался для обучения моделей AI. «Будет ли это использоваться для эксплуатации и ущерба художникам? Да, абсолютно.»
Оставьте комментарий
Отменить