Гарвард представляет бесплатную обширную базу данных для обучения AI
Университет Гарвард объявил, что опубликует большой набор данных почти из 1 миллиона книг общественного достояния для бесплатного обучения ИИ, созданный его новой программой Institutional Data Initiative (IDI).
Спешите? Вот основные факты!
- Гарвард в сотрудничестве с Google Книги выпустил набор данных с почти 1 миллионом книг общественного достояния для бесплатного обучения моделей ИИ
- Набор данных был создан новой Инициативой по Институциональным Данным, поддерживаемой Microsoft и OpenAI
- Малые организации могут извлечь выгоду из этого сбора данных для более честной конкуренции в области искусственного интеллекта
Согласно Wired, набор данных включает публикации, отсканированные Google Books, не защищенные авторским правом — оно обычно истекает через 70 лет после смерти автора или его публикации. Коллекция данных охватывает множество форматов и жанров, от художественного творчества известных авторов, таких как Чарльз Диккенс, Шекспир и Данте, до учебников и словарей.
Согласно исполнительному директору IDI Грегу Лепперту, цель заключается в том, чтобы «уровнять игровое поле» и позволить большему числу организаций и небольшим проектам присоединиться к гонке искусственного интеллекта с помощью ценных инструментов. Размер набора данных превышает тот, который использовался для обучения популярных моделей AI, таких как Llama от Meta. «Я думаю об этом немного как о том, как Linux стал основной операционной системой для большей части мира», — сказал Лепперт.
IDI был официально запущен сегодня, и его поддержали OpenAI и Microsoft финансированием и ободряющими словами. Инициатива направлена на работу с учебными учреждениями, такими как государственные агентства и библиотеки, «для разработки коллекций данных и лучших практик для искусственного интеллекта». Детали о том, как можно скачать новый набор данных, не были раскрыты, известно только, что Google поможет с распространением.
Эта новая сборка данных должна помочь избежать споров о нарушении авторских прав, с которыми столкнулись многие компании, работающие в области ИИ в этом году. «Большие общедоступные наборы данных, подобные этим, еще больше опровергают ‘защиту необходимости’, на которую некоторые компании-разработчики ИИ ссылались, чтобы оправдать использование защищенных авторским правом работ для обучения своих моделей», — сказал Эд Ньютон-Рекс, бывший исполнительный директор Stability AI, который теперь руководит некоммерческой организацией, сертифицирующей этично обученные ИИ-инструменты, в интервью Wired.
Недавно Ньютон-Рекс возглавил петицию против использования технологическими компаниями метода скрейпинга данных для обучения их моделей ИИ.
Оставьте комментарий
Отменить