Photo by Aleks Marinkovic on Unsplash

Гарвард представляет бесплатную обширную базу данных для обучения AI

Время для прочтения: 2 мин.

Последние обновления: Dec 13, 2024

Автор Andrea Miliani Эксперт по новостям технологий
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Университет Гарвард объявил, что опубликует большой набор данных почти из 1 миллиона книг общественного достояния для бесплатного обучения ИИ, созданный его новой программой Institutional Data Initiative (IDI).

Спешите? Вот основные факты!

Гарвард в сотрудничестве с Google Книги выпустил набор данных с почти 1 миллионом книг общественного достояния для бесплатного обучения моделей ИИ
Набор данных был создан новой Инициативой по Институциональным Данным, поддерживаемой Microsoft и OpenAI
Малые организации могут извлечь выгоду из этого сбора данных для более честной конкуренции в области искусственного интеллекта

Согласно Wired, набор данных включает публикации, отсканированные Google Books, не защищенные авторским правом — оно обычно истекает через 70 лет после смерти автора или его публикации. Коллекция данных охватывает множество форматов и жанров, от художественного творчества известных авторов, таких как Чарльз Диккенс, Шекспир и Данте, до учебников и словарей.

Согласно исполнительному директору IDI Грегу Лепперту, цель заключается в том, чтобы «уровнять игровое поле» и позволить большему числу организаций и небольшим проектам присоединиться к гонке искусственного интеллекта с помощью ценных инструментов. Размер набора данных превышает тот, который использовался для обучения популярных моделей AI, таких как Llama от Meta. «Я думаю об этом немного как о том, как Linux стал основной операционной системой для большей части мира», — сказал Лепперт.

IDI был официально запущен сегодня, и его поддержали OpenAI и Microsoft финансированием и ободряющими словами. Инициатива направлена на работу с учебными учреждениями, такими как государственные агентства и библиотеки, «для разработки коллекций данных и лучших практик для искусственного интеллекта». Детали о том, как можно скачать новый набор данных, не были раскрыты, известно только, что Google поможет с распространением.

Эта новая сборка данных должна помочь избежать споров о нарушении авторских прав, с которыми столкнулись многие компании, работающие в области ИИ в этом году. «Большие общедоступные наборы данных, подобные этим, еще больше опровергают ‘защиту необходимости’, на которую некоторые компании-разработчики ИИ ссылались, чтобы оправдать использование защищенных авторским правом работ для обучения своих моделей», — сказал Эд Ньютон-Рекс, бывший исполнительный директор Stability AI, который теперь руководит некоммерческой организацией, сертифицирующей этично обученные ИИ-инструменты, в интервью Wired.

Недавно Ньютон-Рекс возглавил петицию против использования технологическими компаниями метода скрейпинга данных для обучения их моделей ИИ.

Гарвард представляет бесплатную обширную базу данных для обучения AI

Мы рады, что вам понравилась наша статья!

Оставьте комментарий