Гарвард представляет бесплатную обширную базу данных для обучения AI

Photo by Aleks Marinkovic on Unsplash

Гарвард представляет бесплатную обширную базу данных для обучения AI

Время для прочтения: 2 мин.

Университет Гарвард объявил, что опубликует большой набор данных почти из 1 миллиона книг общественного достояния для бесплатного обучения ИИ, созданный его новой программой Institutional Data Initiative (IDI).

Спешите? Вот основные факты!

  • Гарвард в сотрудничестве с Google Книги выпустил набор данных с почти 1 миллионом книг общественного достояния для бесплатного обучения моделей ИИ
  • Набор данных был создан новой Инициативой по Институциональным Данным, поддерживаемой Microsoft и OpenAI
  • Малые организации могут извлечь выгоду из этого сбора данных для более честной конкуренции в области искусственного интеллекта

Согласно Wired, набор данных включает публикации, отсканированные Google Books, не защищенные авторским правом — оно обычно истекает через 70 лет после смерти автора или его публикации. Коллекция данных охватывает множество форматов и жанров, от художественного творчества известных авторов, таких как Чарльз Диккенс, Шекспир и Данте, до учебников и словарей.

Согласно исполнительному директору IDI Грегу Лепперту, цель заключается в том, чтобы «уровнять игровое поле» и позволить большему числу организаций и небольшим проектам присоединиться к гонке искусственного интеллекта с помощью ценных инструментов. Размер набора данных превышает тот, который использовался для обучения популярных моделей AI, таких как Llama от Meta. «Я думаю об этом немного как о том, как Linux стал основной операционной системой для большей части мира», — сказал Лепперт.

IDI был официально запущен сегодня, и его поддержали OpenAI и Microsoft финансированием и ободряющими словами. Инициатива направлена на работу с учебными учреждениями, такими как государственные агентства и библиотеки, «для разработки коллекций данных и лучших практик для искусственного интеллекта». Детали о том, как можно скачать новый набор данных, не были раскрыты, известно только, что Google поможет с распространением.

Эта новая сборка данных должна помочь избежать споров о нарушении авторских прав, с которыми столкнулись многие компании, работающие в области ИИ в этом году. «Большие общедоступные наборы данных, подобные этим, еще больше опровергают ‘защиту необходимости’, на которую некоторые компании-разработчики ИИ ссылались, чтобы оправдать использование защищенных авторским правом работ для обучения своих моделей», — сказал Эд Ньютон-Рекс, бывший исполнительный директор Stability AI, который теперь руководит некоммерческой организацией, сертифицирующей этично обученные ИИ-инструменты, в интервью Wired.

Недавно Ньютон-Рекс возглавил петицию против использования технологическими компаниями метода скрейпинга данных для обучения их моделей ИИ.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...