AI столкнулся с кризисом данных: Маск предупреждает о исчерпании человеческих знаний

AI столкнулся с кризисом данных: Маск предупреждает о исчерпании человеческих знаний

Время для прочтения: 3 мин.

Компании, занимающиеся искусственным интеллектом, исчерпали доступные человеческие знания для обучения своих моделей, раскрыл Илон Маск во время прямого эфира интервью, как сообщает The Guardian.

Спешите? Вот основные факты!

  • Илон Маск говорит, что компании, работающие с ИИ, исчерпали человеческие знания для обучения моделей.
  • Маск предполагает, что «синтетические данные» необходимы для развития систем искусственного интеллекта.
  • Галлюцинации ИИ усложняют использование синтетических данных, угрожая ошибками в сгенерированном контенте.

Миллиардер предложил, что компаниям все больше придется полагаться на «синтетические» данные — контент, созданный самим ИИ, для разработки новых систем, метод, который уже набирает обороты. «Совокупная сумма человеческих знаний исчерпана в обучении ИИ. Это произошло, по сути, в прошлом году», — сказал Маск, как сообщает газета The Guardian.

Это представляет собой значительное испытание для моделей ИИ, таких как GPT-4, которые полагаются на огромные наборы данных, полученные из интернета, для определения закономерностей и прогнозирования текстовых выводов.

Маск, основавший xAI в 2023 году, выделил синтетические данные как основное решение для развития ИИ. Однако он предупредил о рисках, связанных с этой практикой, в частности о «галлюцинациях» ИИ, когда модели генерируют неточную или бессмысленную информацию, как сообщал The Guardian.

The Guardian отмечает, что ведущие технологические компании, включая Meta и Microsoft, применили синтетические данные для своих AI моделей, таких как Llama и Phi-4. Google и OpenAI также присоединились к этому подходу.

Например, Gartner оценивает, что 60% данных, использованных для AI и аналитических проектов в 2024 году, были синтетически сгенерированы, как сообщает TechCrunch.

Кроме того, обучение на синтетических данных позволяет значительно сэкономить. Как отмечает TechCrunch, стартап в области ИИ Writer утверждает, что его модель Palmyra X 004, разработанная почти полностью на основе синтетических источников, обошлась всего в $700,000.

Для сравнения, оценки говорят о том, что разработка модели аналогичного размера от OpenAI обошлась бы примерно в $4.6 миллиона, говорит TechCrunch. Однако, несмотря на то, что синтетические данные позволяют продолжать усовершенствование модели, эксперты предупреждают о возможных недостатках.

The Guardian сообщил, что Андрю Дункан, директор отдела основного искусственного интеллекта в Институте Алана Тьюринга, отметил, что зависимость от синтетических данных угрожает «коллапсом модели», когда качество результатов со временем ухудшается.

«Когда вы начинаете подавать модели синтетические данные, вы начинаете получать уменьшающуюся отдачу», — сказал Дункан, добавив, что также могут возникнуть предрассудки и снижение креативности.

Растущее распространение контента, созданного искусственным интеллектом в интернете, вызывает еще одну тревогу. Дункан предупреждал, что такой материал может случайно попасть в обучающие наборы данных, что усугубляет проблемы, как сообщает The Guardian.

Дункан упомянул исследование, опубликованное в 2022 году, которое предсказало, что качественные текстовые данные для обучения AI могут исчерпаться к 2026 году, если текущие тенденции сохранятся. Исследователи также предположили, что данные низкокачественного языка могут закончиться между 2030 и 2050 годами, в то время как данные низкокачественного изображения могут исчерпаться между 2030 и 2060 годами.

Более того, более недавнее исследование, опубликованное в июле, предупреждает о том, что модели ИИ рискуют ухудшиться, поскольку данные, сгенерированные ИИ, все больше насыщают интернет. Исследователи обнаружили, что модели, обученные на результатах, сгенерированных ИИ, со временем дают бессмысленные результаты, явление, которое они назвали «коллапсом модели».

Это ухудшение может замедлить прогресс ИИ, подчеркивая необходимость высококачественных, разнообразных источников данных, созданных человеком.

Понравилась статья? Поставьте оценку!
Ужасно Удовлетворительно Хорошо Очень хорошо! Превосходно!

Мы рады, что вам понравилась наша статья!

Дорогой читатель, не могли бы вы оставить отзыв о нас на сайте Trustpilot? Это не займет у вас много времени, но очень важно для нас. Спасибо, наш замечательный читатель!

Оценить нас на Trustpilot
0 Проголосовало 0 пользователей
Заголовок
Комментарий
Спасибо за ваш отзыв
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Оставьте комментарий

Loader
Loader Показать больше...