Илон Маск: Искусственный интеллект исчерпал данные человечества

Оцените материал
(0 голосов)

Искусственный интеллект упёрся в потолок, будущее за синтетическими данными.

Илон Маск присоединился к мнению других экспертов в области искусственного интеллекта о том, что реальных данных для обучения ИИ-моделей практически не осталось.

«Мы исчерпали практически весь накопленный объём человеческих знаний для обучения ИИ. Это произошло фактически в прошлом году», — заявил Маск во время трансляции беседы с председателем Stagwell Марком Пенном на платформе X.

Маск, владелец компании xAI, поддержал идеи, которые бывший главный научный сотрудник OpenAI Илья Суцкевер озвучил на конференции по машинному обучению NeurIPS в декабре. Суцкевер, заявивший о достижении «пика данных» в индустрии ИИ, предсказал, что нехватка обучающих данных вынудит изменить существующие подходы к разработке моделей.

Маск предложил решение — использование синтетических данных, генерируемых самими ИИ-моделями.

«Единственный способ дополнить реальные данные — это синтетические данные, где ИИ сам создаёт обучающие материалы. С синтетическими данными ИИ будет оценивать себя сам и проходить через процесс самообучения», — отметил он.



Крупные технологические компании, включая Microsoft, Meta, OpenAI и Anthropic, уже используют синтетические данные для обучения своих флагманских ИИ-моделей. По оценкам Gartner, 60% данных, используемых для проектов в области ИИ и аналитики в 2024 году, были сгенерированы синтетически. Модель Microsoft Phi-4, открытый код которой был опубликован на этой неделе, обучалась на комбинации синтетических и реальных данных. Аналогичный подход использовался при создании моделей Google Gemma. Anthropic применила синтетические данные при разработке одной из своих самых эффективных систем — Claude 3.5 Sonnet, а Meta* улучшила последнюю серию моделей Llama с помощью ИИ-генерированных данных.

Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность. Стартап Writer утверждает, что их модель Palmyra X 004, разработанная почти полностью на синтетических источниках, обошлась всего в $700 000 — по сравнению с оценочной стоимостью в $4,6 миллиона за сопоставимую модель OpenAI.

Однако существуют и недостатки. Некоторые исследования показывают, что синтетические данные могут привести к «коллапсу модели», когда ИИ становится менее «креативным» и более предвзятым в своих результатах, что в конечном итоге может серьёзно нарушить его функциональность. Поскольку модели создают синтетические данные на основе уже существующих, любые предубеждения и ограничения в исходных данных будут воспроизводиться в их результатах.

Источник: ixbt.com
Фото: WWW

2025-01-09

Прочитано 290 раз
В рамках III кыргызско-венгерского агрофорума в Будапеште подписан ряд двусторонних документов
В рамках рабочей поездки в город Будапешт (Венгрия) заместитель председателя…
Состоялась встреча Адылбека Касымалиева с постоянным координатором системы ООН в КР Антье Граве
Состоялась встреча председателя Кабинета министров Адылбека Касымалиева с Постоянным координатором…
Пятничный информационный дайджест с 10 по 17 января 2025 года
Топ-15 основных новостей республики. Специально для наших читателей мы публикуем…
Чего ждет человечество от науки в 2025 году
Невероятное вчера становится очевидным сегодня. Технический прогресс и искусственный интеллект…