Мета запускает AudioCraft, открытый искусственный интеллект для создания музыки.

Meta launches AudioCraft, an open artificial intelligence for music creation.

Новый генератор музыки на основе искусственного интеллекта от Meta является последним из ряда продуктов на основе ИИ, выпущенных этой технологической компанией.

В среду Meta объявила о выпуске AudioCraft, открытого генеративного ИИ, который создает аудио и музыку на основе текстовых подсказок. AudioCraft имеет три модели: MusicGen для сочинения музыки, AudioGen для создания звуковых эффектов и EnCodec, который использует ИИ для помощи в сжатии аудио, превосходящим формат MP3.

На всякий случай, если вас интересуют авторские права, MusicGen обучался на собственной музыке Meta и лицензированной музыке.

Meta активно стремится привнести инструменты на основе ИИ к массам, конкурируя с OpenAI, Google и Microsoft. В июле она выпустила свой открытый проект Llama 2, самую новую версию своей модели LLM (крупной языковой модели).

В отличие от GPT-4 от OpenAI и PaLM 2 от Google, Llama 2 является открытым проектом, что позволяет Meta набрать очки среди разработчиков и этиков, которые верят в прозрачность разработки ИИ. Также есть слухи о том, что Meta запускает ИИ “персоны”, такие как чат-боты для Instagram, Facebook и WhatsApp.

AudioCraft был разработан с учетом интересов музыкантов и звукорежиссеров, чтобы “предоставить вдохновение, помочь людям быстро генерировать итерации своих композиций новыми способами”, говорится в объявлении.

Примеры в блоге включают аудиообразцы от подсказки “Свистеть на фоне дующего ветра” и “Поп-трек с запоминающимися мелодиями, тропическими перкуссиями и живыми ритмами, идеальный для пляжа”, которые … успешно звучат, соответствуя этим описаниям.

Большая часть последних разработок генеративного ИИ сосредоточена на генерации текста и изображений, что является более простым процессом.

Текст-в-аудио – это более сложное предприятие, с которым Meta, кажется, справилась. AudioCraft изучает аудио-токены из сырых сигналов, используя свой собственный нейронный аудио-кодек EnCodec, чтобы создать новую “словарную базу” для модели.

Затем он обучает языковые модели на этой аудио-словарной базе, чтобы модель понимала связи между аудио и текстом. Поскольку AudioCraft также является открытым проектом, его код доступен на GitHub для изучения и тестирования.