Генерация музыки и голоса нейросетью: как это работает

· Павел Кияткин · Базовый

Кратко. Нейросети для звука закрывают две задачи — генерацию музыки и синтез голоса. Сервисы вроде Suno и Udio создают песню целиком по описанию, а ElevenLabs и аналоги озвучивают текст голосом, который трудно отличить от человеческого. Достаточно описания или текста, чтобы получить готовый трек или речь.

Генерация звука нейросетью прошла за пару лет путь от роботизированных голосов и простых мелодий до песен с вокалом и озвучки студийного уровня. Сегодня создать трек или озвучить ролик можно без музыкальной школы и без студии — по текстовому описанию или готовому тексту. Эта страница разбирает обе задачи и идёт глубже общего обзора в разделе генеративные нейросети.

Что генерируют нейросети в звуке

Нейросети для звука решают две разные задачи — генерацию музыки и синтез голоса. Музыкальные сервисы создают трек с инструментами и вокалом по описанию жанра и настроения. Сервисы синтеза речи берут готовый текст и читают его естественным голосом. Первая задача — про сочинение нового, вторая — про озвучку уже написанного, и инструменты под них тоже разные.

Генерация музыки: Suno и Udio

Музыку целиком генерируют Suno и Udio: вы описываете жанр, настроение и при желании пишете текст, а сервис выдаёт законченный трек с вокалом и аккомпанементом за минуту. Под капотом — модели, обученные на огромных наборах аудио, которые улавливают закономерности музыки и собирают новую композицию. Suno проще для старта, Udio даёт больше контроля над структурой и звучанием.

Синтез голоса и клонирование

Синтез речи превращает текст в естественную озвучку, и лидер этой области — ElevenLabs. Современные модели читают текст с интонацией, паузами и эмоцией, поддерживая десятки языков. Отдельная функция — клонирование голоса: по короткой записи сервис создаёт цифровую копию голоса и озвучивает ею любой текст. Качество выросло настолько, что синтез часто трудно отличить от живой речи.

Что доступно из России

Из России работают оба направления, хотя картина смешанная. Музыкальные сервисы вроде Suno и Udio доступны через известные ограничения по оплате и доступу, при этом российские платформы тоже развивают генерацию музыки. Синтез речи закрывают и зарубежные сервисы, и решения от Яндекса и Сбера с поддержкой русского языка. Под конкретную задачу набор инструментов стоит проверять отдельно — он быстро меняется.

Для чего это используют

Применяют генерацию звука там, где раньше нужны были студия и бюджет. Музыкальные сервисы дают фоновые треки для роликов, джинглы, демо-наброски для песни. Синтез речи закрывает озвучку видео, подкастов, аудиоверсий статей, голосовых ассистентов и обучающих курсов. Для блогера, маркетолога или разработчика прототипа это способ получить аудио быстро и без подрядчика, проверяя идею ещё на черновике.

Этические и юридические нюансы

Главные сложности здесь — авторские права и клонирование голоса. В 2024 году мейджор-лейблы Sony, Universal и Warner подали иски к Suno и Udio, считая, что модели обучены на защищённой музыке без разрешения. Клонирование чужого голоса без согласия затрагивает право человека на свой голос. Поэтому перед коммерческим использованием стоит прочитать лицензию сервиса и клонировать только собственный голос.

Чем музыка отличается от голоса

Два направления решают разные задачи разными инструментами, и спутать их легко только на словах. Музыкальные сервисы сочиняют новую композицию по описанию, сервисы синтеза речи озвучивают уже готовый текст. Таблица ниже сводит отличия по входу, результату и типичному применению, чтобы было понятно, какой инструмент под какую цель брать на практике.

ПараметрГенерация музыкиСинтез голоса
СервисыSuno, UdioElevenLabs, аналоги
Что на входеОписание жанра и текст песниГотовый текст
Что на выходеТрек с вокалом и музыкойОзвучка текста голосом
Типичная задачаПесни, джинглы, фон для видеоПодкасты, озвучка роликов, ассистенты
Особая функцияСтили и структура композицииКлонирование голоса по записи

Когда нужно собрать новое аудио, общий принцип генеративных моделей разобран в материале что такое генеративный ИИ.

Источники

  1. «Suno (platform)». Wikipedia — описание музыкальной генеративной платформы и судебных споров по авторским правам. en.wikipedia.org/wiki/Suno_(platform)
  2. «Speech synthesis». Wikipedia — как работает синтез речи и нейросетевая озвучка текста. en.wikipedia.org/wiki/Speech_synthesis
  3. ElevenLabs — официальная страница синтеза речи и клонирования голоса. elevenlabs.io/text-to-speech

Связанные концепты

Частые вопросы

Какая нейросеть генерирует музыку лучше всего?

Самые сильные сервисы для генерации песни целиком — Suno и Udio. Suno проще для новичка и делает законченный трек с вокалом по короткому описанию, Udio даёт более тонкий контроль над структурой и звучанием. Оба создают музыку с инструментами и голосом по текстовому запросу, поэтому выбор сводится к тому, что важнее: скорость или управляемость.

Можно ли клонировать свой голос нейросетью?

Да, сервисы синтеза речи вроде ElevenLabs умеют создавать цифровую копию голоса по короткой записи и затем озвучивать ею любой текст. Технически достаточно нескольких минут чистого аудио. Юридически клонировать чужой голос без согласия рискованно: это затрагивает право на голос и может нарушать закон, поэтому клонируют в основном собственный голос или с разрешения владельца.

Кому принадлежат права на сгенерированную музыку?

Вопрос пока не решён однозначно. Условия сервисов вроде Suno обычно передают платным пользователям коммерческие права на их треки, но мейджор-лейблы в 2024 году подали иски к Suno и Udio из-за обучения на защищённой музыке. Поэтому перед коммерческим использованием стоит прочитать актуальную лицензию конкретного сервиса.