скачать бесплатно в хорошем качестве
Сегодня нейронные сети пишут стихи, рисуют картины, а теперь взялись за самое сложное искусство — музыку.
Искусственный интеллект осваивает музыкальную грамоту и учится импровизировать. Анализирует миллионы произведений, чтобы создавать собственные, сочиняет мелодии, придумывает тексты. И машинное музыкальное творчество уже впечатляет.
Разбираемся, как устроены «генеративные композиторы» и чего от них ждать завтра.
История компьютерной музыки насчитывает уже более полувека. Её рождение состоялось в 1957 году в лаборатории Bell Labs. Тогда программист Ньюман Гутман получил 17-секундную мелодию ❭❭ The Silver Scale («Серебряная чешуя») — первую композицию, написанную на компьютере.
В том же году появилась ещё одна «раритетная компьютерная партитура» — ❭❭ The Illiac Suite, посвящённая суперкомпьютеру ILLIAC I штата Иллинойс. Это один из первых случаев, когда компьютер использовал математический алгоритм для создания музыки, основываясь на вероятности перехода между нотами (на вероятностном моделировании, цепях Маркова).
«Электронные механизмы» становились всё искуснее, а результаты их работы — всё более совершенными. С появлением же нейросетей машинам удалось приблизиться к человеческому уровню, хотя, если признаться, до хит-парадов им ещё далеко.
Тем не менее в 2019 году после победы на «Евровидении» израильские разработчики, обучив нейросеть на материалах прошлых конкурсов, в результате получили песню ❭❭ Blue Jeans and Bloody Tears, исполнителем которой стал победитель «Евровидения-2018» Изхар Коэн.
А уже с 2020 года стартовал конкурс компьютерной музыки ❭❭ AI Song Contest, в котором принимают участие музыкальные композиции, написанные ИИ.
Как именно нейронные сети учатся сочинять музыку? В основе лежат два подхода:
В основе обоих подходов лежат автокодировщики и GAN (генеративно-состязательные сети).
Автокодировщик сжимает исходные музыкальные данные, убирая лишнюю информацию и затем восстанавливает полные данные, тем самым «проверяя себя», насколько он точен (сравнивая свой результат с исходными несжатыми данными). Цель — научиться производить новые данные максимально соответствующие ожидаемым.
А GAN как бы проводит внутреннее «соревнование»: одна часть сети генерирует музыку, а другая пытается определить, настоящая она или создана первой частью, затем давая ей обратную связь.
Чтобы нейросеть могла сочинять длинные произведения, применяется иерархическое внимание. Оно позволяет анализировать музыку на всех уровнях: от отдельных нот до фраз и разделов.
Такими способами нейросети обучаются на обширных массивах музыкальных произведений, чтобы затем сочинять собственные, похожие на настоящие.
Музыкальный тест Тьюринга
Как объективно оценить музыку, придуманную машиной? Для этого используют тест Тьюринга, заключающийся в попытке угадать, при прослушивании «вслепую» музыки, написанной и компьютером и человеком, кто автор — человек или компьютер. Если мы не сумеем отличить, тест пройден.
Такой тест был проведён для алгоритма DeepBach, который генерирует мелодии в стиле Баха. Более 1,2 тыс. людей (эксперты и любители) слушали хоралы Баха и DeepBach, и пытались определить автора. Оказалось, сложно отличить настоящего Баха от искусственного.
В области создания аудио успехи пока скромнее. Возьмём, например, Jukebox — нейросеть, генерирующую музыку в разных жанрах. Она создаёт различные инструменты и даже голос. Но между её музыкой и человеческой всё ещё имеется ощутимая разница. В сочинениях Jukebox нет крупных структур и присутствуют шумы, связанные с работой модели.
В настоящее время в основном применяют следующие типы нейросетей:
Рекуррентные нейронные сети, в частности LSTM, хорошо подходят для создания музыки в символическом представлении — в виде нот, аккордов, ритмов. Они способны обрабатывать последовательности и учитывать контекст. К примеру, сеть ❭❭ Music Transformer генерирует композиции по текстовому запросу.
Для генерации музыки как звуковой волны применяют свёрточные нейросети CNN. Они извлекают признаки из аудиоспектрограмм. Популярны состязательные сети GAN — генератор создаёт музыку, а дискриминатор оценивает её реалистичность. Так работает ритмический генератор ❭❭ RhythmGAN.
Чтобы учитывать дополнительную информацию о стиле, жанре, используют условные сети. Например, вариационные автокодировщики VAE в сети ❭❭ Jukebox позволяют генерировать музыку в стиле конкретного исполнителя.
Для создания музыки по изображениям, тексту и другим данным применяют мультимодальные сети. В частности, трансформеры с механизмом внимания, как в ❭❭ MuseNet. Они находят связи между разными типами данных.
🌐 AIVA
AIVA — это нейросеть, которая сочиняет музыку с 2016 года. У неё есть свой альбом и композиция для игры Pixelfield. AIVA предназначена для создания музыки для рекламы или игр. Она может делать свои треки, исправлять готовые, писать разные варианты одной песни. Стоимость — от €11 в месяц, в зависимости от целей.
Достоинства:
Недостатки:
Как использовать:
Зарегистрироваться и войти на платформу. > Нажать на зелёную кнопку Create. > Выбрать стиль и снова нажать на кнопку Create. > Выбрать тональность, длину и количество треков.
🌐 SOUNDRAW
Soundraw — это программа, которая пишет музыку по ключевым словам, жанру и темпу. Soundraw подходит для аудиоконтента для YouTube, кино, рекламы, подкастов, игр, соцсетей. Стоимость — от $16,99 в месяц.
Достоинства:
Недостатки:
Как использовать:
Зайти на сайт и нажать на кнопку Create music. > Выбрать длительность и темп трека вверху страницы. > Выбрать один из методов — mood, genre или theme ниже. > Нажать на белую стрелку в правом конце строки, чтобы скачать трек.
🌐 SOUNDFUL
Soundful — это нейросеть, которая генерирует музыку по жанрам и скорости. Регистрация простая, через Google. Soundful подходит для контента для соцсетей или фоновой музыки, например, для рекламы. Стоимость подписки — от $9,99 в месяц.
Достоинства:
Недостатки:
Как использовать:
Нажать Start for free, зарегистрироваться и создать профиль. > Нажать на красный кружок с звуковой дорожкой или на кнопку Create. > Выбрать жанр и тему трека внизу экрана. > На панели кастомизации выбрать настройки. > Ввести название трека и нажать Create preview. > Скачать трек по команде Get, выбрать формат и нажать Render & Download.
🌐 JUKEBOX
Jukebox — это нейросеть от OpenAI, которая придумывает музыку по аудиосигналам, а не по нотам. Она может имитировать разные инструменты и голос. Она требует больших мощностей и знаний в программировании. Одна минута трека генерируется несколько часов. Для обучения модели использовали 1,2 млн песен. Нейросеть бесплатна и открыта для некоммерческого использования.
Достоинства:
Недостатки:
Как использовать:
Jukebox пока недоступен для публичного использования. OpenAI также создала другую нейросеть для музыки — ❭❭ MuseNet, но она сейчас на доработке.
🌐 AMPER MUSIC (теперь в Shutterstock)
Amper Music — это облачный сервис, который производит музыку для фильмов, игр, рекламы. Можно выбрать простой или сложный режим работы. В простом режиме задаются параметры трека: длительность, эмоция, стиль.. В сложном режиме используются сгенерированные отрезки, выбираются инструменты, темп. Есть бесплатная версия. Платная подписка стоит от $5 и даёт больше функций.
Достоинства:
Недостатки:
Как использовать:
Зарегистрироваться по e‑mail. > Оплатить подписку, если нужен профессиональный интерфейс. > В бесплатной версии выбрать только стиль и длительность трека, в платной имеются дополнительные параметры.
🌐 MUBERT
Mubert — это программа, которая пишет музыку по жанру, стилю и настроению или по текстовому запросу на английском. Трек готов за несколько секунд. Программа проста в использовании; треки можно создавать для личных или коммерческих целей — в зависимости от тарифа. Стоимость — от $14, есть бесплатная версия.
Достоинства:
Недостатки:
Как использовать:
Нажать Generate a track now. > Написать текстовый запрос или выбрать характеристики трека: стиль, жанр, настроение, длительность. > Нажать Generate track и ждать генерации.
Нейросети могут создавать музыку не только по тексту или параметрам, но и по картинке. Есть несколько программ, которые умеют это делать.
🌐 IMAGE TO MUSIC (beta)
Image to Music — простая и бесплатная программа с понятным интерфейсом. Нужно загрузить картинку и выбрать параметры — скорость, тип, длительность.
Достоинства:
Недостатки:
Как использовать:
Загрузить картинку в верхнюю форму. > Задать параметры внизу: ключевые слова, длительность, зацикленность, интенсивность.
🌐 IMAGINARY SOUNDSCAPE (beta)
Imaginary Soundscape — это программа, которая генерирует звуковой пейзаж по картинке. Например, по фото медведя в лесу вы услышите рык зверя и шум листвы, а по фото реки — шум волн. Программа сделана в Японии и бесплатна для использования.
Достоинства:
Недостатки:
Как использовать:
Загрузить картинку в PNG или JPG до 5 Мб, или скопировать ссылку на неё и вставить в поле. > Нажать на кнопку Submit. > Звук будет готов за несколько секунд.
Нейросетевая генерация музыки в реальном времени — это подход, при котором искусственный интеллект создаёт музыку динамически, адаптируясь к различным параметрам, таким как время суток, погода, пульс слушателя и т.д.
Некоторые сервисы, например, ❭❭ Яндекс Музыка уже предлагают своим пользователям соответствующий доступ: «Это бесконечная мелодия, которую алгоритмы создают в реальном времени и подстраивают под вкус каждого пользователя. Есть три режима — “спокойствие”, “вдохновение” и “бодрость” — для разных занятий, которые требуют концентрации».
Западные компании внедряют нейросетевое музыкальное “онлайн-радио” в стриминговых и игровых сервисах.
Обработка музыки, звука и голоса нейросетями — это применение искусственного интеллекта для различных задач, связанных с анализом, синтезом, трансформацией и улучшением звуковых сигналов.
Так, одно из распространённых применений — сегрегация инструментов в музыкальной композиции. Нейросеть способна разделить полифоническое произведение на отдельные файлы с партиями каждого инструмента или голоса. Например, сервис ❭❭ Spleeter использует нейросетевые механизмы для выделения разных треков из одного аудиофайла. Это открывает широкие возможности для ремиксов, караоке, а также для анализа структуры и гармоний музыки.
Другое важное направление — микширование, то есть сведение разных звуковых потоков в единый сбалансированный микс. Здесь нейросеть помогает подобрать оптимальные настройки громкости, панорамирования, эквализации для каждого трека. Например, ❭❭ LANDR использует нейронные алгоритмы для автоматического сведения музыки. В итоге звучание становится более гармоничным и выразительным.
Нейросети также применяются для аудиоэффектов — обработки звука с помощью разнообразных модулей вроде компрессора, ревербератора, делея. Например, ❭❭ iZotope улучшает качество записи, делает звук более ярким и объёмным.
Ещё одно распространённое применение — шумоподавление. Например, ❭❭ Krisp использует «нейронки» для распознавания и фильтрации нежелательных шумов. Таким образом, значительно повышается чистота и разборчивость звука.
Можно преобразовывать голос: менять тембр, высоту, акцент. Например, ❭❭ VoiceMod применяет «нейронную обработку» для модификации голосовых характеристик. Это находит применение в озвучивании, создании персонажей, маскировке личности.
Для вокала полезен автотюн — коррекция фальшивых нот с подстройкой под нужную тональность. Например, приложение и плагин ❭❭ Voloco использует нейросети для автоматической настройки вокала.
А для синтеза новых звуков применяется генерация на основе заданных параметров. Например, проект с открытым исходным кодом ❭❭ NSynth позволит вам создавать звуки разных музыкальных инструментов с помощью нейросети и вспомогательных алгоритмов.
Таким образом, областей применения нейросетей в аудио бесчисленное множество. А с появлением новых топологий и алгоритмов обучения это направление будет только развиваться.
Публикуйте навсегда в свободной статье!
Нажмите на волшебную кнопку:
Самые радужные! ))
Искусственный интеллект изменит само музыкальное искусство, ровно с того момента, когда достигнет паритета с человеком.
В настоящее время нейросетевая генерация музыки сильно отстаёт от генерации текста и картинок, но это только потому, что самые светлые умы и самые тугие кошельки ещё не добрались до музыки.
Ключевые принципы моделирования данных те же, и очень скоро (полгода-год-полтора) мы заметим большой скачок и в этой сфере искусства.
И затем нам останется только удивляться, какой МОЖЕТ быть эта наша музыка…