В последнее время мы наблюдаем огромный интерес к нейросетям. Они пишут тексты, генерируют изображения, отвечают на вопросы. Недавно инженеры Google разработали искусственный интеллект по имени Music LM. Он создаёт музыкальные произведения, базируясь на текстовых запросах, — в точности как уже известный по всему миру DALL-E делает из текста качественные графические изображения.
На данный момент нейросеть не доступна всем желающим, компания сохраняет её для внутреннего пользования. Однако вы можете услышать несколько результатов её работы на сайте – это по большей части короткие треки длиной по тридцать секунд. Там же разработчики приводят примеры текстов, которые они задали машине.
Смесь реггетона и электронной танцевальной музыки с космическим, потусторонним звучанием. Она должна вызывать ощущение, что человек потерялся в космосе, а также чувство удивления и восторга и оставаться при этом танцевальной.
Или так:
Это музыкальное произведение в стиле R&B / хип-хоп. Есть мужской вокальный рэп и женский вокал, напоминающий рэп. Бит состоит из фортепиано, играющего аккорды мелодии с электронной барабанной поддержкой. Атмосфера произведения — игривая и энергичная. Этот трек можно использовать в качестве саундтрека к школьному драматическому фильму или телешоу. Его также можно играть на днях рождения или на пляжных вечеринках.
Кроме того, можно послушать музыку для побега из тюрьмы или услышать разницу в игре начинающего и опытного пианистов. В целом разработчики опубликовали набор данных, состоящий из 5,5 тысяч пар «музыка-текст» с расширенными текстовыми описаниями, предоставленными экспертами. Не все эти описания распространяются на целый абзац – нейросеть способна сочинить пятиминутный трек по запросу «мелодичное техно», а также короткие произведения по описаниям «музыка для медитации, которую играют у реки», «огонь» или «фейерверк».
О разных методах генерирования звука читайте в нашей статье «Музыкальная паутина»
Как работает этот сервис? MusicLM представляет создание музыки как иерархическую задачу при моделировании многословных последовательностей и генерирует музыку на частоте 24 кГц. По заявлениям разработчиков, MusicLM превосходит предыдущие системы как по качеству звука, так и по соответствию текстовому описанию. Более того, нейросеть может преобразовать человеческий свист или напеваемую мелодию в сложную инструментальную композицию