Google lança Magenta RealTime: modelo aberto para geração musical com controle em tempo real

A Google DeepMind lançou o Magenta RealTime (Magenta RT), um modelo de código aberto para geração de música em tempo real com controle dinâmico por texto ou áudio. A novidade marca um avanço importante na interatividade musical com inteligência artificial, permitindo performances ao vivo e criação musical instantânea, mesmo em ambientes com recursos limitados.

A ferramenta foi desenvolvida com base em tecnologias anteriores como MusicFX DJ Mode e MusicLM, mas se diferencia por oferecer geração contínua de áudio em tempo real, com baixa latência e resposta imediata a comandos do usuário. O código está disponível no GitHub e os pesos do modelo no Hugging Face, ambos sob licenças permissivas (Apache 2.0 e Creative Commons 4.0).

Figuras e tecnologias citadas

NomeCargo/FunçãoCidade/InstituiçãoProgramas/Projetos envolvidos
Lyria Team (Google)Equipe de pesquisa da Google DeepMindEstados UnidosMusicFX DJ Mode, Lyria RealTime, Magenta RT
Chris DonahuePesquisador (contribuidor GitHub)GoogleMagenta RT
Adam RobertsPesquisador (contribuidor GitHub)GoogleMagenta RT
Kehang HanPesquisador (contribuidor GitHub)GoogleMagenta RT

Geração musical em tempo real com múltiplos estímulos

Magenta RT funciona por meio da combinação de três componentes principais:

  • SpectroStream: codec neural de áudio que converte áudio estéreo em tokens discretos, baseado no SoundStream.
  • MusicCoCa: modelo que mapeia estilos musicais de texto e áudio em um espaço comum de embeddings, permitindo fusão de estilos.
  • Transformer LLM: modelo de linguagem que gera música token a token, condicionado por contexto e estilo.

A entrada pode ser texto (como “heavy metal”) ou um trecho de áudio, e o modelo responde com novos trechos musicais a cada 2 segundos, sempre considerando até 10 segundos de música anterior. Isso permite uma performance contínua com mudanças estilísticas em tempo real.

Casos de uso e impacto esperado

Entre as aplicações previstas para o Magenta RT, destacam-se:

  • Performances ao vivo e improvisações com IA
  • Terapia musical e acessibilidade para músicos com deficiência
  • Geração adaptativa de trilhas sonoras em jogos
  • Ensino musical com experimentação de gêneros e instrumentos
  • Instalações interativas baseadas em áudio gerado por IA

“É a primeira vez que um modelo de áudio musical com geração contínua e controle dinâmico é lançado com pesos abertos e pronto para uso em tempo real”, destaca a equipe da Google.

Limitações conhecidas

Apesar de inovador, o Magenta RT apresenta algumas limitações:

  • Vocalizações são não-lexicais (como humming ou efeitos sonoros), sem geração de palavras.
  • Latência mínima de 2 segundos para alterar o estilo após novos comandos.
  • Cobertura musical limitada principalmente à música instrumental ocidental.
  • Janela de contexto restrita a 10 segundos, o que impede construções musicais mais longas ou estruturas de canção completas.

Como testar

É possível testar o Magenta RT diretamente via Colab demo, que funciona inclusive em TPUs gratuitas da plataforma. Também há suporte para instalação local via pip, com variantes para CPU, GPU e TPU.

Um marco para a música com IA

O Magenta RealTime representa um divisor de águas na geração musical com IA ao proporcionar liberdade criativa e imediatismo. Ao ser lançado com código e pesos abertos, o modelo não só impulsiona a pesquisa como também democratiza o acesso à criação musical algorítmica — colocando o controle nas mãos de músicos, desenvolvedores, terapeutas e educadores ao redor do mundo.


Fontes

https://g.co/magenta/rt
https://huggingface.co/google/magenta-realtime
https://github.com/magenta/magenta-realtime
https://www.marktechpost.com/2025/06/22/google-researchers-release-magenta-realtime-an-open-weight-model-for-real-time-ai-music-generation/

Compartilhar

Relacionadas