A Google DeepMind lançou o Magenta RealTime (Magenta RT), um modelo de código aberto para geração de música em tempo real com controle dinâmico por texto ou áudio. A novidade marca um avanço importante na interatividade musical com inteligência artificial, permitindo performances ao vivo e criação musical instantânea, mesmo em ambientes com recursos limitados.
A ferramenta foi desenvolvida com base em tecnologias anteriores como MusicFX DJ Mode e MusicLM, mas se diferencia por oferecer geração contínua de áudio em tempo real, com baixa latência e resposta imediata a comandos do usuário. O código está disponível no GitHub e os pesos do modelo no Hugging Face, ambos sob licenças permissivas (Apache 2.0 e Creative Commons 4.0).
Figuras e tecnologias citadas
Nome | Cargo/Função | Cidade/Instituição | Programas/Projetos envolvidos |
---|---|---|---|
Lyria Team (Google) | Equipe de pesquisa da Google DeepMind | Estados Unidos | MusicFX DJ Mode, Lyria RealTime, Magenta RT |
Chris Donahue | Pesquisador (contribuidor GitHub) | Magenta RT | |
Adam Roberts | Pesquisador (contribuidor GitHub) | Magenta RT | |
Kehang Han | Pesquisador (contribuidor GitHub) | Magenta RT |
Geração musical em tempo real com múltiplos estímulos
Magenta RT funciona por meio da combinação de três componentes principais:
- SpectroStream: codec neural de áudio que converte áudio estéreo em tokens discretos, baseado no SoundStream.
- MusicCoCa: modelo que mapeia estilos musicais de texto e áudio em um espaço comum de embeddings, permitindo fusão de estilos.
- Transformer LLM: modelo de linguagem que gera música token a token, condicionado por contexto e estilo.
A entrada pode ser texto (como “heavy metal”) ou um trecho de áudio, e o modelo responde com novos trechos musicais a cada 2 segundos, sempre considerando até 10 segundos de música anterior. Isso permite uma performance contínua com mudanças estilísticas em tempo real.
Casos de uso e impacto esperado
Entre as aplicações previstas para o Magenta RT, destacam-se:
- Performances ao vivo e improvisações com IA
- Terapia musical e acessibilidade para músicos com deficiência
- Geração adaptativa de trilhas sonoras em jogos
- Ensino musical com experimentação de gêneros e instrumentos
- Instalações interativas baseadas em áudio gerado por IA
“É a primeira vez que um modelo de áudio musical com geração contínua e controle dinâmico é lançado com pesos abertos e pronto para uso em tempo real”, destaca a equipe da Google.
Limitações conhecidas
Apesar de inovador, o Magenta RT apresenta algumas limitações:
- Vocalizações são não-lexicais (como humming ou efeitos sonoros), sem geração de palavras.
- Latência mínima de 2 segundos para alterar o estilo após novos comandos.
- Cobertura musical limitada principalmente à música instrumental ocidental.
- Janela de contexto restrita a 10 segundos, o que impede construções musicais mais longas ou estruturas de canção completas.
Como testar
É possível testar o Magenta RT diretamente via Colab demo, que funciona inclusive em TPUs gratuitas da plataforma. Também há suporte para instalação local via pip, com variantes para CPU, GPU e TPU.
Um marco para a música com IA
O Magenta RealTime representa um divisor de águas na geração musical com IA ao proporcionar liberdade criativa e imediatismo. Ao ser lançado com código e pesos abertos, o modelo não só impulsiona a pesquisa como também democratiza o acesso à criação musical algorítmica — colocando o controle nas mãos de músicos, desenvolvedores, terapeutas e educadores ao redor do mundo.
Fontes
https://g.co/magenta/rt
https://huggingface.co/google/magenta-realtime
https://github.com/magenta/magenta-realtime
https://www.marktechpost.com/2025/06/22/google-researchers-release-magenta-realtime-an-open-weight-model-for-real-time-ai-music-generation/