DESPERTANEWS

DeepMind Lança IA que Gera Trilhas Sonoras e Diálogos para Vídeos

A DeepMind, laboratório de pesquisa em inteligência artificial do Google, está desenvolvendo uma nova tecnologia de IA que promete revolucionar a criação de conteúdos audiovisuais. Em uma postagem recente em seu blog oficial, a DeepMind apresentou o V2A, uma tecnologia inovadora que gera trilhas sonoras e diálogos para vídeos de maneira automatizada.

V2A: A Nova Fronteira da IA em Media Gerada

A tecnologia V2A (abreviação de “video-to-audio”) é vista pela DeepMind como uma peça essencial no quebra-cabeça dos meios gerados por IA. Embora várias organizações, incluindo a própria DeepMind, já tenham desenvolvido modelos de IA para geração de vídeos, esses modelos até agora não conseguiam criar efeitos sonoros sincronizados com os vídeos produzidos.

“Os modelos de geração de vídeo estão avançando em um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa,” escreve a DeepMind. “A tecnologia V2A pode se tornar uma abordagem promissora para dar vida a filmes gerados.”

Como Funciona o V2A

A tecnologia V2A da DeepMind utiliza descrições de trilhas sonoras (por exemplo, “água-viva pulsando debaixo d’água, vida marinha, oceano”) juntamente com um vídeo para criar música, efeitos sonoros e até diálogos que correspondem aos personagens e ao tom do vídeo. O modelo de IA por trás do V2A, um modelo de difusão, foi treinado com uma combinação de sons, transcrições de diálogos e clipes de vídeo.

“Treinando com vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos com várias cenas visuais, enquanto responde às informações fornecidas nas anotações ou transcrições,” explica a DeepMind.

Uma característica notável do V2A é a capacidade de entender os pixels brutos de um vídeo e sincronizar automaticamente os sons gerados com o vídeo, mesmo sem uma descrição fornecida.

Desafios e Considerações Éticas

Apesar das promessas, a tecnologia V2A não é perfeita. A DeepMind reconhece que, como o modelo subjacente não foi treinado com muitos vídeos contendo artefatos ou distorções, ele não cria áudios de alta qualidade para esses tipos de vídeos. Em geral, o áudio gerado não é totalmente convincente; Natasha Lomas, uma colega jornalista, descreveu-o como “uma miscelânea de sons estereotipados.”

Além disso, há preocupações sobre o uso de dados de treinamento, especialmente no que se refere a direitos autorais e se os criadores dos dados foram informados sobre o trabalho da DeepMind. A empresa ainda não divulgou se algum dos dados de treinamento era protegido por direitos autorais e se os criadores desses dados estavam cientes do uso.

Futuro da Tecnologia V2A

Devido aos desafios mencionados e para evitar usos indevidos, a DeepMind afirma que não planeja liberar a tecnologia para o público em geral tão cedo, se é que o fará. “Para garantir que nossa tecnologia V2A possa ter um impacto positivo na comunidade criativa, estamos reunindo perspectivas diversas e insights de criadores e cineastas líderes, e usando esse feedback valioso para informar nossa pesquisa e desenvolvimento contínuos,” escreve a DeepMind. “Antes de considerarmos abrir o acesso a ela para o público mais amplo, nossa tecnologia V2A passará por rigorosas avaliações de segurança e testes.”

Conclusão

A introdução do V2A pela DeepMind representa um avanço significativo na interseção entre inteligência artificial e produção de mídia. Embora a tecnologia ainda enfrente desafios e questões éticas, seu potencial para transformar a criação de conteúdos audiovisuais é inegável. Resta ver como a DeepMind navegará esses obstáculos e se eventualmente tornará a tecnologia acessível a uma audiência mais ampla.

Fonte: TechCrunch.

Compartilhar

Relacionadas

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *