Google DeepMind Lança Veo 2, Modelo de Geração de Vídeos para Rivalizar com OpenAI

Na última segunda-feira, a Google DeepMind anunciou o Veo 2, um modelo avançado de geração de vídeos que busca superar o Sora da OpenAI. Com capacidade de criar clipes de mais de dois minutos em até 4K de resolução (4096 x 2160 pixels), Veo 2 apresenta uma melhoria significativa em relação ao seu antecessor e ao Sora, que alcança no máximo 1080p e 20 segundos de duração. Contudo, no atual estágio experimental, vídeos criados com o Veo 2 estão limitados a 720p e 8 segundos.

Avanços no Veo 2

O modelo gera vídeos a partir de prompts de texto ou combinações de texto com imagens de referência. Entre as novidades, destacam-se:

  • Melhor compreensão de dinâmica de fluidos, iluminação e efeitos de lentes.
  • Texturas e imagens mais nítidas, mesmo em cenas movimentadas.
  • Controles aprimorados para movimentação e posicionamento da “câmera virtual”.

Embora os vídeos mostrem progresso em áreas como realismo e efeitos cinematográficos, desafios permanecem, como consistência em prompts complexos, detalhamento de movimento rápido e expressões humanas mais naturais.

Parcerias Criativas

A DeepMind trabalha com artistas como Donald Glover e The Weeknd para refinar a ferramenta, garantindo que ela atenda às necessidades criativas. Atualmente, o Veo 2 está disponível no VideoFX, ferramenta experimental com lista de espera, e será integrado à plataforma Vertex AI para desenvolvedores.

Treinamento e Controvérsias

O Veo 2 foi treinado com pares de vídeos e descrições, possivelmente usando conteúdo público, incluindo o YouTube. Contudo, a falta de mecanismos para criadores removerem seus trabalhos dos conjuntos de treinamento tem gerado críticas, especialmente de setores que temem impactos da IA no mercado audiovisual.

Para mitigar riscos, a Google introduziu filtros de segurança e o SynthID, tecnologia de marca d’água para evitar deepfakes. No entanto, a eficiência dessas medidas ainda é limitada.

Atualizações no Imagen 3

Além do Veo 2, a DeepMind revelou melhorias no Imagen 3, seu modelo de geração de imagens. A ferramenta agora oferece imagens mais detalhadas e segue prompts com maior fidelidade, abrangendo estilos como fotorealismo e impressionismo.

Fontes:Veo 2 – Google DeepMind

Compartilhar

Relacionadas