DESPERTANEWS

Gemini Live: Nova Funcionalidade da Google Supera Siri, mas Ainda Não é Perfeita

No recente evento “Made by Google”, a gigante de tecnologia apresentou o Gemini Live, uma ferramenta inovadora que promete transformar a forma como interagimos com a inteligência artificial. A novidade permite que os usuários mantenham conversas faladas, quase naturais, com um chatbot alimentado pelo mais recente modelo de linguagem da Google. Apesar de ainda não ser perfeito, o Gemini Live é um grande avanço em comparação com assistentes virtuais como Siri e Alexa, oferecendo uma experiência mais fluida e responsiva.

Como Funciona o Gemini Live

Antes de começar a usar o Gemini Live, os usuários podem escolher entre 10 vozes diferentes, todas criadas com a ajuda de atores profissionais. Essa variedade é um diferencial em relação à OpenAI, que atualmente oferece apenas três opções de voz em sua ferramenta de teste, o Advanced Voice Mode. A Google se destaca ao proporcionar uma experiência mais personalizada e humanizada para os usuários.

Durante a apresentação, um gerente de produto da Google demonstrou a capacidade do Gemini Live ao pedir verbalmente sugestões de vinícolas na região de Mountain View que fossem adequadas para famílias com crianças. O assistente não só encontrou uma vinícola que atendia aos critérios, como também sugeriu o Cooper-Garrod Vineyards, localizado em Saratoga.

Contudo, a ferramenta ainda apresenta falhas. Um exemplo disso é a recomendação de um playground chamado Henry Elementary School Playground, supostamente localizado a 10 minutos da vinícola mencionada. Na realidade, a escola mais próxima com esse nome está a mais de duas horas de distância, o que indica uma “alucinação” por parte do AI — um problema comum em sistemas de inteligência artificial que geram informações incorretas ou imprecisas.

Limitações e Futuro do Gemini Live

Embora a Google tenha destacado a capacidade do Gemini Live de se ajustar rapidamente a interrupções durante uma conversa, a funcionalidade ainda não é perfeita. Em alguns momentos, o assistente e o usuário acabaram falando ao mesmo tempo, e a inteligência artificial não conseguiu entender o que estava sendo dito, prejudicando a fluidez da interação.

Outro ponto importante é que o Gemini Live não permite imitar vozes fora das 10 opções disponíveis, uma decisão que parece estar ligada à preocupação da Google com questões de direitos autorais. Além disso, a empresa não está focando em desenvolver a compreensão da intonação emocional nas vozes dos usuários, uma funcionalidade que a OpenAI destacou em sua própria demonstração.

Mesmo com essas limitações, o Gemini Live representa um avanço significativo na forma como interagimos com assistentes de voz. A Google enxerga essa ferramenta como um passo importante rumo ao Project Astra, um modelo de IA totalmente multimodal que foi apresentado durante o Google I/O. Embora o Gemini Live atualmente só permita conversas por voz, a empresa planeja adicionar compreensão de vídeo em tempo real no futuro, ampliando ainda mais suas capacidades.

Essa evolução mostra o compromisso da Google em liderar a próxima geração de tecnologia de IA, mesmo que a jornada ainda esteja em seus primeiros passos.

Compartilhar

Relacionadas

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *