NVIDIA Apresenta os Avanços Mais Recentes em IA Visual

Nesta semana, os pesquisadores da NVIDIA estão apresentando novos modelos e técnicas de IA generativa visual na conferência de Visão Computacional e Reconhecimento de Padrões (CVPR) em Seattle. Os avanços abrangem áreas como geração de imagens personalizadas, edição de cenas 3D, compreensão de linguagem visual e percepção de veículos autônomos.

Principais Destaques da Pesquisa da NVIDIA

Modelos de Geração de Imagens Personalizadas e Edição de Cenas 3D

Um dos projetos de pesquisa em destaque é o JeDi, uma nova técnica que permite aos criadores personalizar rapidamente modelos de difusão – a abordagem líder para geração de imagens a partir de texto – para representar objetos ou personagens específicos usando apenas algumas imagens de referência, em vez do processo demorado de ajuste fino em conjuntos de dados personalizados.

Outro avanço significativo é o FoundationPose, um novo modelo de fundação que pode entender e rastrear instantaneamente a pose 3D de objetos em vídeos sem treinamento específico por objeto. Este modelo estabeleceu um novo recorde de desempenho e pode desbloquear novas aplicações em realidade aumentada e robótica.

Os pesquisadores da NVIDIA também introduziram o NeRFDeformer, um método para editar a cena 3D capturada por um Campo de Radiação Neural (NeRF) usando uma única imagem 2D, em vez de ter que reanimar manualmente as mudanças ou recriar o NeRF inteiramente. Isso pode simplificar a edição de cenas 3D para gráficos, robótica e aplicações de gêmeos digitais.

Compreensão de Linguagem Visual

No campo da linguagem visual, a NVIDIA colaborou com o MIT para desenvolver o VILA, uma nova família de modelos de visão-linguagem que atingem desempenho de ponta na compreensão de imagens, vídeos e textos. Com capacidades de raciocínio aprimoradas, o VILA pode até compreender memes da internet combinando entendimento visual e linguístico.

Percepção de Veículos Autônomos

A pesquisa em IA visual da NVIDIA abrange inúmeras indústrias, incluindo mais de uma dúzia de artigos explorando novas abordagens para percepção, mapeamento e planejamento de veículos autônomos. Sanja Fidler, vice-presidente da equipe de Pesquisa em IA da NVIDIA, está apresentando sobre o potencial dos modelos de linguagem visual para carros autônomos.

A NVIDIA venceu a categoria de Condução Autônoma de Escala do Desafio Autônomo do CVPR, superando mais de 450 inscrições globalmente. Este marco demonstra o trabalho pioneiro da NVIDIA no uso de IA generativa para modelos abrangentes de veículos autônomos, também ganhando um Prêmio de Inovação do CVPR.

Impacto dos Avanços em IA Visual

Jan Kautz, vice-presidente de pesquisa em aprendizado e percepção da NVIDIA, destacou a importância dos avanços em IA generativa na conferência: “A inteligência artificial, e a IA generativa em particular, representa um avanço tecnológico fundamental. No CVPR, a NVIDIA Research está compartilhando como estamos empurrando os limites do que é possível — desde poderosos modelos de geração de imagens que podem potencializar criadores profissionais até software de direção autônoma que pode ajudar a habilitar carros autônomos de próxima geração.”

A amplitude da pesquisa da NVIDIA no CVPR exemplifica como a IA generativa pode empoderar criadores, acelerar a automação na manufatura e saúde, ao mesmo tempo que impulsiona a autonomia e a robótica.

Conclusão

Os avanços apresentados pela NVIDIA na CVPR destacam a rápida evolução e o vasto potencial da IA visual em diversas aplicações industriais. Desde a personalização rápida de modelos de difusão até novas técnicas de edição de cenas 3D e compreensão avançada de linguagem visual, a NVIDIA está na vanguarda da inovação em IA generativa, moldando o futuro da criação de conteúdo e automação.

Fonte: Artificial Intelligence News.

Compartilhar

Relacionadas