OpenAI lança geração de imagens no GPT-4o com foco em realismo, precisão e utilidade

A OpenAI anunciou nesta terça-feira (25) a integração de seu mais avançado gerador de imagens ao modelo GPT-4o, permitindo a criação de imagens fotorrealistas, precisas e altamente personalizáveis diretamente em conversas no ChatGPT. Segundo a empresa, o novo recurso amplia as possibilidades de comunicação visual e transforma a geração de imagens em uma ferramenta prática, útil e acessível para usuários e desenvolvedores.

Imagens que vão além da estética

Desde ilustrações técnicas até cenas surreais e poéticas, o novo gerador de imagens do GPT-4o foi projetado para lidar com uma ampla variedade de estilos e objetivos. Ele é capaz de renderizar textos com precisão, interpretar e transformar imagens enviadas pelos usuários e manter consistência visual ao longo de múltiplas interações.

A OpenAI destaca que a nova ferramenta se destaca especialmente em cenários práticos: menus com ilustrações personalizadas, convites de casamento estilizados, diagramas científicos e campanhas publicitárias, como uma avó esculpindo um peru de Ação de Graças com uma motosserra azul brilhante.

Funcionalidades e fluência visual

Treinado com uma vasta base de dados de imagens e textos, o GPT-4o alcança o que a empresa chama de “fluência visual”, possibilitando que o modelo compreenda relações entre diferentes elementos gráficos e textuais. Isso se reflete, por exemplo, na criação de quadrinhos, infográficos, rótulos, poemas concretos e até imagens de jogos com interfaces completas e coerentes.

Outro destaque é a capacidade de interpretar comandos com múltiplos objetos e detalhes. O GPT-4o consegue renderizar até 20 elementos distintos em uma única imagem, mantendo seus atributos e relações corretamente.

Segurança e transparência

Para garantir a segurança e autenticidade das imagens geradas, todas vêm acompanhadas de metadados C2PA, que identificam sua origem no GPT-4o. A empresa também utiliza uma ferramenta interna que permite rastrear tecnicamente se um conteúdo foi criado por seu modelo. Restrições rigorosas bloqueiam pedidos que envolvam violência gráfica, nudez ou pessoas reais em contextos sensíveis.

Além disso, a OpenAI afirma usar um modelo de linguagem especializado em raciocínio e interpretação de diretrizes de segurança, permitindo detectar ambiguidades em políticas e moderar conteúdos gerados com mais precisão.

Disponibilidade e acesso

A geração de imagens no GPT-4o começa a ser disponibilizada hoje para usuários dos planos Plus, Pro, Team e gratuito no ChatGPT, com chegada em breve às versões Enterprise e Edu. Também estará disponível na plataforma Sora e, futuramente, via API para desenvolvedores.

Criar imagens é simples: basta conversar com o modelo e descrever o que deseja, incluindo especificações como proporções, cores exatas ou fundo transparente. Em média, cada imagem leva cerca de um minuto para ser gerada, devido ao alto nível de detalhamento.

Fonte: OpenAI – Introducing 4o Image Generation

Compartilhar

Relacionadas