A OpenAI disponibilizou oficialmente o modelo GPT-image-1 na sua API, o mesmo responsável pela geração de imagens no ChatGPT. Com isso, empresas e desenvolvedores agora podem incorporar funções como criação, edição, remoção de elementos e composição visual diretamente em suas aplicações. O modelo se destaca pela precisão na execução de comandos textuais e pela capacidade de produzir resultados visuais de qualidade profissional com poucos ajustes técnicos.
Recursos disponíveis com o GPT-image-1
Com o modelo integrado à API, é possível:
- Gerar imagens a partir de descrições textuais simples
- Editar partes específicas de uma imagem com máscaras personalizadas (inpainting)
- Remover objetos e adicionar novos elementos por meio de prompts
- Combinar múltiplas imagens em uma única composição
- Recriar textos visuais mantendo fonte e estilo originais
Além da geração criativa, o GPT-image-1 permite controle detalhado sobre qualidade e fidelidade visual, incluindo texturas, iluminação e ambientação.
Custos por imagem e controle de qualidade
O uso do GPT-image-1 é cobrado com base em tokens processados:
- Texto de entrada (prompts): US$ 5 por milhão de tokens
- Imagem de entrada: US$ 10 por milhão de tokens
- Imagem de saída (gerada): US$ 40 por milhão de tokens
A depender da resolução e qualidade, o custo médio por imagem varia entre:
- Baixa qualidade: ~US$ 0,02
- Média qualidade: ~US$ 0,07
- Alta qualidade: ~US$ 0,19
Os usuários podem ajustar a qualidade das imagens diretamente via parâmetro, controlando o custo de cada geração conforme suas necessidades.
Acesso, segurança e limitações
Para utilizar o modelo na API, é exigida verificação de identidade com documento oficial, o que pode ser feito em cerca de 30 minutos. A exigência visa garantir o uso responsável e seguro da tecnologia.
O GPT-image-1 conta com filtros automáticos de segurança que bloqueiam a criação de imagens sensíveis ou inadequadas. Mesmo com o parâmetro de moderação ajustado para o modo menos restritivo, algumas solicitações podem ser recusadas.
Impressões e desempenho
Usuários que testaram o modelo relataram resultados impressionantes em edições complexas com mínimo esforço técnico, como:
- Substituição de elementos em imagens reais
- Adição de tatuagens ou remoção de objetos com naturalidade
- Criação de imagens compostas com múltiplas referências e contextos
- Geração de imagens fotorealistas com base em descrições sutis
A capacidade do modelo de entender contexto, manter coerência visual e replicar estilos gráficos é vista como superior a alternativas como Midjourney, especialmente em integração com código e automações.