O lançamento do GPT-5.4 marca um momento decisivo na evolução da inteligência artificial. Após mais de uma semana de testes intensivos, posso afirmar com segurança: este é o modelo de IA mais capaz já criado, especialmente para desenvolvedores e profissionais que trabalham com código e tarefas complexas.
A OpenAI conseguiu algo notável com esta versão. Enquanto muitos lançamentos anteriores prometiam melhorias incrementais, o GPT-5.4 representa um salto genuíno em capacidades práticas. Não se trata apenas de números melhores em benchmarks – embora eles também sejam impressionantes – mas sim de uma experiência de uso transformada que impacta diretamente a produtividade e a qualidade do trabalho realizado.
Neste artigo completo, vou compartilhar tudo o que você precisa saber sobre o GPT-5.4: suas capacidades reais, limitações, como ele se compara aos modelos anteriores, questões de precificação, e principalmente, como aproveitá-lo ao máximo em seus projetos.
O Que Aconteceu Com o Codex? Entendendo a Nova Estrutura de Modelos
Uma das mudanças mais significativas e confusas desta atualização é a reestruturação completa da linha de modelos da OpenAI. A cronologia recente ficou assim: primeiro veio o GPT-5.3 Codex, depois o GPT-5.3 Instant apenas alguns dias atrás, e agora temos o GPT-5.4 Thinking. Curiosamente, não existe um GPT-5.4 Instant nem um GPT-5.4 Codex – mas existe um GPT-5.4 Pro.
Esta mudança provavelmente sinaliza o fim da linha Codex como modelos separados. Historicamente, os modelos Codex existiam porque a OpenAI aplicava técnicas diferentes de aprendizado por reforço após o treinamento inicial, otimizando especificamente para tarefas longas de código em ferramentas como a CLI do Codex. Fazia todo sentido na época.
Agora, no entanto, a OpenAI integrou essas capacidades diretamente no modelo base do GPT-5.4. Isso significa que você não precisa mais escolher entre um modelo generalista e um especializado em código – o GPT-5.4 faz ambos excepcionalmente bem. A nomenclatura Codex deve persistir apenas como referência às superfícies de produtos: as CLIs, o aplicativo desktop, o web app e outras ferramentas.
Por Que Esta Consolidação É Importante
A consolidação dos modelos traz benefícios práticos significativos. Primeiro, simplifica a escolha – você não precisa mais se perguntar qual variante usar para cada tarefa. Segundo, demonstra que a OpenAI atingiu um nível de sofisticação onde um único modelo pode genuinamente se destacar em múltiplos domínios sem sacrificar especialização.
Para desenvolvedores, isso significa que o mesmo modelo que escreve código excepcional também pode ajudar com documentação, análise de requisitos, revisão de código e até mesmo tarefas não relacionadas a programação com igual competência.
Melhorias em Raciocínio e Eficiência de Tokens
Uma das áreas mais impressionantes de melhoria do GPT-5.4 é sua eficiência no uso de tokens durante o raciocínio. Nos testes realizados com o benchmark Skate, as melhorias foram substanciais e mensuráveis:
- Versão Medium: Utilizou apenas cerca de 500 tokens por resposta
- Versão High: Aproximadamente 1.100 tokens
- Versão Extra High: Cerca de 5.400 tokens
Comparado com modelos anteriores como o Claude 4 (2.200 tokens) ou o GLM5 (números similares), o GPT-5.4 demonstra uma capacidade notável de equilibrar profundidade de raciocínio com eficiência de recursos.
O que é particularmente interessante é que a versão Extra High frequentemente teve desempenho pior que a versão High padrão em vários benchmarks. Isso sugere que existe um ponto de retorno decrescente onde pensar demais pode prejudicar a performance – um fenômeno que observei repetidamente em uso prático. O modelo parece ficar “preso na própria cabeça”, overthinking problemas que seriam melhor resolvidos com abordagens mais diretas.
Contexto Expandido e Gestão Inteligente
O GPT-5.4 agora suporta até um milhão de tokens de contexto, um aumento massivo em relação às versões anteriores. No entanto, existe uma estrutura de preços escalonada: até 272.000 tokens de entrada, você paga a taxa padrão. Acima disso, os custos são multiplicados por 2x para entrada e 1.5x para saída.
Embora esses multiplicadores ainda sejam altos, é positivo que a OpenAI esteja cobrando apenas 1.5x pela saída, reconhecendo que gerar tokens adicionais não necessariamente custa proporcionalmente mais. Os tokens em cache permanecem muito baratos, e diferentemente de alguns concorrentes (olhando para você, Anthropic), a OpenAI não cobra pelo próprio cache.
Desempenho em Benchmarks: Os Números Reais
Vamos falar sobre números concretos. No GPD Val, um benchmark clássico (embora não meu favorito), o GPT-5.4 superou versões anteriores. Curiosamente, o GPT-5.3 Codex e o GPT-5.2 pontuaram quase identicamente neste teste, revelando que o 5.3 Codex foi realmente otimizado de forma muito específica para código, às vezes em detrimento de outras capacidades.
No SWBench Pro, um benchmark mais relevante para desenvolvimento de software, os resultados foram:
- Melhor pontuação anterior: 45.89%
- GPT-5.4: 57.7%
Este é um salto significativo que coloca o modelo em estado-da-arte. Segundo o Artificial Analysis, o GPT-5.4 Extra High está empatado com o Claude 3.1 Pro Preview, tecnicamente tornando-o equivalente ao “modelo mais inteligente do mundo”. A diferença crucial? O GPT-5.4 realmente funciona de forma confiável em produção.
Resultados do Skate Bench V2
Para meus próprios testes, atualizei completamente o Skate Bench, dobrando o número de testes e mantendo-o privado desta vez (depois de descobrir que alguns laboratórios podem ter incluído a versão pública em seus dados de treinamento). Os resultados foram reveladores:
- Gemini 3.1 Pro Preview: 97% (liderança absoluta)
- GPT-5.4 High: 82%
- GPT-5.4 Extra High: 81%
- GPT-5.4 Pro Thinking: 79%
O padrão de desempenho decrescente conforme você sobe nas variantes “mais inteligentes” é fascinante e confirma a observação anterior sobre overthinking. Mais capacidade de raciocínio nem sempre significa melhores resultados práticos.
A Questão da Precificação: Vale o Investimento?
A precificação do GPT-5.4 aumentou em relação aos modelos anteriores, e é importante entender esses custos:
GPT-5.4 Standard:
- Entrada: $2.50 por milhão de tokens
- Saída: $15 por milhão de tokens
GPT-5.3 (para comparação):
- Entrada: $1.75 por milhão de tokens
- Saída: $14 por milhão de tokens
GPT-5.0/5.1 (referência histórica):
- Entrada: $1.25 por milhão de tokens
- Saída: $10 por milhão de tokens
O aumento sugere que o modelo base pode ter mudado significativamente, pois custos de API representam uma porção pequena da receita da OpenAI – não faria sentido aumentar preços apenas por ganância. É mais provável que isso reflita custos operacionais reais mais altos.
GPT-5.4 Pro: Precificação Premium para Casos de Uso Específicos
O GPT-5.4 Pro apresenta uma precificação que pode ser chocante à primeira vista:
- Entrada: $30 por milhão de tokens
- Saída: $180 por milhão de tokens
Esse é um modelo caro. O que torna isso ainda mais intrigante é que, nos meus benchmarks, ele frequentemente teve desempenho inferior às versões mais baratas. Nos testes do Skate Bench, o GPT-5.4 Extra High teve o maior custo de execução até o momento, enquanto o GPT-5.4 High custou apenas $7 comparado aos $81.2 do Gemini 3.1 Pro Preview.
A análise de custo-benefício da Artificial Analysis mostra que executar toda a suite de testes custou $295.1 com o GPT-5.4, comparado a $234 com o GPT-5.2. Ainda assim, é quase metade do custo do Claude Opus 4.6 e mais barato que o Claude Sonnet 4.6.
Capacidades Melhoradas para Uso de Navegador e Computador
Uma área de melhoria dramática é o que a OpenAI chama de “browse comp score” – a capacidade do modelo de navegar e interagir com navegadores e interfaces de computador. O GPT-5.4 demonstra melhorias substanciais sobre o GPT-5.2 nesta área.
O que é particularmente inovador é a abordagem da OpenAI para “computer use”. Em vez de fazer o modelo especificar coordenadas de pixels e movimentos de cursor (como outros modelos fazem, com resultados medíocres), o GPT-5.4 foi explicitamente treinado para usar um harness de execução de código que pode executar JavaScript diretamente em páginas para acionar interações.
Por Que Isso É Revolucionário
Esta abordagem programática para interação com UI é significativamente mais eficiente e confiável do que controle direto de cursor. Considere a diferença:
Abordagem tradicional: “Mova o cursor para coordenadas (450, 320), clique, aguarde 500ms, mova para (600, 450), digite ‘texto’, pressione Enter…”
Abordagem do GPT-5.4: “Execute este JavaScript: document.querySelector(‘#submit-button’).click()”
A segunda abordagem é não apenas mais rápida, mas também mais robusta a variações de layout, resolução de tela e outros fatores que tornam o controle baseado em coordenadas frágil.
Em testes práticos, consegui instruir o GPT-5.4 a adicionar funcionalidade de drag-and-drop para reordenar projetos em uma aplicação web, e ele completou a tarefa usando um navegador em nuvem, gravando vídeo do processo e verificando o resultado.
Melhorias em Visão e Processamento Multimodal
O processamento de visão no GPT-5.4 recebeu melhorias substanciais. Historicamente, o Gemini manteve uma vantagem nesta área – se você fornecesse uma imagem ou vídeo, ele simplesmente entendia e retornava informações úteis. O GPT-5.4 fecha significativamente essa lacuna.
A precisão melhorou drasticamente, e o número de chamadas de ferramentas necessárias para completar tarefas relacionadas à visão diminuiu significativamente. Para casos de uso envolvendo navegação de interfaces complexas, análise de capturas de tela ou extração de informações de documentos visuais, o GPT-5.4 representa uma melhoria considerável.
Vários usuários já demonstraram aplicações impressionantes, desde a criação de jogos completos estilo Roller Coaster Tycoon até RPGs complexos, tudo gerado a partir de descrições e feedback visual iterativo.
Desafios e Limitações Reais
Apesar de todo o entusiasmo justificado, o GPT-5.4 não é perfeito. É importante discutir honestamente suas limitações para que você possa tomar decisões informadas sobre quando usá-lo.
O Problema do Overthinking
Como mencionado anteriormente, as variantes “mais inteligentes” (Extra High e Pro) frequentemente têm desempenho pior que a versão High padrão. Elas parecem overthink problemas, ficando presas em loops de raciocínio que não levam a soluções melhores.
Em um teste particularmente revelador, pedi ao modelo para criar código que pudesse vencer o Stockfish nível 17 (um motor de xadrez de código aberto). Tanto o GPT-5.3 quanto o GPT-5.4 cometeram o mesmo erro fundamental: em vez de escrever código para jogar xadrez melhor que o Stockfish, eles construíram código para executar o Stockfish, completamente interpretando mal o objetivo.
Modelos como o Claude Opus não conseguiram resolver o problema, mas pelo menos entenderam corretamente o que estava sendo pedido. Este tipo de falha de compreensão em tarefas aparentemente claras é preocupante e sugere limites nos avanços de raciocínio.
Dados de Treinamento Não Atualizados
O GPT-5.4 tem um cutoff de conhecimento de 31 de agosto de 2025 – exatamente o mesmo que o GPT-5.2. Isso significa que nenhum dado novo foi adicionado ao treinamento. Pode ser que o GPT-5.4 seja simplesmente aprendizado por reforço adicional aplicado à mesma base de pré-treinamento do GPT-5.2.
Para aplicações que dependem de conhecimento atual sobre frameworks, bibliotecas ou melhores práticas que evoluíram recentemente, isso pode ser uma limitação significativa.
Inconsistências em Front-End
Embora o GPT-5.4 seja excelente para muitas tarefas de código, ele ainda luta com certos aspectos de desenvolvimento front-end. Configurar corretamente o Tailwind v4, por exemplo, é algo que quase nenhum modelo faz bem, incluindo o GPT-5.4.
Em testes migrando uma grande base de código React de 2020 para versões modernas, o modelo teve sucesso eventualmente, mas apenas após múltiplas iterações e orientação específica. A primeira tentativa falhou porque o Tailwind v4 não foi configurado corretamente.
Comparação Com Concorrentes: Como o GPT-5.4 Se Posiciona
O cenário competitivo de modelos de IA está mais acirrado do que nunca. Vamos ver como o GPT-5.4 se compara aos principais concorrentes:
Versus Gemini 3.1 Pro Preview
Nos testes do Skate Bench, o Gemini 3.1 Pro Preview mantém uma liderança impressionante com 97% de precisão, comparado aos 82% do GPT-5.4 High. No entanto, em uso prático, a confiabilidade e consistência do GPT-5.4 frequentemente compensam essa diferença em precisão pura.
Versus Claude 4.6 (Opus e Sonnet)
Os modelos Claude são conhecidos por raciocínio extenso, mas isso tem um custo – literal. O número de tokens gerados pelos modelos Claude é substancialmente maior que o GPT-5.4, mesmo na versão Extra High. Isso torna o Claude significativamente mais caro para muitos casos de uso, sem necessariamente produzir resultados melhores.
Versus GPT-5.3 Codex
Esta é uma comparação particularmente interessante porque muitos desenvolvedores amaram o GPT-5.3 Codex. O GPT-5.4 essencialmente incorpora as capacidades especializadas do Codex no modelo base, adicionando melhorias significativas em áreas onde o Codex era fraco (como tarefas gerais de conhecimento).
Para a maioria dos desenvolvedores, o GPT-5.4 High deve ser superior ao GPT-5.3 Codex em praticamente todos os cenários, com a possível exceção de algumas tarefas de código muito específicas onde o Codex foi super-otimizado.
Melhores Práticas Para Usar o GPT-5.4
Depois de extenso uso prático, aqui estão minhas recomendações para aproveitar ao máximo o GPT-5.4:
Escolha a Variante Certa
Para a maioria dos casos de uso, recomendo o GPT-5.4 High. Ele oferece o melhor equilíbrio entre capacidade, velocidade e custo. A versão Extra High e Pro devem ser reservadas para casos onde você realmente precisa daquele raciocínio extra e está disposto a pagar mais por resultados potencialmente piores devido ao overthinking.
Aproveite a Gestão Melhorada de Contexto
Uma das melhorias mais subestimadas do GPT-5.4 é sua capacidade de lidar com interrupções e redirecionamento durante o raciocínio. Modelos anteriores ficavam confusos se você adicionasse uma sexta tarefa enquanto eles estavam trabalhando nas cinco primeiras – frequentemente esquecendo as originais.
O GPT-5.4 lida com isso graciosamente. Sinta-se livre para direcionar e ajustar conforme o modelo trabalha, sem medo de descarrilar completamente seu progresso.
Seja Específico Sobre Tecnologias
Devido ao cutoff de conhecimento não atualizado, seja específico sobre quais versões de frameworks e bibliotecas você está usando. Em vez de “configure o Tailwind”, diga “configure o Tailwind v3.4” se você quer evitar que ele tente usar a v4 (que ele provavelmente configurará incorretamente).
Use Verificação Iterativa
Para tarefas complexas, não confie apenas na primeira saída. O GPT-5.4 é excelente em verificar seu próprio trabalho quando solicitado. Após completar uma tarefa, peça explicitamente para verificar aspectos específicos ou executar testes. Isso frequentemente identifica problemas que seriam descobertos apenas em produção.
Aplicações Práticas em Desenvolvimento
Vamos explorar alguns casos de uso específicos onde o GPT-5.4 realmente brilha:
Migrações de Código Legado
Atualizar bases de código antigas é notoriamente tedioso. O GPT-5.4 demonstrou capacidade excepcional para planejar e executar migrações complexas. Em testes migrando projetos React de práticas de 2020 para padrões modernos, o modelo foi capaz de:
- Identificar todas as dependências desatualizadas
- Criar um plano de migração abrangente
- Atualizar padrões de componentes
- Ajustar configurações de build
- Resolver problemas de compatibilidade
Revisão de Código Inteligente
Ferramentas como Devon Review (do Cognition Labs) estão aproveitando modelos como o GPT-5.4 para revolucionar a revisão de código. Em vez de simplesmente listar mudanças alfabeticamente, eles agrupam mudanças por contexto lógico, tornando muito mais fácil entender o impacto de um PR.
Isso é especialmente valioso à medida que o tamanho médio dos PRs aumenta – algo que tenho observado acontecer consistentemente à medida que mais código é gerado por IA.
Prototipagem Rápida
Para criar protótipos funcionais rapidamente, o GPT-5.4 é excepcional. Você pode descrever uma ideia de aplicação e ele construirá uma versão funcional, completa com UI razoável, lógica de backend e até mesmo tratamento básico de erros.
Embora você provavelmente vá refatorar e melhorar o código posteriormente, ter um protótipo funcional em minutos em vez de horas é transformador para experimentação e validação de conceitos.
Transparência e Considerações Éticas
É importante abordar transparência ao discutir ferramentas de IA, especialmente quando você tem acesso antecipado a modelos. Alguns pontos sobre minha experiência com o GPT-5.4:
A OpenAI não pagou por esta cobertura. Tenho a sorte de estar em um pequeno grupo com acesso antecipado a estes modelos, mas isso não é algo pelo qual sou pago. Eles ofereceram um ano gratuito de assinatura Pro (aproximadamente $2.400 de valor), mas recusei para evitar qualquer aparência de viés ou conflito de interesse.
O único subsídio foi aproximadamente $200 em uso de API do novo modelo, que compensei doando $200 para a water.org. Manter independência editorial é crucial para fornecer avaliações honestas e úteis.
O Futuro dos Modelos de IA Para Desenvolvimento
O lançamento do GPT-5.4 sugere várias tendências importantes no desenvolvimento de modelos de IA:
Consolidação de Modelos Especializados
O fim provável da linha Codex como modelos separados indica que estamos caminhando para modelos verdadeiramente generalistas que mantêm especialização profunda em domínios específicos. Isso é melhor para usuários – menos escolhas confusas e melhor performance geral.
Foco em Eficiência
As melhorias dramáticas em eficiência de tokens mostram que os laboratórios estão focando não apenas em fazer modelos mais inteligentes, mas em fazê-los operar de forma mais eficiente. Isso é crucial para viabilidade econômica em escala.
Capacidades Agenticas
O foco renovado em permitir que modelos executem tarefas de forma mais autônoma – como uso de navegador, interação com UI e execução de código – sinaliza um futuro onde IA age mais como um colega de equipe do que uma ferramenta passiva.
Conclusão: GPT-5.4 É o Novo Padrão?
Após extenso teste e uso prático, acredito que o GPT-5.4 High representa o novo padrão-ouro para a maioria das tarefas de desenvolvimento. Ele oferece o melhor equilíbrio entre capacidade, velocidade, custo e confiabilidade de qualquer modelo atualmente disponível.
Isso não significa que é perfeito ou ideal para todos os casos de uso. O Gemini 3.1 Pro Preview ainda lidera em certos benchmarks, e para tarefas específicas, outros modelos podem ser mais apropriados. Mas para o desenvolvedor típico trabalhando em aplicações práticas do mundo real, o GPT-5.4 High provavelmente será a melhor escolha na maioria das situações.
As melhorias em eficiência de raciocínio, gestão de contexto, capacidades de visão e uso de computador são todas substantivas e imediatamente úteis. O aumento de preço é justificado pelas capacidades expandidas, e ainda representa bom valor comparado a alternativas.
Se você está usando GPT-5.2 ou GPT-5.3 atualmente, vale absolutamente a pena migrar para o GPT-5.4. Se você está usando Claude ou Gemini, vale a pena experimentar o GPT-5.4 para ver se atende melhor suas necessidades – meu palpite é que para muitos de vocês, atenderá.
O futuro da IA para desenvolvimento está aqui, e está evoluindo mais rápido do que a maioria imagina. Ferramentas como o GPT-5.4 não substituem desenvolvedores, mas amplificam dramaticamente o que desenvolvedores habilidosos podem realizar. Para aqueles dispostos a aprender como usar essas ferramentas efetivamente, o potencial é extraordinário.
Assista ao vídeo original
Este artigo foi baseado no vídeo abaixo. Se preferir, você pode assistir ao conteúdo original: