O GPT-4.5, o mais novo modelo de linguagem da OpenAI, representa um avanço significativo nas capacidades de IA, ao mesmo tempo em que introduz um preço sem precedentes, gerando um grande debate na comunidade tecnológica. Este relatório analisa o desempenho do GPT-4.5 em diferentes domínios e investiga os fatores que contribuíram para o aumento expressivo do seu custo em comparação com modelos anteriores e concorrentes.
Análise de Desempenho em Benchmarks
O GPT-4.5 apresenta melhorias notáveis em relação ao seu antecessor, o GPT-4o, embora seu desempenho varie consideravelmente dependendo do tipo de tarefa. Para compreender plenamente suas capacidades, devemos examinar seu desempenho em diversas áreas.
Raciocínio Matemático e Científico
O GPT-4.5 apresenta melhorias substanciais no raciocínio matemático e científico em comparação com o GPT-4o. Especificamente, registra um aumento de 27,4% no desempenho matemático e 17,8% em tarefas relacionadas à ciência. No teste GPQA de avaliação científica, o GPT-4.5 obteve uma pontuação de 71,4%, significativamente melhor que os 53,6% do GPT-4o, embora ainda fique atrás do modelo especializado em raciocínio da OpenAI, o o3-mini, que atingiu 79,7%.
A melhoria é ainda mais notável ao analisar benchmarks matemáticos específicos. No exame AIME ’24, o GPT-4.5 obteve 36,7%, superando amplamente os 9,3% do GPT-4o, mas ainda muito abaixo dos 87,3% do o3-mini. Esses resultados demonstram que, embora o GPT-4.5 seja um avanço significativo para IA de propósito geral, modelos especializados ainda têm vantagem em tarefas de resolução estruturada de problemas.
Capacidades em Programação e Engenharia de Software
No campo da engenharia de software, o GPT-4.5 apresenta melhorias significativas em relação aos modelos anteriores. No benchmark SWE-Lancer Diamond, que avalia capacidades reais de programação, o GPT-4.5 superou o o3-mini com uma pontuação de 32,6% contra 23,3%. Esse teste é particularmente relevante porque mede não apenas o raciocínio estruturado, mas também a aplicação de conhecimento amplo a problemas de codificação.
Outra evidência do desempenho do GPT-4.5 na engenharia de software vem de sua avaliação em tarefas profissionais de programação. O modelo resolveu 20% das tarefas de Engenheiro de Software Individual e 44% das tarefas de Gerente de Engenharia de Software, representando uma leve melhora em relação ao modelo o1 anterior. Em termos financeiros, o GPT-4.5 ganhou US$ 41.625 em tarefas de engenharia de software individuais e US$ 144.500 em tarefas de gerenciamento de engenharia dentro do ambiente de testes, superando seus predecessores.
Desempenho Multilíngue e Multimodal
O GPT-4.5 também apresenta ganhos moderados, mas significativos, em capacidades multilíngues e multimodais, com melhorias de 3,6% e 5,3%, respectivamente, sobre o GPT-4o. Embora essas melhorias não sejam tão expressivas quanto as observadas em tarefas de raciocínio, elas contribuem para tornar o modelo mais versátil como um sistema de IA de propósito geral.
Redução de Alucinações e Precisão Factual
Uma das maiores melhorias do GPT-4.5 está na redução da geração de informações incorretas. No teste PersonQA, que avalia a precisão ao responder perguntas sobre pessoas, o GPT-4.5 atingiu uma precisão impressionante de 0,78, muito superior aos 0,28 do GPT-4o e aos 0,55 do o1. Além disso, sua taxa de alucinações foi reduzida para 0,19, representando uma grande melhoria em relação aos 0,52 do GPT-4o.
Os pesquisadores responsáveis pelo GPT-4.5 sugerem que a escala massiva do modelo contribui para essa melhoria na precisão: “Se você sabe mais coisas, não precisa inventá-las”, explica Mia Glaese, líder da equipe de alinhamento da OpenAI.
A Estrutura de Preços Sem Precedentes da API
O preço da API do GPT-4.5 representa uma ruptura drástica com os padrões do setor, sendo muito mais caro que seus antecessores e concorrentes.
Comparação de Preços
A API do GPT-4.5 tem os seguintes valores:
- US$ 75 por milhão de tokens de entrada
- US$ 37,50 por milhão de tokens de entrada em cache
- US$ 150 por milhão de tokens de saída
Essa estrutura de preços contrasta fortemente com outros modelos líderes:
- GPT-4o: US$ 2,50 por milhão de tokens de entrada, US$ 10 por milhão de tokens de saída
- Claude 3.7 Sonnet: US$ 3,00 por milhão de tokens de entrada, US$ 15 por milhão de tokens de saída
- DeepSeek R1: ~US$ 0,55 por milhão de tokens de entrada, ~US$ 2,19 por milhão de tokens de saída
- Google Gemini 2.0 Flash: ~US$ 0,15 por milhão de tokens de entrada, ~US$ 0,60 por milhão de tokens de saída
Em termos percentuais, isso representa um aumento de 2900% para entradas e 1300% para saídas em comparação com o GPT-4o. Para cargas de trabalho típicas, o GPT-4.5 é aproximadamente 30 a 34 vezes mais caro que seu antecessor.
Implicações Financeiras no Mundo Real
Para entender melhor o impacto desse custo, considere um caso em que um usuário processe 750.000 tokens de entrada e 250.000 tokens de saída. No GPT-4.5, esse processamento custaria aproximadamente US$ 147, enquanto nos modelos anteriores custaria apenas alguns dólares. Essa diferença de preço levanta dúvidas sobre a viabilidade do modelo para aplicações de alto volume.
A Economia por Trás do Preço Premium do GPT-4.5
Vários fatores explicam a estrutura de preços sem precedentes do GPT-4.5, incluindo limitações técnicas e decisões estratégicas da OpenAI.
Escala Massiva e Demandas Computacionais
O GPT-4.5 é construído sobre uma arquitetura colossal de 12,8 trilhões de parâmetros e uma janela de contexto de 128k tokens. Esse tamanho exige recursos computacionais imensos para operar. O CEO da OpenAI, Sam Altman, reconheceu esse desafio, afirmando que estão adicionando “dezenas de milhares de GPUs” para suportar esse modelo.
Investimento em Infraestrutura
A OpenAI está investindo bilhões em infraestrutura para viabilizar modelos massivos como o GPT-4.5. Novos sistemas de inferência foram desenvolvidos e técnicas de treinamento de baixa precisão foram usadas para maximizar o uso de GPUs durante o treinamento.
Foco em Interação Humana e “Vibes”
O GPT-4.5 marca uma mudança no foco da OpenAI, priorizando a qualidade da interação e a inteligência emocional. Sam Altman descreveu o modelo como “o primeiro que parece uma conversa com uma pessoa reflexiva”, sugerindo que seu valor pode estar em áreas onde a qualidade da conversação é mais importante que a precisão bruta.
Estratégia de Segmentação de Mercado
O alto preço pode ser parte de uma estratégia para posicionar o GPT-4.5 como um produto premium, enquanto o GPT-4o permanece acessível. Empresas que necessitam de precisão absoluta podem estar dispostas a pagar um preço muito mais alto.
Enfim…
O GPT-4.5 representa um avanço técnico, mas também uma mudança na estratégia de preços da OpenAI. Seu custo exorbitante pode limitar sua adoção em muitos casos, tornando modelos mais acessíveis, como o GPT-4o e Claude 3.7 Sonnet, opções mais viáveis para a maioria dos usuários.