Categorias: IA para Profissionais

O que o GPT-5.4 realmente faz (e não faz) em interações medicamentosas

Um estudo publicado em janeiro de 2026 no Journal of the American Pharmacists Association testou o ChatGPT-5 em UTIs reais para detectar interações medicamentosas clinicamente relevantes. O resultado foi honesto: o modelo mostrou maior concordância com referências do que versões anteriores, mas apresentou sensibilidade limitada e reprodutibilidade inconsistente. A conclusão dos pesquisadores foi direta — a supervisão farmacêutica continua essencial. É exatamente aí que começa a conversa útil sobre IA e farmácia.

O problema que nenhum software resolve completamente

Interações medicamentosas são um problema sério de saúde pública. Estimativas publicadas na British Journal of Clinical Pharmacology indicam que interações entre medicamentos causam até 20% dos eventos adversos que resultam em hospitalização. E o risco cresce com a idade: a polifarmácia — uso concomitante de múltiplos fármacos — pode atingir 96,5% em idosos hospitalizados.

O ponto cego aqui não é falta de ferramentas. É excesso de alertas com baixo valor clínico. Um estudo com pacientes de transplante renal mostrou que, dos pares de interações sinalizados pelo Micromedex, Lexicomp e Medscape juntos, mais de 90% dos alertas foram julgados clinicamente irrelevantes por farmacêuticos usando a Drug Interaction Probability Scale. O Micromedex, apesar de sinalizar menos interações, teve o dobro da taxa de verdadeiros positivos em comparação com os outros dois. Isso é o que se chama de fadiga de alerta — e é onde o julgamento humano ainda ganha de qualquer algoritmo.

O que o GPT-5.4 realmente consegue fazer nesse contexto

O GPT-5 (lançado em agosto de 2025) trouxe melhorias mensuráveis em relação a versões anteriores. Segundo a OpenAI, o modelo é 45% menos propenso a erros factuais do que o GPT-4o em testes com busca web ativada — e 80% menos propenso quando opera no modo de raciocínio (thinking). Mesmo assim, a própria OpenAI reconhece que as alucinações ainda ocorrem.

No contexto farmacêutico, o ChatGPT-4.0 — versão anterior — foi testado com prescrições de alta de 301 pacientes. O resultado foi revelador: o modelo identificou corretamente a ocorrência de interações em 100% dos casos, mas acertou a gravidade em apenas 37,3% e o início da interação em 65,2%. Reconhecer que existe uma interação é diferente de saber se ela é perigosa agora, amanhã ou em semanas. Essa diferença tem implicações clínicas diretas.

Em domínios médicos sem ancoragem em documentos, as taxas de alucinação em LLMs ainda superam 60%. Structured prompts — ou seja, prompts bem construídos — reduzem esse número em aproximadamente 33%, segundo pesquisa de 2025. Para quem usa o GPT-5.4 via ChatGPT Brasil, vale combinar isso com as técnicas de engenharia de prompt descritas neste guia completo sobre agentes de IA.

Onde a IA generativa agrega valor real na prática farmacêutica

A lista de aplicações onde o GPT-5.4 funciona bem — quando usado corretamente — é mais específica do que costuma aparecer em artigos entusiastas:

Triagem inicial de prescrições complexas: identificar quais pares de medicamentos merecem atenção antes de consultar o Micromedex ou Lexicomp. O modelo funciona como primeiro filtro, não como árbitro final.
Explicação de mecanismos farmacocinéticos: um farmacêutico pode pedir ao modelo que explique por que determinada combinação (ex.: varfarina + fluconazol) é problemática via CYP3A4, e usar isso como base para educação de pacientes ou alinhamento com a equipe médica.
Elaboração de planos de manejo terapêutico: em casos simples e intermediários, o ChatGPT-4.0 chegou a resolver 100% dos casos testados por farmacêuticos clínicos, incluindo identificação de interações e recomendações alternativas — embora sem especificar dosagens exatas.
Revisão estruturada de medicação em polipolia: ferramentas baseadas em RAG (Retrieval-Augmented Generation) conectadas a bases como o DrugBank — que é atualizado diariamente — conseguem oferecer revisões mais seguras do que modelos fechados e estáticos.
Geração de perguntas para o paciente: lembrar quais suplementos, fitoterápicos e alimentos o paciente usa — interações que bases convencionais frequentemente subestimam.

O que o modelo ainda não faz com segurança

Classificar corretamente a gravidade de interações em contextos de alta complexidade (polipolia de 8+ medicamentos)
Verificar compatibilidade IV — esse ponto ainda pertence ao Micromedex com Trissel’s e ferramentas específicas
Considerar dados em tempo real do paciente: função renal, genética farmacológica, histórico de reações adversas

Ferramentas de referência que continuam insubstituíveis

Qualquer fluxo de trabalho honesto precisa nomear as ferramentas especializadas. No contexto de interações, a hierarquia prática em 2026 é:

Micromedex (Merative): padrão-ouro para hospitais. Cobre mais de 2.500 monografias, compatibilidade IV, calculadoras clínicas e é atualizado diariamente. Integra com sistemas de prontuário eletrônico (EHR).
Lexicomp: recomendação principal para instituições com recursos, com alta sensibilidade e detalhamento clínico.
DrugBank: banco com mais de 100.000 itens farmacológicos, disponível via API, atualizado diariamente — ideal para integração com sistemas próprios.
Epocrates: melhor opção mobile para verificações rápidas em atendimento ambulatorial, gratuito e com boa cobertura de suplementos.
DrugGPT (Oxford AI for Healthcare Lab): LLM especializado, desenvolvido com bases de conhecimento clínico-padrão. Publicado na Nature Biomedical Engineering, supera modelos genéricos como GPT-4 em benchmarks específicos de interações — mas ainda em implementação clínica ampla.

A comparação entre chatbots genéricos e bases especializadas mostrou que, usando Micromedex como referência, o ChatGPT alcançou 75% de acurácia — DeepSeek ficou em 70% e Gemini em 65%. São números úteis, não para escolher o “vencedor”, mas para entender os limites de cada ferramenta.

Como estruturar prompts para extrair o máximo do GPT-5.4

A diferença entre um prompt vago e um prompt estruturado pode ser decisiva em contexto farmacêutico. Pesquisa de 2025 confirmou que prompts estruturados reduzem alucinações em ~22 pontos percentuais em modelos de linguagem — e em tarefas médicas especificamente, a redução foi de 33%.

Um exemplo concreto de prompt ruim versus bom:

Ruim:
“Quais são as interações do omeprazol?”

Bom:
“Paciente do sexo feminino, 72 anos, insuficiência renal leve (ClCr 45 mL/min), em uso de varfarina 5mg/dia, omeprazol 20mg/dia e amitriptilina 25mg/noite. Liste as interações farmacológicas relevantes entre esses três medicamentos, o mecanismo envolvido (farmacocinético ou farmacodinâmico), a gravidade estimada e a conduta recomendada. Indique quando a evidência for incerta.”

Esse nível de especificidade instrui o modelo a ser mais calibrado, sinalizar incertezas e organizar a resposta de forma clinicamente utilizável. O papel do farmacêutico, aqui, é interpretar e validar — não delegar a decisão.

Vale também combinar essa abordagem com técnicas descritas neste guia de prompts para resultados profissionais, que cobre estruturação de contexto e controle de output em domínios especializados.

O lugar certo da IA no fluxo de trabalho farmacêutico

O setor farmacêutico brasileiro vive uma transição digital concreta. No Abradilan Conexão Farma 2026, o debate central foi sobre usar IA generativa como copiloto — não como substituto do profissional. Ferramentas de IA podem criar treinamentos personalizados, esclarecer dúvidas técnicas sobre interações em segundos e liberar o farmacêutico para atendimento clínico de maior complexidade.

A lógica é simples: o GPT-5.4 lida bem com volume e com síntese de conhecimento já documentado. O farmacêutico lida bem com incerteza, contexto individual e julgamento ético. Esses dois perfis se complementam — desde que ninguém confunda o papel de cada um.

O risco real não é a IA errar sozinha. É o profissional aceitar a resposta sem verificar. Alucinações em domínios médicos sem ancoragem em documentos ainda ocorrem em mais de 60% das consultas a modelos abertos. E como a OpenAI deixa claro: GPT-5 tem significativamente menos alucinações, especialmente quando raciocina, mas elas ainda ocorrem.

Nenhum modelo de linguagem, por mais avançado, substitui o acesso ao prontuário real do paciente, ao histórico de reações e à conversa direta. O que muda com o GPT-5.4 é a qualidade da preparação — e preparação melhor leva a consultas melhores, não a consultas desnecessárias.