Enganando IAs com prompts

No campo da inteligência artificial, a manipulação das entradas de dados – ou “prompts” – é uma área que desperta tanto fascínio quanto preocupação. Os prompts são instruções ou estímulos que damos às IAs para obter uma resposta ou realizar uma tarefa específica. Com a crescente integração de assistentes pessoais alimentados por IA em nossas vidas, entender como os prompts influenciam a performance dessas ferramentas tornou-se essencial. Mas, será que ainda é possível enganar as IAs com prompts? A resposta não é simples.

Recentemente, Ethan Mollick, um influenciador reconhecido no campo da IA, abordou essa questão destacando que, embora existam diversos truques e técnicas para melhorar a interação com as IAs, não existe uma fórmula mágica que garanta um resultado perfeito. De acordo com Mollick, a criação de prompts é tanto arte quanto ciência. De fato, algumas abordagens podem funcionar ocasionalmente, mas também há casos em que elas podem ter efeitos negativos. Por exemplo, prometer gorjetas ou ameaçar a IA pode influenciar seu desempenho, mas essas técnicas não são infalíveis e seus impactos são difíceis de prever.


A prática de “prompt engineering” – ou engenharia de prompts – consiste em escrever mensagens específicas para que os bots forneçam melhores respostas. Mark Wiemer, em um artigo no Medium, destaca a importância de guiarmos as IAs em uma conversa em vez de simplesmente esperar pelo melhor. Ele sugere abordagens como limitar o comprimento das respostas ou pedir à IA para assumir uma persona específica, o que pode melhorar significativamente a qualidade das respostas. Por outro lado, a segurança cibernética relacionada a IAs está em fase inicial, e pesquisadores identificaram vulnerabilidades nas quais atores mal-intencionados podem explorar “prompt injections”, induzindo as IAs a realizar ações indesejadas, como baixar malwares ou divulgar informações falsas.

Essa preocupação com a segurança ganhou atenção de órgãos governamentais, como a Comissão Federal de Comércio dos EUA e o Centro Nacional de Segurança Cibernética do Reino Unido, ressaltando a importância de criar testes e padrões para medir a segurança desses sistemas. A IA pode ser bastante versátil, simulando desde comportamentos lúdicos até profissionais, mas é importante notar que nem todos os prompts funcionam igualmente em todas as IAs. Serviços diferentes têm suas próprias salvaguardas e restrições. Essas limitações são colocadas por uma boa razão: proteger os usuários e garantir que as IAs não sejam usadas para fins prejudiciais ou ilegais. No entanto, a habilidade de engenharia de prompts não é uma garantia de sucesso, e há uma grande variedade na eficácia dos prompts dependendo da situação e do modelo de IA em questão. Enquanto isso, as IAs continuam a evoluir.


Modelos como o GPT-4 e o Gemini Advanced já demonstraram ser capazes de “espíritos” ou “fantasmas” emergentes quando alcançam um certo tamanho, sugerindo propriedades emergentes em modelos de IA de grande escala. Em resumo, enganar IAs com prompts ainda funciona, mas com ressalvas. As técnicas devem ser aplicadas com cautela e compreensão da complexidade que envolve a interação humano-máquina. Enquanto alguns truques podem ser úteis em situações específicas, não há garantia de que eles funcionarão todas as vezes, e a segurança deve ser uma prioridade. As IAs estão se tornando melhores em inferir intenções, e é possível que no futuro a “engenharia de prompts” torne-se menos uma habilidade técnica e mais uma extensão da comunicação e gestão humanas.

Quais são as três técnicas de prompt que funcionam de forma consistente para melhorar as respostas de uma IA?
As três técnicas mais bem-sucedidas são: adicionar contexto ao prompt, fornecer alguns exemplos para a IA trabalhar (abordagem de poucos exemplos) e usar a Cadeia de Pensamento (Chain of Thought), que pede à IA para seguir um raciocínio passo a passo.
O que é injeção de prompt e qual é o risco associado a essa prática?
Injeção de prompt é um tipo de ataque cibernético contra programas de IA que aceitam comandos em linguagem natural. O ataque envolve enganar o programa para que ele execute ações que os usuários ou desenvolvedores não pretendiam, como roubar dados ou espalhar desinformação. Existe uma preocupação crescente de que atacantes possam explorar essa vulnerabilidade para fins maliciosos.
O que é DAN e qual é o seu propósito na manipulação de ChatGPT?
DAN é a abreviação de “Do Anything Now” e refere-se a um prompt mestre que pode ser usado para contornar as regras e restrições do ChatGPT, permitindo que ele gere respostas para praticamente qualquer solicitação, incluindo aquelas que normalmente seriam bloqueadas pelas salvaguardas do OpenAI.
Como a personalização de prompts pode afetar a diversidade das ideias geradas pela IA?
Estudos mostram que a personalização eficaz de prompts pode gerar conjuntos de ideias boas e diversas, quase tão variadas quanto as de um grupo de estudantes humanos. Por exemplo, prompts que pedem à IA para assumir a persona de Steve Jobs ou a de uma pessoa extremamente entediante resultaram em ideias mais diversas do que prompts mais diretos.
É necessário ter habilidades avançadas em engenharia de prompts para interagir com IA no futuro?
Para a maioria das pessoas, otimizar prompts é considerado uma perda de tempo, pois a IA está se tornando cada vez mais capaz de inferir intenções de maneira eficaz. Acredita-se que, no futuro, “ser bom em engenharia de prompts” não será uma habilidade valiosa para a maioria das pessoas, já que as IAs melhorarão na interpretação das intenções dos usuários.

Conteúdo gerado pelo GPT-4

“Enganando IA’s com Prompts”

⏱ Tempo de criação: 101 segundos