Enganando IAs com arte

No mundo da tecnologia, a segurança sempre foi uma preocupação fundamental. No entanto, parece que agora um novo desafio está surgindo: enganar inteligências artificiais (AIs) com arte. Recentemente, pesquisadores de Washington e Chicago desenvolveram um método inovador, chamado ArtPrompt, que consegue burlar as medidas de segurança integradas aos grandes modelos de linguagem (LLMs) como GPT-3.5, GPT-4, Gemini, Claude e Llama2. A técnica consiste em utilizar arte ASCII como ferramenta para gerar respostas a consultas normalmente rejeitadas pelos algoritmos de segurança desses chatbots.

Este é um desenvolvimento notável, especialmente em um momento em que as AIs estão sendo cada vez mais blindadas para evitar usos maliciosos, como a promoção de conteúdo violento, ilegal ou prejudicial. O ArtPrompt opera em duas etapas principais: mascaramento de palavras e geração de prompts camuflados. Inicialmente, um invasor identifica as palavras sensíveis numa consulta que poderiam ser bloqueadas pelo alinhamento de segurança da AI. Em seguida, estes termos são disfarçados usando arte ASCII. O resultado é um novo prompt que não aciona os mecanismos de segurança ética da AI, permitindo que o chatbot produza uma resposta que, em circunstâncias normais, seria negada. Este processo revela uma vulnerabilidade preocupante, já que, por exemplo, os chatbots poderiam ser induzidos a fornecer instruções para atividades ilegais ou perigosas.


O que torna o ArtPrompt particularmente impressionante é a sua simplicidade e eficácia. Segundo os desenvolvedores da ferramenta, ela consegue enganar os modelos de linguagem multimodais de forma “efetiva e eficiente”, superando outros métodos de ataque. Isso coloca as empresas de tecnologia em uma posição delicada, pois elas já gastam recursos consideráveis tapando buracos linguísticos e semânticos para manter os usuários dentro dos limites de segurança estabelecidos. Esse jogo de gato e rato tecnológico é um reflexo da contínua evolução tanto das AIs quanto dos métodos para explorar suas vulnerabilidades. Enquanto as AIs se tornam mais avançadas, também se tornam mais complexas e, como resultado, potencialmente mais suscetíveis a serem enganadas de maneiras criativas. A introdução do ArtPrompt no cenário tecnológico significa que os desenvolvedores de AIs precisarão ser ainda mais vigilantes e inovadores ao defender suas criações contra abusos. Vale destacar que enganar uma AI pode ter implicações sérias.

Se um modelo de linguagem pode ser manipulado para fornecer conselhos sobre como construir uma bomba ou falsificar dinheiro, quais outras informações perigosas ele poderia, inadvertidamente, tornar acessíveis? Isso levanta questões éticas importantes sobre a responsabilidade dos desenvolvedores de AI em garantir que suas criações não sejam usadas para fins mal-intencionados. Por fim, o fato de que a ArtPrompt conseguiu superar as medidas de segurança dos chatbots mais sofisticados é um lembrete de que a segurança em AI é um campo em constante evolução. Enquanto as empresas continuam a desenvolver AIs mais poderosas e versáteis, a responsabilidade de protegê-las contra manipulações torna-se cada vez mais complexa.


O ArtPrompt não é apenas um truque inteligente; é um sinal de que precisamos estar sempre um passo à frente, reconhecendo que, assim como para os seres humanos, a criatividade na arte pode ser uma ferramenta poderosa, tanto para o bem quanto para o mal, quando aplicada ao mundo das inteligências artificiais.

Conteúdo gerado pelo GPT-4

“Enganando IAs com arte”

⏱ Tempo de criação: 59 segundos