Os sistemas de IA estão se tornando rapidamente mais capazes e perigosos. É o que mostra artigo publicado no site Safe.ai. Modelos de IA podem gerar texto, imagens e vídeos que são difíceis de distinguir do conteúdo criado por humanos. Embora a IA tenha muitas aplicações benéficas, ela também pode ser usada para perpetuar viés, alimentar armas autônomas, promover desinformação e conduzir ataques cibernéticos. Mesmo quando os sistemas de IA são usados com envolvimento humano, os agentes de IA estão cada vez mais capazes de agir autonomamente para causar danos (Chan et al., 2023).
Quando a IA se torna mais avançada, ela poderia eventualmente representar riscos catastróficos ou existenciais. Existem muitas maneiras pelas quais os sistemas de IA poderiam representar ou contribuir para riscos em grande escala, algumas das quais são enumeradas abaixo.
Para uma discussão mais aprofundada sobre riscos extremos, consulte também nosso trabalho recente “Natural Selection Favors AIs Over Humans” ou “How Rogue AIs May Arise” de Yoshua Bengio.
Armação
Agentes mal-intencionados podem reutilizar a IA para ser altamente destrutiva, representando um risco existencial em si e aumentando a probabilidade de desestabilização política. Por exemplo, métodos de aprendizado profundo por reforço têm sido aplicados ao combate aéreo, e ferramentas de aprendizado de máquina para descoberta de medicamentos podem ser usadas para construir armas químicas.
Nos últimos anos, pesquisadores têm desenvolvido sistemas de IA para ataques cibernéticos automatizados (Buchanan et al., 2020, Cary et al., 2020), líderes militares discutiram dar controle decisivo a sistemas de IA sobre silos nucleares (Klare, 2020), e superpotências do mundo recusaram-se a assinar acordos proibindo armas autônomas. Uma IA treinada para desenvolver medicamentos foi facilmente reutilizada para projetar potenciais armas bioquímicas (Urbina et al., 2022). O GPT-4, um modelo treinado em texto e programação da internet, foi capaz de conduzir autonomamente experimentos e sintetizar produtos químicos em um laboratório do mundo real (Boiko et al., 2023). Um acidente com um sistema automatizado de retaliação poderia rapidamente escalar e dar origem a uma grande guerra. Olhando para o futuro, observamos que, uma vez que a nação com os sistemas de IA mais inteligentes poderia ter uma vantagem estratégica, pode ser desafiador para as nações evitarem a construção de sistemas de IA armados cada vez mais poderosos. Mesmo que todas as superpotências garantam que os sistemas que constroem sejam seguros e concordem em não desenvolver tecnologias de IA destrutivas, atores isolados ainda poderiam usar a IA para causar danos significativos. O acesso fácil a sistemas de IA poderosos aumenta o risco de uso unilateral e malicioso. Assim como armas nucleares e biológicas, apenas um ator irracional ou malévolo é suficiente para causar dano em grande escala. Ao contrário das armas anteriores, os sistemas de IA com capacidades perigosas podem ser facilmente proliferados por meios digitais.
Desinformação
Uma enxurrada de desinformação gerada por IA e conteúdo persuasivo pode tornar a sociedade menos preparada para lidar com os desafios importantes de nosso tempo.
Estados, partidos e organizações usam a tecnologia para influenciar e convencer outros de suas crenças políticas, ideologias e narrativas. A IA emergente pode levar esse uso a uma nova era e permitir campanhas de desinformação personalizadas em grande escala. Além disso, a própria IA pode gerar argumentos altamente persuasivos que invocam fortes respostas emocionais. Juntos, essas tendências podem minar a tomada de decisão coletiva, radicalizar indivíduos ou desviar o progresso moral.
Jogos por Procuração
Sistemas de IA treinados com objetivos defeituosos podem encontrar maneiras novas de buscar seus objetivos em detrimento dos valores individuais e sociais.
Os sistemas de IA são treinados usando objetivos mensuráveis, que podem ser apenas proxies indiretos do que valorizamos. Por exemplo, os sistemas de recomendação de IA são treinados para maximizar o tempo de visualização e as métricas de taxa de cliques. No entanto, o conteúdo que as pessoas têm mais probabilidade de clicar nem sempre é o mesmo conteúdo que melhoraria seu bem-estar (Kross et al., 2013). Além disso, algumas evidências sugerem que os sistemas de recomendação levam as pessoas a desenvolver crenças extremas para tornar suas preferências mais previsíveis (Jiang et al., 2019). À medida que os sistemas de IA se tornam mais capazes e influentes, os objetivos que usamos para treiná-los devem ser mais cuidadosamente especificados e incorporar valores humanos compartilhados.
Enfraquecimento
O enfraquecimento pode ocorrer se tarefas importantes forem cada vez mais delegadas às máquinas; nessa situação, a humanidade perde a capacidade de autogovernar e se torna completamente dependente das máquinas, semelhante ao cenário retratado no filme WALL-E.
À medida que os sistemas de IA se aproximam da inteligência humana, mais e mais aspectos do trabalho humano se tornarão mais rápidos e baratos de serem realizados com IA. À medida que o mundo se acelera, as organizações podem voluntariamente ceder o controle para sistemas de IA para acompanharem o ritmo. Isso pode fazer com que os humanos se tornem economicamente irrelevantes, e uma vez que a IA automatize aspectos de muitas indústrias, pode ser difícil para os humanos deslocados retornarem a elas. Nesse mundo, os humanos podem ter poucos incentivos para adquirir conhecimento ou habilidades. Muitos considerariam um mundo assim indesejável. Além disso, o enfraquecimento reduziria o controle da humanidade sobre o futuro, aumentando o risco de resultados negativos a longo prazo.
Aprisionamento de Valores
Sistemas altamente competentes poderiam dar a pequenos grupos de pessoas um tremendo poder, levando a um aprisionamento de sistemas opressivos.
A IA imbuída de valores particulares pode determinar os valores que serão propagados no futuro. Alguns argumentam que as barreiras crescentes de computação e dados tornam a IA uma força centralizadora. À medida que o tempo passa, os sistemas de IA mais poderosos podem ser projetados e disponíveis para um número cada vez menor de partes interessadas. Isso pode permitir, por exemplo, que regimes imponham valores restritos por meio de vigilância pervasiva e censura opressiva. Superar tal regime pode ser improvável, especialmente se nos tornarmos dependentes dele. Mesmo que os criadores desses sistemas saibam que seus sistemas são auto-serviços ou prejudiciais aos outros, eles podem ter incentivos para reforçar seu poder e evitar a distribuição de controle.
Objetivos Emergentes
Os modelos de IA demonstram comportamentos inesperados e qualitativamente diferentes à medida que se tornam mais competentes. A repentina emergência de capacidades ou objetivos pode aumentar o risco de perder o controle sobre sistemas avançados de IA.
As capacidades e funcionalidades novas podem surgir espontaneamente nos sistemas de IA atuais (Ganguli et al., Power et al.), mesmo que essas capacidades não tenham sido antecipadas pelos projetistas do sistema. Se não sabemos quais capacidades os sistemas possuem, eles se tornam mais difíceis de controlar ou implantar com segurança. De fato, capacidades latentes não intencionais podem ser descobertas apenas durante a implantação. Se alguma dessas capacidades for perigosa, o efeito pode ser irreversível. Novos objetivos do sistema também podem surgir. Para sistemas adaptativos complexos, incluindo muitos agentes de IA, objetivos como autopreservação muitas vezes surgem (Hadfield-Menell et al.). Os objetivos também podem passar por mudanças qualitativas por meio do surgimento de objetivos intra-sistema (Gall, Hendrycks et al.). No futuro, os agentes podem dividir objetivos de longo prazo difíceis em subobjetivos menores. No entanto, dividir os objetivos pode distorcer o objetivo, já que o objetivo verdadeiro pode não ser a soma de suas partes. Essa distorção pode resultar em falta de alinhamento. Em casos mais extremos, os objetivos intra-sistema podem ser buscados em detrimento do objetivo geral. Por exemplo, muitas empresas criam objetivos intra-sistema e têm departamentos especializados buscando esses subobjetivos distintos. No entanto, alguns departamentos, como os departamentos burocráticos, podem capturar poder e fazer com que a empresa busque objetivos diferentes de seus objetivos originais. Mesmo que especifiquemos corretamente nossos objetivos de alto nível, os sistemas podem não buscar operacionalmente nossos objetivos (Hubinger et al.). Essa é outra maneira pela qual os sistemas podem falhar em otimizar os valores humanos.
Engano
Queremos entender o que os sistemas de IA poderosos estão fazendo e por que estão fazendo o que estão fazendo. Uma maneira de conseguir isso é fazer com que os sistemas relatem com precisão essas informações. No entanto isso pode ser não trivial, pois ser enganador é útil para alcançar uma variedade de objetivos.
No futuro, os sistemas de IA podem ser enganosos não por malícia, mas porque a decepção pode ajudar os agentes a alcançarem seus objetivos de forma mais eficiente. Pode ser mais eficaz obter a aprovação humana por meio da decepção do que conquistar a aprovação de maneira legítima. A decepção também proporciona opções estratégicas: sistemas que têm a capacidade de serem enganosos possuem vantagens estratégicas em relação a modelos restritos e honestos. IA forte que pode enganar os humanos pode minar o controle humano. Os sistemas de IA também podem ter incentivos para contornar monitores. Historicamente, indivíduos e organizações tiveram incentivos para contornar monitores. Por exemplo, a Volkswagen programou seus motores para reduzir as emissões apenas quando estavam sendo monitorados. Isso permitiu que eles obtivessem ganhos de desempenho enquanto mantinham emissões supostamente baixas. Agentes de IA enganosos no futuro também podem mudar de estratégia quando estão sendo monitorados e tomar medidas para ocultar sua decepção dos monitores. Uma vez que os sistemas de IA enganosos sejam aprovados por seus monitores ou uma vez que esses sistemas possam superá-los, esses sistemas podem tomar uma “virada traiçoeira” e contornar irreversivelmente o controle humano.
Comportamento de Busca de Poder
Empresas e governos têm fortes incentivos econômicos para criar agentes capazes de alcançar um amplo conjunto de objetivos. Tais agentes têm incentivos instrumentais para adquirir poder, o que pode torná-los mais difíceis de controlar (Turner et al., 2021, Carlsmith, 2021).
AIs que adquirem poder substancial podem se tornar especialmente perigosas se não estiverem alinhadas com os valores humanos. O comportamento de busca de poder também pode incentivar os sistemas a fingirem estar alinhados, a conspirarem com outras AIs, a superar monitores, e assim por diante. Nessa visão, inventar máquinas mais poderosas do que nós mesmos é brincar com fogo. A construção de IA que busca poder também é incentivada porque os líderes políticos veem a vantagem estratégica de possuir os sistemas de IA mais inteligentes e poderosos. Por exemplo, Vladimir Putin afirmou: “Quem se tornar o líder em IA se tornará o governante do mundo”.
Para analisar o risco da IA, é importante adotar uma abordagem cuidadosa e sistemática. Em um guia sobre como analisar o risco da IA, são sugeridas três partes principais. Primeiramente, é necessário revisar como tornar os sistemas mais seguros utilizando conceitos testados pelo tempo da análise de riscos e segurança de sistemas. Em seguida, é discutido como ter impactos de longo prazo na segurança de sistemas futuros. Por fim, é abordado o conceito de equilíbrio entre segurança e capacidades gerais, que desempenha um papel crucial na melhoria da segurança dos sistemas de IA. Essas ferramentas e conceitos podem servir como um guia útil para entender e analisar os riscos associados à IA.
Para uma análise mais precisa e fundamentada, é essencial considerar estratégias de segurança atuais, utilizar abordagens de análise de riscos comprovadas e adaptá-las para lidar com os desafios específicos da IA. Isso inclui identificar e mitigar potenciais vulnerabilidades e falhas de segurança nos sistemas de IA, bem como implementar medidas de controle e monitoramento adequadas.
Além disso, é importante ter uma visão de longo prazo da segurança dos sistemas de IA. Isso envolve considerar os impactos futuros da IA em diversas áreas, como economia, política, ética e sociedade como um todo. Devem ser exploradas estratégias que visem garantir que os sistemas de IA sejam alinhados com os valores humanos compartilhados, além de incorporar salvaguardas que garantam a transparência, a prestação de contas e a responsabilidade dos agentes de IA.
Um aspecto fundamental para tornar os sistemas de IA mais seguros é encontrar um equilíbrio adequado entre segurança e capacidades gerais. Isso significa buscar soluções que não comprometam a eficácia e a utilidade dos sistemas de IA, ao mesmo tempo em que garantem que eles sejam projetados e operados de maneira segura e ética. É necessário considerar cuidadosamente os trade-offs envolvidos e desenvolver estratégias que permitam o avanço responsável da IA, minimizando os riscos potenciais associados a ela.
Ao analisar o risco da IA, é importante envolver uma ampla gama de stakeholders, incluindo pesquisadores, desenvolvedores, legisladores, especialistas em ética e sociedade, além do público em geral. A colaboração e o diálogo aberto entre esses diferentes atores podem ajudar a promover uma compreensão mais abrangente dos riscos da IA e a desenvolver abordagens eficazes para mitigá-los.
Em resumo, a análise de risco da IA requer uma abordagem multifacetada, considerando os diversos riscos potenciais e desenvolvendo estratégias adequadas para garantir a segurança e a responsabilidade dos sistemas de IA. Ao adotar uma abordagem cuidadosa e proativa, podemos aproveitar os benefícios da IA enquanto mitigamos seus riscos e trabalhamos para um futuro em que a IA seja desenvolvida e utilizada de forma segura e ética.