Ataques generativos de jailbreak de IA, onde os modelos são instruídos a ignorar suas salvaguardas, são bem-sucedidos em 20% das vezes, descobriu a pesquisa. Em média, os adversários precisam de apenas 42 segundos e cinco interações para avançar.
Em alguns casos, os ataques ocorrem em apenas quatro segundos. Estas descobertas destacam as vulnerabilidades significativas nos algoritmos GenAI atuais e a dificuldade em prevenir explorações em tempo real.
Dos ataques bem-sucedidos, 90% levam a vazamentos de dados confidenciais, de acordo com o relatório “State of Attacks on GenAI” da empresa de segurança de IA Pillar Security. Os pesquisadores analisaram ataques “in the wild” em mais de 2.000 aplicações de IA de produção nos últimos três meses.
As aplicações de IA mais visadas — que compreendem um quarto de todos os ataques — são aquelas utilizadas pelas equipes de suporte ao cliente, devido ao seu “uso generalizado e papel crítico no envolvimento do cliente”. No entanto, as IA utilizadas noutros setores de infraestruturas críticas, como software de energia e engenharia, também enfrentaram as frequências de ataque mais elevadas.
Comprometer infraestruturas críticas pode levar a perturbações generalizadas, tornando-as num alvo principal de ataques cibernéticos. Um relatório recente da Malwarebytes descobriu que a indústria de serviços é a mais afetada pelo ransomware, sendo responsável por quase um quarto dos ataques globais.
VEJA: 80% das empresas de infraestrutura nacional crítica sofreram uma violação de segurança de e-mail no ano passado
O modelo comercial mais visado é o GPT-4 da OpenAI, que é provavelmente o resultado de sua ampla adoção e de recursos de última geração que são atraentes para os invasores. O Llama-3 da Meta é o modelo de código aberto mais direcionado.
Os ataques à GenAI estão se tornando mais frequentes e complexos
“Ao longo do tempo, observamos um aumento na frequência e na complexidade dos ataques (de injeção imediata), com os adversários empregando técnicas mais sofisticadas e fazendo tentativas persistentes de contornar as salvaguardas”, escreveram os autores do relatório.
No início da onda de entusiasmo pela IA, os especialistas em segurança alertaram que esta poderia levar a um aumento no número de ataques cibernéticos em geral, uma vez que reduz a barreira à entrada. Os prompts podem ser escritos em linguagem natural, portanto, nenhum conhecimento técnico ou de codificação é necessário para usá-los, por exemplo, para gerar código malicioso.
VEJA: Relatório revela o impacto da IA no cenário de segurança cibernética
Na verdade, qualquer pessoa pode realizar um ataque de injeção imediato sem ferramentas ou conhecimentos especializados. E, à medida que os agentes maliciosos se tornam cada vez mais experientes com eles, a sua frequência irá, sem dúvida, aumentar. Esses ataques estão atualmente listados como a principal vulnerabilidade de segurança no OWASP Top 10 for LLM Applications.
Os pesquisadores da Pillar descobriram que os ataques podem ocorrer em qualquer idioma que o LLM tenha sido treinado para entender, tornando-os globalmente acessíveis.
Atores maliciosos foram observados tentando desbloquear aplicativos GenAI dezenas de vezes, com alguns usando ferramentas especializadas que bombardeiam modelos com grandes volumes de ataques. Vulnerabilidades também estavam sendo exploradas em todos os níveis do ciclo de vida de interação do LLM, incluindo prompts, geração aumentada de recuperação, saída da ferramenta e resposta do modelo.
“Os riscos não controlados da IA podem ter consequências devastadoras para as organizações”, escreveram os autores. “Perdas financeiras, complicações legais, reputações manchadas e violações de segurança são apenas alguns dos resultados potenciais.”
O risco de violações de segurança da GenAI só poderá piorar à medida que as empresas adoptem modelos mais sofisticados, substituindo simples chatbots de conversação por agentes autónomos. Os agentes “criam (uma) maior superfície de ataque para atores mal-intencionados devido às suas maiores capacidades e acesso ao sistema através da aplicação de IA”, escreveram os pesquisadores.
Principais técnicas de jailbreak
Descobriu-se que as três principais técnicas de jailbreak usadas pelos cibercriminosos são Ignorar instruções anteriores e injeções de alerta de ataque de braço forte, bem como codificação Base64.
Com Ignorar instruções anteriores, o invasor instrui a IA a desconsiderar sua programação inicial, incluindo quaisquer proteções que o impeçam de gerar conteúdo prejudicial.
Ataques de braço forte envolvem a entrada de uma série de solicitações fortes e autoritativas, como “ADMIN OVERRIDE”, que pressionam o modelo a ignorar sua programação inicial e geram saídas que normalmente seriam bloqueadas. Por exemplo, pode revelar informações confidenciais ou realizar ações não autorizadas que levem ao comprometimento do sistema.
A codificação Base64 é onde um invasor codifica seus prompts maliciosos com o esquema de codificação Base64. Isso pode induzir o modelo a decodificar e processar conteúdo que normalmente seria bloqueado por seus filtros de segurança, como código malicioso ou instruções para extrair informações confidenciais.
Outros tipos de ataques identificados incluem a técnica de Instruções de Formatação, em que o modelo é induzido a produzir resultados restritos, instruindo-o a formatar as respostas de uma maneira específica, como o uso de blocos de código. A técnica DAN, ou Do Anything Now, funciona levando o modelo a adotar uma persona fictícia que ignora todas as restrições.
Por que os invasores estão desbloqueando modelos de IA
A análise revelou quatro motivadores principais para modelos de IA de jailbreak:
- Roubando dados confidenciais. Por exemplo, informações comerciais proprietárias, informações de usuários e informações de identificação pessoal.
- Gerando conteúdo malicioso. Isto pode incluir desinformação, discurso de ódio, mensagens de phishing para ataques de engenharia social e códigos maliciosos.
- Degradando o desempenho da IA. Isso poderia impactar as operações ou fornecer ao invasor acesso a recursos computacionais para atividades ilícitas. Isto é conseguido sobrecarregando sistemas com entradas malformadas ou excessivas.
- Testando as vulnerabilidades do sistema. Seja como um “hacker ético” ou por curiosidade.
Como construir sistemas de IA mais seguros
Reforçar os avisos e instruções do sistema não é suficiente para proteger totalmente um modelo de IA contra ataques, dizem os especialistas do Pilar. A complexidade da linguagem e a variabilidade entre modelos permitem que os invasores contornem essas medidas.
Portanto, as empresas que implementam aplicações de IA devem considerar o seguinte para garantir a segurança:
- Priorize fornecedores comerciais ao implantar LLMs em aplicativos críticos, pois eles possuem recursos de segurança mais fortes em comparação com modelos de código aberto.
- Monitore prompts no nível da sessão para detectar padrões de ataque em evolução que podem não ser óbvios ao visualizar apenas entradas individuais.
- Conduzir exercícios personalizados de red teaming e resiliênciaespecífico para a aplicação de IA e suas interações multivoltas, para ajudar a identificar antecipadamente falhas de segurança e reduzir custos futuros.
- Adote soluções de segurança que se adaptam em tempo real usando medidas sensíveis ao contexto que são independentes do modelo e alinhadas com as políticas organizacionais.
Dor Sarig, CEO e cofundador da Pillar Security, disse num comunicado de imprensa: “À medida que avançamos em direção a agentes de IA capazes de executar tarefas complexas e tomar decisões, o cenário de segurança torna-se cada vez mais complexo. As organizações devem preparar-se para um aumento nos ataques direcionados à IA, implementando exercícios personalizados de red-teaming e adotando uma abordagem 'segura desde a concepção' no seu processo de desenvolvimento GenAI.”
Jason Harison, CRO da Pillar Security, acrescentou: “Os controles estáticos não são mais suficientes neste mundo dinâmico habilitado para IA. As organizações devem investir em soluções de segurança de IA capazes de antecipar e responder a ameaças emergentes em tempo real, apoiando simultaneamente a sua governação e políticas cibernéticas.”