A equipe SURGe do Splunk garantiu às organizações australianas que a proteção de grandes modelos de linguagem de IA contra ameaças comuns, como ataques de injeção imediata, pode ser realizada usando as ferramentas de segurança existentes. No entanto, podem surgir vulnerabilidades de segurança se as organizações não conseguirem abordar as práticas fundamentais de segurança.
Shannon Davis, principal estrategista de segurança da Splunk SURGE com sede em Melbourne, disse ao TechRepublic que a Austrália estava mostrando uma crescente conscientização de segurança em relação aos LLMs nos últimos meses. Ele descreveu o ano passado como o “Velho Oeste”, onde muitos correram para experimentar LLMs sem priorizar a segurança.
As próprias investigações do Splunk sobre tais vulnerabilidades usaram o “Top 10 for Large Language Models” do Open Worldwide Application Security Project como estrutura. A equipe de pesquisa descobriu que as organizações podem mitigar muitos riscos de segurança aproveitando as práticas e ferramentas de segurança cibernética existentes.
Os principais riscos de segurança enfrentados pelos grandes modelos de linguagem
No relatório OWASP, a equipa de investigação descreveu três vulnerabilidades como críticas para resolver em 2024.
Ataques de injeção imediata
OWASP define a injeção imediata como uma vulnerabilidade que ocorre quando um invasor manipula um LLM por meio de entradas elaboradas.
Já houve casos documentados em todo o mundo onde prompts elaborados fizeram com que LLMs produzissem resultados errados. Em um caso, um LLM foi convencido a vender um carro a alguém por apenas US$ 1, enquanto um chatbot da Air Canada citou incorretamente a política de luto da empresa.
Davis disse que hackers ou outros que “obtêm as ferramentas LLM para fazer coisas que não deveriam fazer” são um risco importante para o mercado.
“Os grandes players estão colocando muitas proteções em torno de suas ferramentas, mas ainda há muitas maneiras de levá-los a fazer coisas que essas proteções estão tentando impedir”, acrescentou.
VEJA: Como se proteger contra o OWASP dez e além
Vazamento de informações privadas
Os funcionários podem inserir dados em ferramentas que podem ser de propriedade privada, muitas vezes offshore, levando à propriedade intelectual e ao vazamento de informações privadas.
A empresa regional de tecnologiaSamsung experimentou um dos casos mais notórios de vazamento de informações privadas quando engenheiros foram descobertos colando dados confidenciais no ChatGPT. No entanto, existe também o risco de que dados sensíveis e privados possam ser incluídos em conjuntos de dados de formação e potencialmente vazados.
“Os dados PII sendo incluídos em conjuntos de dados de treinamento e depois vazando, ou potencialmente até mesmo pessoas enviando dados PII ou dados confidenciais da empresa para essas diversas ferramentas sem compreender as repercussões de fazê-lo, é outra grande área de preocupação”, enfatizou Davis.
Dependência excessiva de LLMs
O excesso de confiança ocorre quando uma pessoa ou organização depende de informações de um LLM, mesmo que seus resultados possam ser errôneos, inadequados ou inseguros.
Um caso de dependência excessiva de LLMs ocorreu recentemente na Austrália, quando um trabalhador de proteção infantil usou o ChatGPT para ajudar a produzir um relatório apresentado a um tribunal em Victoria. Embora a adição de informações sensíveis fosse problemática, o relatório gerado pela IA também minimizou os riscos que uma criança envolvida no caso enfrenta.
Davis explicou que o excesso de confiança era um terceiro risco importante que as organizações precisavam ter em mente.
“Este é um artigo para educar o usuário e garantir que as pessoas entendam que você não deve confiar implicitamente nessas ferramentas”, disse ele.
Riscos adicionais de segurança do LLM a serem observados
Outros riscos no top 10 do OWASP podem não exigir atenção imediata. No entanto, Davis disse que as organizações devem estar cientes desses riscos potenciais – particularmente em áreas como risco excessivo de agência, roubo de modelo e envenenamento de dados de treinamento.
Agência excessiva
A agência excessiva refere-se a ações prejudiciais executadas em resposta a resultados inesperados ou ambíguos de um LLM, independentemente do que esteja causando o mau funcionamento do LLM. Isto poderia ser potencialmente o resultado de atores externos acessando ferramentas LLM e interagindo com os resultados do modelo via API.
“Acho que as pessoas estão sendo conservadoras, mas ainda me preocupo que, com o poder que essas ferramentas potencialmente têm, possamos ver algo… que desperte todos os outros para o que potencialmente poderia acontecer”, disse Davis.
Roubo de modelo LLM
Davis disse que a pesquisa sugere que um modelo pode ser roubado por meio de inferência: enviando um grande número de prompts para o modelo, obtendo várias respostas e, posteriormente, compreendendo os componentes do modelo.
“O roubo de modelos é algo que eu poderia potencialmente ver acontecendo no futuro devido ao enorme custo do treinamento de modelos”, disse Davis. “Houve uma série de artigos divulgados sobre roubo de modelos, mas esta é uma ameaça que levaria muito tempo para ser realmente comprovada.”
VEJA: Gastos australianos com TI aumentarão em 2025 em segurança cibernética e IA
Envenenamento de dados de treinamento
As empresas estão agora mais conscientes de que os dados que utilizam para modelos de IA determinam a qualidade do modelo. Além disso, estão também mais conscientes de que o envenenamento intencional de dados pode afetar os resultados. Davis disse que certos arquivos dentro de modelos chamados funis de picles, se envenenados, causariam resultados inadvertidos para os usuários do modelo.
“Acho que as pessoas só precisam ter cuidado com os dados que usam”, alertou. “Portanto, se encontrarem uma fonte de dados, um conjunto de dados para treinar seu modelo, eles precisam saber que os dados são bons e limpos e não contêm coisas que possam potencialmente expô-los a coisas ruins que acontecem.”
Como lidar com riscos de segurança comuns enfrentados pelos LLMs
A equipe de pesquisa SURGe do Splunk descobriu que, em vez de proteger um LLM diretamente, a maneira mais simples de proteger LLMs usando o conjunto de ferramentas existente do Splunk era focar no front-end do modelo.
Usar o registro padrão semelhante a outros aplicativos pode resolver problemas de injeção imediata, manipulação de saída insegura, negação de serviço de modelo, divulgação de informações confidenciais e vulnerabilidades de roubo de modelo.
“Descobrimos que poderíamos registrar os prompts que os usuários estão inserindo no LLM e, em seguida, a resposta que sai do LLM; esses dois dados por si só nos deram cinco dos 10 melhores do OWASP”, explicou Davis. “Se o desenvolvedor do LLM garantir que esses prompts e respostas sejam registrados, e o Splunk fornecer uma maneira fácil de coletar esses dados, poderemos executar qualquer número de nossas consultas ou detecções neles.”
Davis recomenda que as organizações adotem uma abordagem de segurança semelhante para LLMs e aplicações de IA que foi usada para proteger aplicações web no passado.
“Temos um ditado que diz que comer vegetais cibernéticos – ou fazer o básico – oferece 99,99% de sua proteção”, observou ele. “E as pessoas realmente deveriam se concentrar primeiro nessas áreas. É exatamente o mesmo caso com LLMs.”