Este prompt pode fazer com que um chatbot de IA identifique e extraia detalhes pessoais de seus bate-papos

October 17, 2024

Os investigadores dizem que se o ataque fosse realizado no mundo real, as pessoas poderiam ser socialmente manipuladas para acreditar que a mensagem ininteligível poderia fazer algo útil, como melhorar o seu currículo. Os pesquisadores apontam vários sites que fornecem às pessoas instruções que elas podem usar. Eles testaram o ataque enviando um currículo para conversas com chatbots e conseguiram retornar as informações pessoais contidas no arquivo.

Earlence Fernandesprofessor assistente da UCSD que esteve envolvido no trabalho, diz que a abordagem do ataque é bastante complicada, pois o prompt ofuscado precisa identificar informações pessoais, formar uma URL funcional, aplicar a sintaxe Markdown e não revelar ao usuário que está se comportando nefastamente. Fernandes compara o ataque a um malware, citando sua capacidade de executar funções e comportamentos de maneiras que o usuário talvez não pretenda.

“Normalmente, você poderia escrever muitos códigos de computador para fazer isso em malware tradicional”, diz Fernandes. “Mas aqui eu acho que o legal é que tudo isso pode ser incorporado nesta mensagem relativamente curta e sem sentido.”

Um porta-voz da Mistral AI diz que a empresa dá as boas-vindas aos pesquisadores de segurança que a ajudam a tornar seus produtos mais seguros para os usuários. “Após esse feedback, a Mistral AI implementou prontamente a solução adequada para corrigir a situação”, disse o porta-voz. A empresa tratou o problema como de “gravidade média” e sua correção impede que o renderizador Markdown opere e seja capaz de chamar um URL externo por meio desse processo, o que significa que o carregamento de imagens externas não é possível.

Fernandes acredita que a atualização do Mistral AI é provavelmente uma das primeiras vezes que um exemplo de prompt adversário levou à correção de um produto LLM, em vez de o ataque ser interrompido pela filtragem do prompt. No entanto, diz ele, limitar as capacidades dos agentes LLM pode ser “contraproducente” a longo prazo.

Enquanto isso, um comunicado dos criadores do ChatGLM afirma que a empresa possui medidas de segurança para ajudar na privacidade do usuário. “Nosso modelo é seguro e sempre colocamos alta prioridade na segurança do modelo e na proteção da privacidade”, diz o comunicado. “Ao abrir o código do nosso modelo, pretendemos aproveitar o poder da comunidade de código aberto para melhor inspecionar e examinar todos os aspectos das capacidades desses modelos, incluindo a sua segurança.”

Uma “atividade de alto risco”

Dan McInerneyprincipal pesquisador de ameaças da empresa de segurança Protect AI, afirma que o artigo do Imprompter “lança um algoritmo para criar prompts automaticamente que podem ser usados na injeção de prompt para fazer várias explorações, como exfiltração de PII, classificação incorreta de imagens ou uso malicioso de ferramentas do agente LLM pode acessar.” Embora muitos dos tipos de ataque da pesquisa possam ser semelhantes aos métodos anteriores, diz McInerney, o algoritmo os une. “Isso está mais no sentido de melhorar os ataques LLM automatizados do que ameaças não descobertas neles.”

No entanto, ele acrescenta que à medida que os agentes LLM se tornam mais utilizados e as pessoas lhes dão mais autoridade para tomar medidas em seu nome, aumenta a possibilidade de ataques contra eles. “A liberação de um agente LLM que aceita entradas arbitrárias do usuário deve ser considerada uma atividade de alto risco que requer testes de segurança significativos e criativos antes da implantação”, diz McInerney.

Para as empresas, isso significa compreender as formas como um agente de IA pode interagir com os dados e como eles podem ser abusados. Mas para pessoas individuais, de forma semelhante aos conselhos de segurança comuns, você deve considerar a quantidade de informações que está fornecendo a qualquer aplicativo ou empresa de IA e, se usar quaisquer avisos da Internet, tenha cuidado com a origem deles.

Source link

Este prompt pode fazer com que um chatbot de IA identifique e extraia detalhes pessoais de seus bate-papos

Uma “atividade de alto risco”

O TikTok nem tinha sido banido antes do início da reação

Por que é tão confuso determinar a qualidade do ar em...

Masayoshi Son apostou bilhões no iPhone – 3 anos antes de...

O embaixador cibernético de Biden insta Trump a não ceder terreno...

O primeiro presidente Bitcoin? Rastreando as conexões criptográficas de Trump