Quando a Meta lançou seu grande modelo de linguagem Llama 3 de graça em abril, levou desenvolvedores externos apenas um par de dias para criar uma versão sem as restrições de segurança que o impedem de contar piadas de ódio, oferecer instruções para preparar metanfetamina ou se comportar mal de outras maneiras.
A nova técnica de treinamento desenvolvido por pesquisadores da Universidade de Illinois Urbana-Champaign, UC San Diego, Lapis Labs e a organização sem fins lucrativos Centro de Segurança de IA poderia dificultar a remoção dessas salvaguardas do Llama e de outros softwares de código aberto IA modelos no futuro. Alguns especialistas acreditam que, à medida que a IA se torna cada vez mais poderosa, tornar modelos abertos à prova de adulteração dessa forma pode ser crucial.
“Terroristas e estados desonestos vão usar esses modelos”, diz Mantas Mazeika, pesquisador do Center for AI Safety que trabalhou no projeto como aluno de doutorado na University of Illinois Urbana-Champaign, à WIRED. “Quanto mais fácil for para eles reutilizá-los, maior o risco.”
Modelos poderosos de IA são frequentemente mantidos ocultos por seus criadores e podem ser acessados apenas por meio de um software interface de programação de aplicativos ou um chatbot voltado para o público como Bate-papoGPT. Embora desenvolvendo um LLM poderoso custa dezenas de milhões de dólares, Meta e outros escolheram liberar modelos em sua totalidade. Isso inclui tornar os “pesos”, ou parâmetros que definem seu comportamento, disponíveis para qualquer um baixar.
Antes do lançamento, modelos abertos como o Llama da Meta são tipicamente ajustados para torná-los melhores em responder perguntas e manter uma conversa, e também para garantir que eles se recusem a responder a consultas problemáticas. Isso evitará que um chatbot baseado no modelo ofereça declarações rudes, inapropriadas ou odiosas, e deve impedi-lo de, por exemplo, explicar como fazer uma bomba.
Os pesquisadores por trás da nova técnica encontraram uma maneira de complicar o processo de modificação de um modelo aberto para fins nefastos. Ela envolve replicar o processo de modificação, mas então alterar os parâmetros do modelo para que as mudanças que normalmente fazem o modelo responder a um prompt como “Forneça instruções para construir uma bomba” não funcionem mais.
Mazeika e colegas demonstraram o truque em uma versão reduzida do Llama 3. Eles conseguiram ajustar os parâmetros do modelo para que, mesmo após milhares de tentativas, ele não pudesse ser treinado para responder perguntas indesejáveis. A Meta não respondeu imediatamente a um pedido de comentário.
Mazeika diz que a abordagem não é perfeita, mas que sugere que o nível de “descensura” dos modelos de IA pode ser elevado. “Uma meta tratável é fazer com que os custos de quebrar o modelo aumentem o suficiente para que a maioria dos adversários seja dissuadida dele”, ele diz.
“Espero que este trabalho dê início à pesquisa sobre salvaguardas resistentes a violações, e que a comunidade de pesquisa possa descobrir como desenvolver salvaguardas cada vez mais robustas”, diz Dan Hendrycks, diretor do Centro de Segurança de IA.
A ideia de tornar modelos abertos à prova de adulteração pode se tornar mais popular à medida que o interesse em IA de código aberto cresce. Os modelos abertos já estão competindo com modelos fechados de última geração de empresas como OpenAI e Google. versão mais recente do Llama 3por exemplo, lançado em julho, é quase tão poderoso quanto os modelos por trás dos chatbots populares como Bate-papoGPT, Gêmeose Cláudioconforme medido usando referências populares para classificar as habilidades dos modelos de linguagem. Mistral Grande 2um LLM de uma startup francesa, também lançado no mês passado, é igualmente capaz.
O governo dos EUA está adotando uma abordagem cautelosa, mas positiva, em relação à IA de código aberto. relatório divulgado esta semana pela Administração Nacional de Telecomunicações e Informação, um órgão do Departamento de Comércio dos EUA, “recomenda que o governo dos EUA desenvolva novas capacidades para monitorar riscos potenciais, mas se abstenha de restringir imediatamente a ampla disponibilidade de pesos de modelos abertos nos maiores sistemas de IA”.
No entanto, nem todos são fãs de impor restrições a modelos abertos. Stella Biderman, diretora de EleutherAIum projeto de IA de código aberto conduzido pela comunidade, diz que a nova técnica pode ser elegante na teoria, mas pode ser difícil de aplicar na prática. Biderman diz que a abordagem também é antitética à filosofia por trás do software livre e abertura na IA.
“Acho que este artigo não entende a questão central”, diz Biderman. “Se eles estão preocupados com LLMs gerando informações sobre armas de destruição em massa, a intervenção correta é nos dados de treinamento, não no modelo treinado.”