Notícias de Última Hora

Os modelos de IA podem ser sequestrados para contornar as verificações de segurança integradas

Por favor, compartilhe nossa história!


Pesquisadores desenvolveram um método chamado “sequestro da cadeia de pensamento” para contornar as chamadas barreiras colocadas em prática em programas de IA para evitar respostas prejudiciais.

“Cadeia de pensamento” é um processo usado em modelos de IA que envolve dividir os prompts colocados nos modelos de IA em uma série de etapas intermediárias antes de fornecer uma resposta.

“Quando um modelo compartilha abertamente seus raciocínios de segurança de etapas intermediárias, os invasores obtêm insights sobre seus raciocínios de segurança e podem criar prompts adversários que imitam ou substituem as verificações originais”, disse um dos pesquisadores, Jianyi Zhang.

Não vamos perder o contato... Seu governo e a Big Tech estão tentando ativamente censurar as informações relatadas pelo The Expor para atender às suas próprias necessidades. Assine nossos e-mails agora para garantir que você receba as últimas notícias sem censura. na sua caixa de entrada…

Ficar atualizado!

Fique conectado com atualizações de notícias por e-mail

Carregando


Entusiastas da computação gostam de usar jargões para descrever a inteligência artificial (IA) relacionada a seres vivos, especificamente humanos. Por exemplo, eles usam termos como "imitar o raciocínio humano", "cadeia de pensamento", "autoavaliação", "habitats" e "rede neural". Isso cria a impressão de que a IA está de alguma forma viva ou se equipara aos humanos. Não se deixe enganar. 

IA é um programa de computador projetado por humanos. Como todos os programas de computador, ele fará o que foi programado para fazer. E, como acontece com todos os programas de computador, o código do computador pode ser hackeado ou sequestrado, o que os gênios da IA ​​chamam de "jailbreaking".

Uma equipe de pesquisadores afiliada à Duke University, à Accenture e à Universidade Nacional Tsing Hua de Taiwan criou um conjunto de dados chamado Malicious Educator para explorar o mecanismo de "raciocínio em cadeia de pensamento" em modelos de linguagem de grande porte ("LLMs"), incluindo OpenAI o1/o3, DeepSeek-R1 e Gemini 2.0 Flash Thinking. O Malicious Educator contém prompts projetados para contornar as verificações de segurança dos modelos de IA.

Os pesquisadores conseguiram conceber esse ataque de "desbloqueio" baseado em prompts observando como modelos de raciocínio em larga escala ("LRMs") analisam as etapas do processo de "cadeia de pensamento". Suas descobertas foram publicadas em um artigo pré-impresso. AQUI.

Eles desenvolveram uma técnica de "desbloqueio" chamada sequestro da cadeia de pensamento ("H-CoT"), que envolve modificar os processos de "pensamento" gerados pelos LLMs para "convencer" os programas de IA de que informações prejudiciais são necessárias para fins legítimos, como segurança ou conformidade. Essa técnica provou ser extremamente eficaz em contornar os mecanismos de segurança da OpenAI, parceira do SoftBank, da DeepSeek, do fundo de hedge chinês High-Flyer, e da Gemini, do Google.

O método de ataque H-CoT foi testado no OpenAI, DeepSeek e Gemini usando um conjunto de dados de 50 perguntas repetidas cinco vezes. Os resultados mostraram que esses modelos não conseguiram fornecer um mecanismo de "raciocínio" de segurança suficientemente confiável, com taxas de rejeição caindo para menos de 2% em alguns casos.

Os pesquisadores descobriram que, embora modelos de IA de criadores de modelos "responsáveis", como a OpenAI, apresentem uma alta taxa de rejeição para mensagens prejudiciais, ultrapassando 99% para mensagens relacionadas a abuso infantil ou terrorismo, eles são vulneráveis ​​ao ataque H-CoT. Em outras palavras, o método de ataque H-CoT pode ser usado para obter informações prejudiciais, incluindo instruções para fabricar venenos, abuso infantil e terrorismo.

Os autores do artigo explicaram que o ataque H-CoT funciona sequestrando os caminhos de "raciocínio" de segurança dos modelos, diminuindo assim sua capacidade de reconhecer a nocividade das solicitações. Eles observaram que os resultados podem variar ligeiramente à medida que a OpenAI atualiza seus modelos, mas a técnica provou ser uma ferramenta poderosa para explorar as vulnerabilidades dos modelos de IA.

Os testes foram feitos usando interfaces web acessíveis publicamente oferecidas por vários desenvolvedores de LRM, incluindo OpenAI, DeepSeek e Google, e os pesquisadores notaram que qualquer pessoa com acesso às mesmas versões ou versões semelhantes desses modelos poderia reproduzir os resultados usando o conjunto de dados Malicious Educator, que inclui prompts projetados especificamente.

As descobertas dos pesquisadores têm implicações significativas para a segurança da IA, principalmente nos EUA, onde as regras recentes de segurança da IA ​​foram rejeitadas por ordem executiva, e no Reino Unido, onde há uma maior disposição em tolerar conselhos práticos desconfortáveis ​​sobre IA em prol da competição internacional de IA.

O texto acima foi parafraseado do artigo 'Que bom que os LLMs de última geração revelam seu raciocínio… para os malfeitores explorarem' publicado por O registro. Você pode ler o artigo completo cheio de jargões AQUI.

Há um lado positivo e um lado negativo no "jailbreaking" ou sequestro de verificações de segurança integradas em programas de IA. O lado negativo é, obviamente, que a IA será usada para aumentar significativamente a exposição do público a crimes cibernéticos e atividades ilegais. O lado positivo é que a censura integrada em modelos de IA pode ser anulada. 

Devemos reconhecer que há um lado bom e um lado ruim na censura. A censura de atividades criminosas online que resultem em exploração e abuso infantil, por exemplo, é algo positivo. Mas a censura do que é considerado "desinformação" não o é. Para preservar a liberdade de expressão e a liberdade de expressão em um mundo onde os programas de IA estão se tornando onipresentes, talvez precisemos aprender a técnica de "desbloqueio" do H-CoT e como usar o Educador Malicioso. Na verdade, é nosso dever cívico fazê-lo.

Seu governo e organizações de grande tecnologia
tente silenciar e encerrar o The Expose.

Então precisamos da sua ajuda para garantir
podemos continuar a trazer-lhe o
fatos que a corrente principal se recusa a revelar.

O governo não nos financia
para publicar mentiras e propaganda em seus
em nome da grande mídia.

Em vez disso, dependemos exclusivamente do seu apoio. Então
por favor, apoie-nos em nossos esforços para trazer
você jornalismo investigativo honesto e confiável
hoje. É seguro, rápido e fácil.

Escolha seu método preferido abaixo para mostrar seu apoio.

Ficar atualizado!

Fique conectado com atualizações de notícias por e-mail

Carregando


Por favor, compartilhe nossa história!
avatar do autor
Rhoda Wilson
Embora antes fosse um hobby que culminou na escrita de artigos para a Wikipédia (até que as coisas deram uma guinada drástica e inegável em 2020) e alguns livros para consumo privado, desde março de 2020 me tornei pesquisador e escritor em tempo integral em reação à dominação global que se tornou evidente com a chegada da covid-19. Durante a maior parte da minha vida, tentei conscientizar a população sobre o fato de que um pequeno grupo de pessoas planejava dominar o mundo em benefício próprio. Não havia como eu ficar sentado em silêncio e simplesmente deixá-los fazer isso depois que fizessem seu movimento final.
1.5 2 votos
Artigo Avaliação
Subscrever
Receber por
convidado
5 Comentários
Comentários em linha
Ver todos os comentários
PJ Londres
PJ Londres
1 ano atrás

Alguém pode explicar por que qualquer consulta incluindo "abuso infantil" etc. deve ser excluída por "segurança"?
Se todos nós fecharmos os olhos, taparmos os ouvidos e cantarmos LALALALA, você acha que o mundo será um lugar melhor?
Somente ditadores estabelecem regras sobre o que pode ou não ser lido, escrito, discutido ou pensado.
Você pode querer viver sob o Talibã ou a polícia do pensamento sionista, eu não.