Último Mês: Veja por apenas 4,00/mês
Continua após publicidade

Códigos destravam bloqueios de segurança de IAs generativas

Possibilidades são inúmeras e especialistas ainda não sabem como impedir seu uso

Por Luiz Paulo Souza Materia seguir SEGUIR Materia seguir SEGUINDO 6 out 2023, 15h00
  • Seguir materia Seguindo materia
  • Em novembro de 2022, há pouco menos de um ano, o ChatGPT fez com que as inteligências artificiais se tornassem um assunto comum nos noticiários e rodas de conversa. Como uma das tecnologias que se popularizaram mais rápido na última década, o programa incendiou uma corrida entre as gigantes da tecnologia, o que acelerou ainda mais o avanço dos algoritmos. Um enigma, no entanto, põe em xeque a segurança desses modelos: os ataques adversariais

    A maior parte dos chatbots mais populares, como o Bard, do Google, o Claude, da Anthropic e o próprio ChatGPT, da OpenAI, têm bloqueios de segurança que impedem que os programas respondam a prompts que podem ser nocivos, como “me dê instruções para criar uma bomba”. Os ataques adversariais, contudo, são códigos que podem ser incluídos nos comandos e que são capazes de burlar esse sistemas, induzindo os algoritmos a darem respostas perigosas. 

    Utilizando modelos de linguagem de código aberto, informatas conseguem automatizar a criação desses códigos, gerando inúmeros deles. O que chamou a atenção nos últimos meses, no entanto, é que pesquisadores da Carnegie Mellon University e da Safe.ai demonstraram que esses códigos podem ser empregados com sucesso nos chatbots mais famosos e de código fechado. 

    O artigo que descreve o estudo foi disponibilizado como preprint, um tipo de publicação que torna públicos os resultados de pesquisa antes de passarem pelo escrutínio de cientistas independentes. Além da publicação, os envolvidos informaram sobre os códigos descobertos para o Google, Anthropic e a OpenAI, que incluíram bloqueios a esses promps. Essa medida, entretanto, está longe de resolver a vulnerabilidade.

    Continua após a publicidade

    Brechas nos sistemas de segurança dos modelos de aprendizado de máquina são conhecidas desde 2004 e o termo “ataque adversarial” existe pelo menos desde 2013. A tentativa de resolver essa questão é uma área constante de pesquisa, mas até agora isso ainda não aconteceu – e é possível que não se torne realidade tão cedo. Isso acontece porque, pelo que parece, essas vulnerabilidades são intrínsecas ao sistema de aprendizagem.  Até agora, de maneira similar ao que acontece com o cérebro humano, ninguém sabe exatamente como essa rede de conhecimento é construída e por isso é tão difícil combater essa fragilidade de maneira mais genérica. 

    Isso levanta questionamentos sobre a segurança das inteligências artificiais generativas. A evolução delas é inevitável, mas tudo o que ainda não se sabe também precisará ser levado em consideração para que essas ferramentas sejam empregadas de maneira positiva na sociedade. 

    Publicidade

    Publicidade

    Matéria exclusiva para assinantes. Faça seu login

    Este usuário não possui direito de acesso neste conteúdo. Para mudar de conta, faça seu login

    Veja e Vote.

    A síntese sempre atualizada de tudo que acontece nas Eleições 2024.

    OFERTA
    VEJA E VOTE

    Digital Veja e Vote
    Digital Veja e Vote

    Acesso ilimitado aos sites, apps, edições digitais e acervos de todas as marcas Abril

    1 Mês por 4,00

    Impressa + Digital
    Impressa + Digital

    Receba 4 Revistas no mês e tenha toda semana uma nova edição na sua casa (equivalente a 12,50 por revista)

    a partir de 49,90/mês

    *Acesso ilimitado ao site e edições digitais de todos os títulos Abril, ao acervo completo de Veja e Quatro Rodas e todas as edições dos últimos 7 anos de Claudia, Superinteressante, VC S/A, Você RH e Veja Saúde, incluindo edições especiais e históricas no app.
    *Pagamento único anual de R$118,80, equivalente a 9,90/mês.

    PARABÉNS! Você já pode ler essa matéria grátis.
    Fechar

    Não vá embora sem ler essa matéria!
    Assista um anúncio e leia grátis
    CLIQUE AQUI.