AI criou sua própria linguagem secreta, afirma pesquisador
Pesquisadores que usam inteligência artificial (IA) de aprendizado de máquina geralmente não sabem exatamente como seus algoritmos estão resolvendo os problemas com os quais são encarregados.
Tomemos, por exemplo, a IA que pode identificar raça a partir de raios-X onde nenhum humano pode ver como, ou a IA do Facebook que começou a desenvolver sua própria linguagem. Juntar-se a eles pode ser o gerador de texto para imagem favorito de todos, DALLE-2.
O estudante de doutorado em Ciência da Computação Giannis Daras notou que o sistema DALLE-2, que cria imagens com base em um prompt de entrada de texto, retornaria palavras sem sentido como texto sob certas circunstâncias.
“Descobrimos que esse texto produzido não é aleatório, mas revela um vocabulário oculto que o modelo parece ter desenvolvido internamente. Por exemplo, quando alimentado com esse texto sem sentido, o modelo frequentemente produz aviões.”
Em uma ilustração postada no Twitter, Daras explica que, quando solicitado a legendar uma conversa entre dois agricultores, mostra-os conversando, mas os balões de fala são preenchidos com o que parece ser incompreensível.
A known limitation of DALLE-2 is that it struggles with text. For example, the prompt: "Two farmers talking about vegetables, with subtitles" gives an image that appears to have gibberish text on it.
However, the text is not as random as it initially appears… (2/n) pic.twitter.com/B3e5qVsTKu
— Giannis Daras (@giannis_daras) May 31, 2022
No entanto, Daras teve o pensamento de alimentar essas palavras sem sentido de volta ao sistema, para ver se a IA havia atribuído seus próprios significados a elas. Quando ele fez isso, descobriu que as palavras pareciam ter seu próprio significado para a IA: os agricultores estavam falando sobre vegetais e pássaros.
Se Daras estiver correto, ele acredita que isso teria implicações de segurança para o gerador de texto para imagem.
“O primeiro problema de segurança está relacionado ao uso desses avisos sem sentido como ataques de backdoor ou formas de contornar o filtro”, escreveu ele em seu artigo. “Atualmente, os sistemas de processamento de linguagem natural filtram prompts de texto que violam as regras de política e prompts sem sentido podem ser usados para contornar esses filtros.”
No entanto – embora outros algoritmos tenham demonstrado criar suas próprias linguagens – este artigo ainda não foi revisado por pares, e outros pesquisadores estão questionando as alegações de Darras.
4) @giannis_daras says "Vicootes" means “vegetables”.
Again, yes, "Vicootes" does give us some vegetable dishes. But:
– “vicootes, cartoon” gives some weird characters
– “vicootes, 3d render” gives objects
– “vicootes, painting” gives flowers and landscapes(8/15) pic.twitter.com/oq0KBI4zjh
— Benjamin Hilton (@benjamin_hilton) May 31, 2022
O analista de pesquisa Benjamin Hilton pediu ao gerador que mostrasse duas baleias conversando sobre comida, com legendas. Depois que os primeiros resultados não retornaram texto decifrável, sem sentido ou não, ele continuou até que o fez.
Além disso, adicionar outras frases como “3D render” a outras frases dá resultados diferentes, sugerindo que elas não significam consistentemente a mesma coisa.
Pode ser que a linguagem esteja mais na linha do ruído, pelo menos em alguns casos. Saberemos mais quando o artigo for revisado por pares, mas ainda pode haver algo acontecendo que não sabemos.