Conheça os deepfakes, os vídeos feitos para nos enganar

Os Deepfakes são vídeos falsos ou gravações de áudio que parecem e soam como algo real. Se antes a tecnologia era usada por estúdios de efeitos especiais de Hollywood e agências de inteligência produzindo propaganda, como a CIA, hoje qualquer um pode baixar softwares e criar falsos vídeos convincentes.

Até agora, os deepfakes foram limitados a amadores colocando rostos de celebridades em corpos de estrelas pornográficas e fazendo políticos dizerem coisas engraçadas. No entanto, seria fácil criar um alerta de emergência de que um ataque fosse iminente, ou destruir o casamento de alguém com um vídeo falso de sexo, ou acabar com uma eleição apertada, colocando um vídeo falso ou gravação de áudio de um dos candidatos.

Isso deixa muita gente nervosa, tanto que Marco Rubio, o senador republicano da Flórida e candidato à presidência em 2016, os chamou de o equivalente moderno das armas nucleares. “Nos velhos tempos”, disse ele a uma audiência em Washington há algumas semanas, “se você quisesse ameaçar os Estados Unidos, precisaria de 10 porta-aviões, armas nucleares e mísseis de longo alcance. Hoje, você só precisa acessar ao nosso sistema de internet, ao nosso sistema bancário, à nossa rede elétrica e infraestrutura, e cada vez mais, tudo o que você precisa é a capacidade de produzir um vídeo falso muito realista que possa minar nossas eleições, que poderia lançar nosso país em uma tremenda crise interna e enfraquecer nós profundamente”.

Mas nem todos concordam com a afirmativa. “Tão perigoso quanto as bombas nucleares? Acho que não. Eu acho que certamente as demonstrações que vimos são perturbadoras. Eu acho que elas são preocupantes e levantam muitas questões, mas eu sou cético em mudar o jogo de uma forma que muitas pessoas estão sugerindo”, disse Tim Hwang, diretor da Iniciativa de Ética e Governança da AI no Centro Berkman-Klein e no MIT Media Lab.

Como deepfakes funcionam

Os seres humanos buscam informações que suportam o que querem acreditar e ignoram o resto. Hackear essa tendência humana dá muito poder a pessoas mal-intencionadas. O mesmo acontece com as fake news, que criam mentiras deliberadas que se espalham sob o disfarce da verdade. Quando os verificadores começam a gritar em protesto, é tarde demais.

Deepfakes exploram essa tendência humana usando redes antagônicas geradoras (GANs, na sigla em inglês), nas quais dois modelos de aprendizado de máquina (ML) discutem. Um modelo ML treina em um conjunto de dados e, em seguida, cria falsificações de vídeo, enquanto o outro tenta detectar as falsificações. O falsificador cria falsificações até que o outro modelo ML não possa detectar a falsificação. Quanto maior o conjunto de dados de treinamento, mais fácil será para o falsificador criar uma falsa credibilidade. É por isso que os vídeos de ex-presidentes e celebridades de Hollywood têm sido frequentemente usados nesta primeira geração de deepfakes — há uma tonelada de imagens de vídeo publicamente disponíveis para treinar o falsário.

Acontece que os vídeos de baixa tecnologia podem ser uma forma tão eficaz de desinformação quanto os vídeos benfeitos, como deixa clara a controvérsia em torno do vídeo adulterado do confronto do presidente Trump com o repórter da CNN, Jim Acosta, em uma coletiva de imprensa em novembro. O vídeo mostra claramente uma estagiária da Casa Branca tentando pegar o microfone de Acosta, mas a edição subsequente fez parecer que o repórter da CNN atacou a estagiária.

O incidente ressalta os receios de que o vídeo possa ser facilmente manipulado para desacreditar um alvo da escolha do atacante — um repórter, um político, um negócio, uma marca. Ao contrário dos chamados “deepfakes”, no entanto, onde o aprendizado de máquina coloca palavras na boca das pessoas, o vídeo manipulado de baixa tecnologia aproxima-se o suficiente da realidade que desfaz a linha entre o verdadeiro e o falso.

FUD (sigla em inglês para medo, incerteza e dúvida) é familiar para as pessoas que trabalham com segurança, e o uso de FUD como uma arma em escala pode prejudicar gravemente uma empresa, bem como um indivíduo. A defesa contra ataques FUD é muito difícil. Uma vez semeada a dúvida de que Acosta lidou com uma estagiária da Casa Branca, uma parcela não trivial de espectadores jamais esquecerá esse detalhe e suspeitará que possa ser verdade.

GANs têm muitos outros usos além de fazer vídeos de sexo falso e colocar palavras na boca dos políticos. GANs são um grande avanço no que é conhecido como “aprendizado não supervisionado” — quando os modelos ML se ensinam. Isso é uma grande promessa para melhorar a capacidade dos veículos autônomos de reconhecer pedestres e ciclistas e tornar os assistentes digitais ativados por voz como Alexa e Siri mais conversacionais. Alguns anunciam GANs como o surgimento da “imaginação da IA”.

Usuários comuns podem baixar o FakeApp e começar a criar seus próprios deepfakes imediatamente. Usar o aplicativo não é super fácil, mas um usuário moderadamente nerd não deve ter problemas.

Dito isso, há tantas outras formas de desinformação efetiva que o foco em jogar “Whack-a-Mole” com deepfakes é a estratégia errada, diz Hwang. “Acho que, mesmo no presente, existem muitas formas baratas que não exigem aprendizado profundo ou aprendizado de máquina para enganar e moldar a opinião pública.”

Por exemplo, fazer um vídeo de pessoas batendo em alguém na rua e depois criar uma falsa narrativa em torno desse vídeo — talvez alegando que os atacantes são imigrantes para os EUA, por exemplo — não requer um algoritmo ML extravagante, apenas uma narrativa falsa credível e um vídeo que se encaixa.

Como detectar deepfakes

Detectar deepfakes é difícil. Deepfakes amadores podem, claro, ser detectados a olho nu. Outros sinais que as máquinas podem detectar incluem falta de piscar de olhos ou sombras que parecem erradas. As GANs que geram deepfakes estão ficando melhores, e em breve teremos que confiar na análise forense digital para detectar deepfakes — se é que podemos, de fato, detectá-las.

Esse é um problema tão difícil que a DARPA está investindo dinheiro em pesquisadores para encontrar maneiras melhores de autenticar o vídeo. No entanto, como as próprias GANs podem ser treinadas para aprender a contornar essa perícia, não está claro que esta é uma batalha que podemos vencer.

“Teoricamente, se você desse a uma GAN todas as técnicas que conhecemos para detectá-la, ela poderia passar por todas essas técnicas. Não sabemos se há um limite. Não está claro”, frisa David Gunning, gerente do programa DARPA encarregado do projeto.

Se não formos capazes de detectar vídeos falsos, em breve poderemos ser forçados a desconfiar de tudo que vemos e ouvimos, alertam os críticos. A internet agora permeia todos os aspectos de nossas vidas, e a incapacidade de confiar em qualquer coisa que vemos pode levar a um “fim da verdade”. Isso ameaça não apenas a fé em nosso sistema político, mas, a longo prazo, nossa fé no que é realidade objetiva compartilhada. Se não podemos concordar com o que é real e o que não é, como poderemos possivelmente debater questões políticas?

Hwang acha que isso é exagero, no entanto. “Esta é uma das minhas maiores críticas”, diz ele. “Eu não nos vejo cruzando algum limiar místico, após o qual não vamos saber o que é real e o que não é.”