Com uso de deepfakes, memes entram em uma nova era

Sábado, 22 de junho. O presidente Jair Bolsonaro (PSL) dá uma entrevista na saída do centro médico do Palácio do Planalto e comenta sua relação com o Congresso. “Pô, querem me deixar como rainha da Inglaterra? Este é o caminho certo?”, indagou.

Como é de praxe nas redes sociais, a frase rapidamente virou meme, com diversas montagens de Bolsonaro como rainha da Inglaterra.

O que chamou atenção no episódio foi este vídeo.

Enquanto as montagens usuais de internet utilizam uma imagem e um software de edição de fotos (principalmente o Photoshop), dessa vez foi uma deepfake que viralizou pouco tempo após a notícia.

Deepfakes são manipulações de vídeos que utilizam inteligência artificial e conseguem trocar rosto de pessoas de forma praticamente imperceptível.

O autor do vídeo foi o editor de mídias Bruno Sartori, 30, de Unaí (MG).

Ele trabalha com edição de vídeos há mais de 15 anos e vem estudando as deepfakes há um ano.

“Sempre gostei de fazer paródias, influenciado pelo cartunista Maurício Ricardo.  Tenho vídeos antigos em que já trocava os rostos das pessoas. Com as deepfakes, esse resultado está muito mais real”, diz.

A tecnologia vem evoluindo rapidamente. “Antes, eu levava 30 dias para conseguir realizar o processo de machine learning. Agora, em três, quatro dias, isso já é possível”.

Como a máquina já estava treinada para o rosto de Bolsonaro, foi possível, em uma hora, produzir a deepfake.

Um de seus primeiros vídeos a viralizar foi o Bolsonaro de Chapolin Colorado confundindo o próprio slogan.

Por enquanto, o usuário caseiro ainda não consegue produzir uma deepfake. É preciso uma placa muito potente e um estudo aprofundado de linguagens de programação, como python.

“Encontrei um espaço que não era ocupado por ninguém”, afirma Sartori.

As deepfakes podem ser danosas e agravar o quadro de mentiras, boatos e desinformações que circulam nas redes.

Sartori vê, no entanto, o outro lado da moeda.

“Toda ferramenta pode ser usada para bem e para o mal. As que existem e as que vão ser inventadas. Quando surgiram as deepfakes, eu vi que poderia ser usado para algo bom, como o humor”.

Enquanto os memes começam a ganhar uma nova cara, leia entrevista com Bruno Sartori.

Qual foi seu primeiro contato com deepfake?
Eu me lembro de ver um vídeo no YouTube, por acaso, sobre essa tecnologia [de deepfake], e fui pesquisar a respeito. Isso está fazendo um ano. Os resultados então eram muito ruinzinhos frente ao que temos hoje, mesmo assim já eram impressionantes. Como eu sempre gostei de fazer paródias, eu acabei imaginando que entender essa tecnologia me ajudaria muito em meus vídeos. Já pensou colocar qualquer ator para cantar uma música que eu escrevi? Isso para mim era fantástico.

O que exatamente são deepfakes?
Deepfakes são vídeos falsos, manipulados por bibliotecas de código aberto para aprendizado de máquina. Esses códigos trabalham com scripts, geralmente em Python [linguagem de programação]. O processo basicamente se resume em codificar a imagem A e depois decodificá-la em imagem B. Como é uma inteligência artificial, quanto mais ela vai aprendendo mais detalhes ela vai te dar no produto final. Depois de analisar outros rostos, ela vai emular o que sabe, como aquele rosto se comportaria naquela posição.

Existem outros métodos de manipulação de vídeo?
Tem outros métodos que copiam todo o vídeo, mas eu não consegui fazer rodar. Acredito que precise de placas ainda mais potentes, mas eu já estou estudando para conseguir entender. São deepfakes que copiam todos os movimentos, enquanto os atuais copiam só os rostos. Quando a gente chegar nesse nível a coisa vai ficar bem complicada. Existem muitas variações na forma de obter uma deepfake. Há também aplicativos que não fazem com muita qualidade, como o FakeApp e FaceSwap.

Quando começou esse boom?
Há um ano, pouca gente conhecia. Começou em fóruns da internet com o pessoal usando para colocar rosto de atriz famosa em rosto pornográfico. Eu fiquei sem entender como uma tecnologia que podia ter uma destinação tão fantástica estava sendo usado para pornografia. Eu vi que tinha um potencial maior.

Como você aprendeu a fazer essas manipulações?
Como eu entendo de edição de vídeo, e não entendo disso, busco tutoriais para aprender a alterar o código e vou testando. O que é bom para mim pode não ser bom para outros. As variações vão ocorrer assim, de acordo com cada método que cada profissional utiliza. 

A deepfake já está acessível ao grande público?
Já existem deepfakes muito boas, mas esses resultados não são feitos por usuários comuns. Primeiro porque a maioria das pessoas estão no celular, e é preciso um computador com uma placa potente para essa edição. Se o usuário tem um placa menos poderosa, vai levar meses para ter um resultado não tão bom. Com a minha placa leva dias. Por enquanto o usuário caseiro não consegue fazer com a qualidade que não dê para perceber que é falso. Até o meu eu fico “ainda faltou isso, aquilo”

E quando as deepfakes atingirão outro nível?
Isso vai depender da evolução da tecnologia. Ela está evoluindo muito rapidamente. Há um ano eu precisaria de um mês em um computador potente para fazer todo o processo de machine learning. Quanto mais tempo ele processa, mais nítido vai ficando. O processamento começa com a imagem bem embaçada e vai pegando nitidez de acordo com o tempo que ele vai treinando esses rostos. Há um ano eu levava 30 dias para ter um rosto. Hoje eu levo de 3 a 4 dias por causa da evolução da tecnologia. Por enquanto, essas deepfakes são feitas por poucas pessoas. E creio que isso não vai ser feito no celular pelo menos nos próximos 4 ou 5 anos. 

As deepfakes podem ser danosas. Como vê isso?
Toda ferramenta pode ser usada para bem e para o mal. As que existem e as que vão ser inventadas. Tem muito potencial de dar dano à honra das pessoas, mas vai de cada um. Eu até já fui procurado para fazer esse tipo de trabalho, mas obviamente não faço, primeiro porque é antiético, segundo porque é facinho de achar qualquer pessoa que fizer um vídeo que repercutir muito. É só a polícia querer ir atrás.

Mas as deepfakes não podem agravar o cenário que temos hoje?
As pessoas acreditam no que elas querem acreditar, independente de ser real ou não. Pode ser vídeo, pode ser foto. A gente tem Photoshop há anos. Tem algumas fotos que são nitidamente montagens, mas as pessoas continuam a querer acreditar no que estão vendo. Olha a mamadeira de piroca. Quem em sã consciência acreditaria numa besteira dessa? Então com ou sem os deepfakes, o caminho vai ser esse de fake news em cima de fake news.

Mas estamos falando de algo novo.
As deepfakes ficarão mais aprimoradas e causarão estranheza. Mas o Photoshop já fazia isso e as pessoas passaram a entender como ele funcionava o Photoshop, como eram as manipulações, e não se impressionam mais tanto assim com edições de fotos. As pessoas vão entender a tecnologia do deepfake e perceber que aquilo não é verdadeiro. Eu acho que o pessoal vai usar deepfakes mais para memes como eu estou usando do que para criar um vídeo falso, que vai motivar as pessoas a espalhar e criar notícia falsa. Claro, vai acontecer, algumas pessoas vão fazer esse uso ruim, mas logo vão falar “ah é deepfake”,  assim como a gente fala “ah é Photoshop”.

Você acha preciso alertar que é um vídeo deepfake?
Eu acho que depende do caso. A gente está vendo o presidente na cara de uma rainha, não é possível que alguém vai acreditar que é real. Eu não acredito que uma pessoa vai ver a cara do Bolsonaro numa rainha e vai achar que é real. Eu não consigo acreditar nesse nível de falta de noção das pessoas. Eu coloco a hashtag #deepfake no título para dar uma ênfase que é uma obra digital, que é um processamento de dados que transformou aquilo. 

Qual deepfake que produziu você gosta mais?
Eu fiz um vídeo em que peguei uma apresentação do Marcelo Adnet na vila militar do Chaves e coloquei o rosto do Bolsonaro. Existem ângulos dificílimos de copiar, porque às vezes o nariz é maior ou menor, aparece o rosto original por trás ou a iluminação atrapalha bastante. Foi um dos trabalhos mais difíceis, mas eu alcancei um resultado que surpreendeu até a mim. Não é porque eu que fiz, mas eu acho que é a deepfake com esse tipo de tecnologia mais real da internet. 

Nesse caso de Bolsonaro da rainha da Inglaterra o que surpreendeu foi a agilidade com que você colocou no ar [poucas horas depois de a notícia ter saído].
A deepfake varia muito a questão de produção. Quando eu tenho um rosto treinado, como o do Bolsonaro, eu só exporto o vídeo e coloco lá para treinar. Como já tem o rosto anterior, ele processa mais rápido e consegue reproduzir o movimento. Em uma hora ficou pronto. O rosto dele eu treinei com uma tecnologia intermediária e levei uns 14, 15 dias. Foi o mesmo que usei no Adnet. Hoje já estou fazendo um treinamento com um outro código, imagino que vai ficar melhor a luz, o rosto, a nitidez. Se eu não tiver o rosto, eu preciso de uns quatro dias para treinar, e depois transfiro para imagem. Como eu disse, antes eram 30 dias, a tecnologia está evoluindo. 

E além da parte de códigos, existe também um trabalho técnico?
Eu recebo do processamento as imagens brutas, com defeitos, com sobreposições onde não deveria, com trechos do vídeo original. Eu preciso corrigir cor, nitidez, embaçamento. A pós-produção é que faz a mágica para que a deepfake fique imperceptível. 

E como está lidando com essa repercussão das deepfakes?
Eu comecei com trabalhos só voltados para a minha cidade. Sempre eu gostei de fazer uma coisa local, nunca pensei no nacional.  Aqui em Unaí todo mundo conhecia os meus vídeos, meus canais, minha pessoa. Você sai na rua e a pessoa comenta com você se gostou ou não gostou. A questão nacional só tinha acontecido algumas vezes anteriores, com vídeos que bombaram no Facebook. Mas foi coisa rápida. Agora parece que pintou um nicho, apareceu um espaço que não era ocupado por ninguém. 

E quais têm sido as reações?
Os comentários que mais vejo são: “fantástico, merece um Oscar, genial”. De quarta pra domingo sete mil pessoas me seguiram no Twitter. Eu posto um vídeo e viraliza muito rápido. Eu praticamente não vi crítica. Devo ter recebido uns 20 mil comentários e se três ou quatro pessoas reclamaram foi muito. Nem mesmo os bolsonaristas. Sei que é questão de tempo para aparecer, para bots apontarem para mim. Mas eu sou super tranquilo em relação à crítica. A repercussão é só uma coisa momentânea, logo as pessoas se acostumam [com deepfakes] e vai passar, outras pessoas vão começar a fazer, vai saturar, e se eu não buscar um mercado diferente, se eu não buscar me aprimorar, as pessoas vão esquecer. 

Teme ameaças ou perseguição?
Eu sou muito tranquilo com internet, não tenho medo, até porque sou jornalista, já fui ameaçado, já fui preso por político, por abuso de autoridade, eu demonstrei que não estava errado. Se Bolsonaro, se pessoal dele vir atacar, é natural, eu só vou ignorar. Se acontecer é pior para os poderosos, fica feio, eles vão piorar a situação. Imagina se o Bolsonaro abre um processo contra um jornalista por fazer umas caricaturas de forma diferente, porque para mim isso nada mais é que uma caricatura de um jornal. [A deepfake] Não é só uma zoeira, um meme, tem toda uma crítica social e um contexto em cima de cada vídeo. Se você olhar o vídeo é relacionado ao tempo em que ele está sendo publicado, aos acontecimentos, eu não faço um meme por fazer, não está ali por acaso, teve um contexto. Se você observar a rainha está usando rosa, que a Damares disse ser cor de menina, eu fiz questão de achar um vídeo com ela de rosa para pôr a cara dele. 

Quais mais usos você prevê para essas tecnologias?
A gente vai ter no futuro a possibilidade de refazer filmes em que os atores não vão só falar em português, eles vão gesticular em português. Tem tecnologia já para isso, eu estou estudando. Além disso vai ser possível copiar a voz desse ator. Ou seja, ele não vai só falar e gesticular em português, mas a voz vai ser a original do ator, com a mesma entonação, o mesmo ritmo de respiração, a mesma autenticidade. Você vai poder trazer Raul Seixas à vida para ele gravar uma música que não conseguiu gravar, dá para fazer um seriado do Chaves, com o Chaves de verdade, e a voz do dublador que morreu. As possibilidades são infinitas, teremos videochamada em que você vai falar em português e a pessoa vai ouvir no idioma dela. Como eu prevejo coisas grandiosas, eu sou esperançoso, eu não penso no lado ruim, eu não tenho essa maldade pra conseguir raciocinar e imaginar o que de ruim pode estar vindo. Também será possível recuperar imagens ruins ou velhas e transformar em imagens de alta resolução. 

EVOLUÇÃO

Sartori mostrou exemplo da mesma cena feita com duas tecnologias diferentes. De um ano atrás:

E com a tecnologia atual:

Saiba mais sobre deepfakes.