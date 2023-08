Inteligências artificiais (IAs) que conseguem emular vozes de seres humanos já são uma realidade. Muito diferente das falas robóticas das assistentes virtuais – como a Siri , Alexa ou Cortana –, essa nova tecnologia consegue reproduzir padrões de fala reais, dando entonação e trazendo até mesmo uma carga emocional ao discurso. Apesar de representar um grande avanço tecnológico — que pode, inclusive, ajudar na inclusão de pessoas com deficiência —, esse recurso também está relacionado a muitas polêmicas, como problemas com direitos autorais, a possibilidade de perda de empregos de dubladores e a aplicação de golpes . A seguir, descubra como essa tecnologia funciona, seus possíveis usos e quais são seus riscos.

Saiba tudo sobre as inteligências artificiais que clonam a sua voz — Foto: Creative Commons/Flickr/Saad Faruque

O que são e como funcionam as IAs que clonam voz?

Assim como os já populares chatbots, como o Bard e o ChatGPT, as inteligências artificiais que clonam a voz usam técnicas de aprendizagem profunda (do inglês Deep Learning) para estudar o padrão de fala humana e conseguir replicá-los. É uma enorme evolução das vozes sintéticas já conhecidas, como das assistentes virtuais do Google ou da Apple, que também conseguem transformar textos em fala — mas têm vozes são robóticas e sem qualquer entonação ou emoção.

A nova tecnologia combina as estratégias de aprendizado de máquina (do inglês Machine Learning) com uma rede neural artificial, método usado para treinar os computadores a processarem os dados da forma como o cérebro humano faria. Aliado a isso, os robôs ainda são alimentados com uma imensa quantidade de dados, como diferentes tipos de padrões de fala, características vocais, idiomas e sotaques distintos. Todas essas informações são processadas para criar um sistema chamado “síntese de fala”. Assim, essas IAs conseguem simular, de forma bastante realista, a fala humana, dando entonação ao texto e copiando emoções.

Alguns programas do gênero ainda permitem “clonar” a voz de qualquer ser humano de forma simples, bastando fazer o upload de um áudio curto para que o robô reproduza qualquer texto com a voz da pessoa. A Vall-E, inteligência artificial da Microsoft, por exemplo, consegue imitar a fala de alguém a partir de um áudio de apenas três segundos. A ferramenta foi alimentada com mais de 60 mil horas de fala humana e tem a capacidade de transformar texto em fala, simulando os padrões de fala e preservando os sons ambientes do áudio original. Apesar de serem baseados em amostras muito curtas, os resultados são bastante convincentes.

A LOVO é outra plataforma capaz de transformar texto em fala que entrega um resultado natural, sem parecer ter sido gerado por uma máquina. Essa inteligência artificial promete dar ao texto uma carga emocional, além de permitir que o usuário faça edições no áudio, mudando a velocidade, os tempos de pausa e destacando os pontos de ênfase da fala. Apesar de ter mais de 200 vozes semelhantes a de humanos em seu banco de dados, a LOVO também permite que o usuário crie conteúdos mais personalizados clonando a própria voz. No entanto, ao contrário da Vall-E, a LOVO precisa que o usuário leia um roteiro específico por 15 minutos para conseguir fazer a “clonagem”.

Já existem softwares capazes de clonar vozes de quaisquer pessoas apenas com uma amostra de áudio — Foto: Mariana Saguias/TechTudo

Quais são os possíveis usos das IAs que clonam voz?

Com a popularização das inteligências artificiais de síntese de voz, é inevitável pensar nas inúmeras possibilidades que esses recursos podem trazer para o dia a dia. A primeira diz respeito à acessibilidade: pessoas que perderam a capacidade de fala poderão utilizar a IA para se comunicar, transformando um texto escrito em sua própria voz. Da mesma forma, quem tem deficiência visual poderá usar essa ferramenta para ouvir textos ditados por vozes personalizadas e naturais.

Essa tecnologia também poderá ser usada para “conversar” com parentes que já morreram. Com uma pequena amostra da fala da pessoa, é viável reproduzir diálogos a partir de textos e, assim, eternizar essa parte do ente querido. De forma semelhante, também será possível “reviver” artistas. Na Internet já existem alguns exemplos da inteligência artificial sendo utilizada para "ressuscitar" artistas.

Nessa mesma linha, já é fácil encontrar exemplos práticos do uso do recurso de clonagem de voz espalhados pelas redes sociais. Como, por exemplo, a cantora Rihanna fazendo cover da música “Cut it Off” da Beyoncé ou a Ariana Grande cantando “Envolver” da Anitta. No entanto, nestes casos, existe uma discussão sobre os direitos autorais das músicas e também sobre o uso da voz de uma pessoa pública. Como não existem leis específicas para essas produções, o debate ainda gera muita polêmica, e tudo indica que esse tipo de procedimento precisará ser regulamentado por especialistas muito em breve.

Pesquisando na Internet, é fácil encontrar "covers" fake de artistas criados com IA — Foto: Reprodução/YouTube (@BrazilPop)

Além disso, um dos usos mais controversos das inteligências artificiais que clonam a voz é a possibilidade de dublar um filme em diferentes línguas utilizando a performance do ator original ou, até mesmo, fazer animações com vozes totalmente eletrônicas. Essa alternativa, que vêm animando estúdios de todo o mundo, tem sido uma grande preocupação para os dubladores profissionais e gerou incertezas sobre os impactos que essa tecnologia pode causar na indústria audiovisual.

Quais são os riscos das IAs que clonam voz?

As IAs que conseguem realizar a síntese de fala podem trazer muitos benefícios para a humanidade, mas essa tecnologia também apresenta alguns riscos que precisam ser apontados. O primeiro é que essa ferramenta ser usada para disseminar desinformação, já que ela pode fazer uma pessoa pública, como um político ou um cientista, "reproduzir" notícias falsas e outros discursos alarmistas.

Além disso, essa tecnologia já está servindo para que criminosos apliquem golpes. O já conhecido "golpe do falso sequestro" ganhou um toque mais realista com as inteligências artificiais que clonam a voz. Em vez de os criminosos simularem a voz da suposta vítima, eles precisam apenas reproduzir a fala gerada pela IA, que conseguirá imitar a emoção da pessoa em uma situação de estresse. Para isso, basta que os criminosos peguem uma amostra vocal da pessoa, seja por meio das redes sociais, do YouTube ou de uma mensagem no WhatsApp.

Como identificar se uma voz foi gerada via IA?

Com os sistemas de síntese de fala ficando mais realistas, tem se tornado cada vez mais difícil identificar se a voz foi gerada por inteligência artificial ou por um ser humano. Porém, ainda existem algumas maneiras de reconhecer uma fala criada por IA. A primeira é tentando captar as falhas no discurso. Seres humanos, em geral, costumam cometer alguns “equívocos” enquanto falam, sejam eles pequenos "gaguejos", uma falta de fluência ou pausas irregulares. Essas marcas de oralidade, contudo, não costumam estar presentes nos discursos das IAs

Apesar de estarem evoluindo, esses softwares não conseguem captar todas as emoções humanas — Foto: Reprodução/Unsplash/Possessed Photography

Apesar dessas ferramentas conseguirem emular emoções, elas ainda não são totalmente fidedignas a pessoas de verdade. Afinal, os humanos são seres complexos, que conseguem sentir uma gama de emoções ao mesmo tempo. Sendo assim, vale tentar identificar as mudanças de tom durante a fala — caso permaneça muito constante, é possível que ela tenha sido gerada por uma máquina.

Além de tudo isso, com o avanço dessas tecnologias, tornou-se necessária a criação de ferramentas próprias para identificar se algo foi gerado por inteligência artificial. Assim como existem plataformas especializadas em identificar se um texto foi feito pelo ChatGPT ou Bard, também existem ferramentas específicas para distinguir uma fala criada por IA que clona a voz, como a AI Voice Detector. Para isso, basta acessar o site (aivoicedetector.com) e subir um arquivo de áudio. Em pouco tempo, a ferramenta dirá se aquela voz é verdadeira ou criada por inteligência artificial.

