A facilidade na criação de vozes artificiais tem preocupado o setor antifraude de empresas. Afinal, como se proteger quando golpistas tentam utilizar uma voz sintética para conseguir enganar sistemas e atendentes?
Para isso, é importante entender o que é a voz sintética, seus diferentes tipos e as principais técnicas de prevenção às fraudes que utilizam esse tipo de tecnologia.
O que é voz sintética?
Chamamos de voz sintética qualquer voz produzida artificialmente a partir de IA. Ela pode ser feita como um clone de voz, também chamado de deepfake de voz, a fim de enganar pessoas ou simplesmente para entretenimento.
Há ainda outra possibilidade de voz sintética produzida para transformar textos em áudios, como uma maneira de dublar legendas ou gerar narração para vídeos, gravações e outros conteúdos informativos.
Existem várias abordagens para a síntese de voz, incluindo:
Concatenação de unidades: Nesse método, segmentos de áudio pré-gravados são concatenados para formar palavras e frases. Essa abordagem pode produzir uma voz mais natural, mas tende a exigir uma grande quantidade de dados de áudio.
Síntese de formantes: Esta técnica gera fala modelando as características acústicas dos sons da fala usando formas de onda geradas computacionalmente.
Síntese de articulação: Modela a produção de fala humana, simulando a ação dos órgãos vocais durante a fala.
Síntese de corpus: Usa bancos de dados de gravações de fala para gerar vozes sintéticas. Essas vozes são criadas combinando segmentos de áudio de várias gravações para formar novas palavras e frases.
É importante destacar que a voz sintética em si não se trata de um problema, podendo ser utilizada em diversas situações que aumentam a acessibilidade no caso de pessoas com deficiência ou diminuem os custos para as empresas que precisam fazer conteúdos audiovisuais. O problema dessa tecnologia acontece quando ela é utilizada por fraudadores para conseguir aplicar golpes.
Text-to-Speech (TTS) e a voz sintética
A voz artificial ou TTS (Text-to-Speech) é uma tecnologia que permite a criação de sons de fala humana a partir de um texto escrito. Através de algoritmos complexos e modelos de linguagem, a tecnologia converte palavras e frases em sons que podem ser ouvidos e compreendidos por seres humanos.
Ela pode ser utilizada no atendimento ao cliente (para geração de mensagens personalizadas), acessibilidade (leitura de textos para pessoas com deficiência), educação (criação de conteúdos informativos) e também para o entretenimento (dublagem em diversos tipos de conteúdos, por exemplo).
Clone de voz, deepfake e voz sintética
O clone de voz, o deepfake e a voz sintética são todos conceitos relacionados à manipulação de áudio e vídeo, mas diferem em suas abordagens e objetivos:
Clone de voz: Refere-se à capacidade de replicar precisamente a voz de uma pessoa usando técnicas de síntese de voz. O objetivo é criar uma reprodução da voz de uma pessoa, geralmente a partir de uma amostra de sua voz. O clone de voz pode ser usado para várias finalidades, como dublagem de filmes, criação de assistentes de voz personalizados e até mesmo para criar falsificações de áudio em casos de fraude.
Deepfake: É uma técnica de manipulação de mídia que usa inteligência artificial para criar vídeos falsos ou manipulados, muitas vezes com o objetivo de enganar ou ludibriar espectadores. Embora inicialmente associado principalmente à manipulação de vídeos, o termo “deepfake” também pode ser aplicado a áudio falsificado. Portanto, um deepfake de áudio poderia envolver a criação de discursos ou conversas falsas usando técnicas de síntese de voz.
Voz sintética: Como mencionado anteriormente, a síntese de voz envolve a geração de fala artificialmente, geralmente a partir de texto escrito. Embora os clones de voz possam ser considerados uma forma específica de síntese de voz, nem toda síntese de voz é um clone de voz. A voz sintética pode ser gerada sem a necessidade de uma amostra de voz da pessoa, e pode ser usada para uma variedade de aplicações, desde assistentes virtuais até sistemas de resposta de voz interativa.
Prevenção de fraudes por voz sintética
Uma das abordagens mais eficazes para prevenir fraudes por clone de voz é a implementação de soluções antifraude baseadas em IA, como a biometria de voz. Esse tipo de biometria é uma técnica de autenticação que utiliza características únicas da voz de um indivíduo para autenticar sua identidade. Isso é feito capturando e analisando aspectos específicos da voz, como tom, frequência e padrões de entonação.
Ao integrar a biometria de voz em sistemas de autenticação, as empresas adicionam uma camada adicional de segurança contra fraudes por clone de voz. Durante o processo de autenticação, a voz do usuário é comparada com uma voz previamente registrada. Se houver discrepância entre a voz autêntica e a voz registrada, o sistema gera um alerta sobre uma possível tentativa de fraude, permitindo que o setor antifraude consiga adotar as medidas cabíveis.
Além disso, soluções antifraude com IA podem analisar padrões de comportamento e detectar anomalias que possam indicar atividades fraudulentas. Isso inclui monitorar tentativas repetidas de autenticação por voz ou padrões de uso suspeitos, como o uso da engenharia social para aplicar golpes.
Outras medidas preventivas incluem implementação de autenticação multifator, educação e conscientização dos usuários sobre os riscos de clonagem de voz e o estabelecimento de práticas de segurança cibernética em conformidade com regulamentações relevantes.
Conheça mais sobre a aplicação da biometria de voz para combater o uso inadequado da voz sintética ao redor do mundo:
A seguir, você vai aprender sobre: