Ahora los audios deepfake suponen un nuevo peligro
Este tipo de audios recrean la voz exacta de una persona para cometer fraudes o simplemente engañar a la gente
Después del surgimiento de los videos deepfake, ahora los audios deepfake son la última tecnología que busca suplantar la identidad de una persona, pero ahora a través de su voz.
Recientemente se ha comenzado a advertir a la gente sobre la presencia de audios deepfake, en los que, con inteligencia artificial, se recrea la voz exacta de una persona para cometer fraudes o simplemente engañar a la gente.
Los modelos de aprendizaje automático generativo han hecho realidad la síntesis de voz convincente. Estas herramientas pueden ser muy útiles en aplicaciones en las que las personas consienten que se les clone la voz; como por ejemplo: pacientes que pierden la capacidad de hablar, actores que no quieren tener que rehacer el diálogo, etc.).
Sin embargo, esta nueva tecnología también permite la creación de recreaciones auditivas no consentidos, conocidos como deepfake. Este audio malicioso es problemático porque puede utilizarse de forma convincente para suplantar a usuarios arbitrarios.
Un deepfake de audio es una muestra de audio generada por una máquina y diseñada para sonar exactamente como una persona determinada. Ya se han producido ataques de este tipo utilizando audio grabado, y los deepfakes de audio conversacional pueden no estar muy lejos.
Otro problema relacionado con este tipo de audio y quizás uno de los más importantes es que es muy difícil de detectar y suele requerir el conocimiento del generador específico de deepfakes.
Recientemente, Logan Blue, candidato doctor en el Instituto de Investigación de Ciberseguridad de la Universidad de Florida, escribió un artículo sobre los audios deepfake y cómo detectarlos, en el que explica que el deepfake perfecto es completamente indistinguible de una muestra de audio creada por una persona real, lo que permite efectivamente al creador de deepfakes suplantar digitalmente a su objetivo.
¿Cómo se puede detectar un audio deepfake?
Para llevar a cabo esta difícil tarea, un grupo de investigadores, encabezados por Logan, desarrolló un nuevo mecanismo para detectar deepfakes de audio utilizando técnicas del campo de la fonética articulatoria.
En concreto, aplican la dinámica de fluidos para estimar la disposición del tracto vocal humano durante la generación del habla y demuestran que los deepfakes suelen modelar disposiciones anatómicas imposibles o muy improbables.
La técnica, según explica Logan Blue, funciona ajustando un fragmento de audio grabado a un modelo fluido-acústico simplificado del tracto vocal humano, con el objetivo de que el audio informe de las estructuras físicas que crearon la voz grabada. Esto permite estimar el tracto vocal utilizado para crear la voz, que luego puede examinarse para ver si se ajusta a las limitaciones fisiológicas de un tracto vocal humano.
Al extraer las estimaciones del tracto vocal del audio deepfake, los científicos descubrieron que las estimaciones eran a menudo cómicamente incorrectas. Por ejemplo, era habitual que el audio deepfake diera como resultado tractos vocales con el mismo diámetro relativo y la misma consistencia que una pajita para beber, en contraste con los tractos vocales humanos, que son mucho más anchos y de forma más variable.
También podría interesarte:
Deepfake: “Pusieron mi cara en un video porno”
FakeYou: cómo funciona la app que te deja enviar audios con voces de famosos