Análisis acústico para la detección de DeepFakes en tiempo real

Objetivo

Este proyecto surge por la necesidad, dentro del ámbito de la seguridad digital, de detectar si un audio ha sido generado de forma sintética (o por conversión) o se corresponde a voz humana. Los proveedores de contenido y plataformas digitales como redes sociales se enfrentan cada vez con más frecuencia a audios falsos generados mediante sistemas de síntesis de voz (TTS) o conversión de voz (VC). Esto supone no solo un riesgo para la autenticidad y la confianza de los sistemas de verificación por voz, sino una amenaza para nosotros los humanos, por el riesgo de estafas y suplantación.

El reto principal se basa en que hoy en día la mayoría de los sistemas de detección son binarios —real o falso— y no llegan a distinguir el tipo de ataque. Adicionalmente, su rendimiento cae cuando se enfrentan a audios que han pasado por procesos de compresión o codificación, lo cual es problemático teniendo en cuenta que la mayoría de los audios en Internet están en este estado «deteriorado».

El objetivo del proyecto es, por ende, desarrollar un pipeline capaz de clasificar audio en tres clases: TTS, VC o humano. Además, buscamos que sea capaz de funcionar bien tanto sobre grabaciones en reposo como en tiempo real, y que sea robusto a diversas condiciones de canal complejas. Como alternativa a los enfoques end-to-end, apostamos por un embedding de descriptores acústicos claros que permitan también hacer un análisis explicativo y un análisis de features anómalas en paralelo a la detección.

La solución propuesta combina la extracción de descriptores acústicos (RMS, MFCCs, ZCR, frecuencia fundamental, etc.), la selección de las características a través de tests estadísticos y la construcción de un ensemble de clasificadores con jurado de decisión. Para la detección en tiempo real se implementa una arquitectura dual con ventana acumulativa y ventana deslizante. Se complementa con un módulo de análisis de anomalías basado en divergencia KL. Esta arquitectura se evalúa sobre un conjunto representativo de audios (muestra estratificada y balanceada generada a partir del dataset del ASVspoof Challenge), consiguiendo resultados competitivos y detecciones informadas en tiempo real. Se demuestra que un enfoque basado en embeddings puede llegar a generalizar bien incluso bajo condiciones de compresión y codificación, así como trasladarse al tiempo real.

TRABAJO FIN DE GRADO DE:

ANDREA LÓPEZ SALAZAR

Experiencia Académica

Doble Grado en Ingeniería Informática y Administración y Dirección de Empresas, Universidad Carlos III de Madrid (septiembre 2021 – julio 2026)

Experiencia Laboral

Machine Learning Researcher – Universidad Carlos III de Madrid en colaboración con Grupo MasOrange (septiembre 2025 — junio 2026)
Machine Learning Researcher – Universidad Carlos III de Madrid en colaboración con MARVISION – Proyecto DEIMOS (enero 2025 – julio 2025)

Habilidades técnicas

Lenguajes de programación: Python, C/C++, SQL, HTML/CSS, JavaScript.
Librerías de desarrollo: Pandas, OpenCV, Numpy, PyTorch, Keras, Sci-kit Learn.
Plataformas Cloud: Google Cloud.
Frameworks: GitHub, GitLab.

LinkedIn