Objetivo
El objetivo de este proyecto es desarrollar un modelo de aprendizaje automático para transformar la emoción impresa en la voz. La transferencia de emociones es un problema abierto, sobre el que se han conseguido avances importantes gracias a la aparición de las redes generativas adversarias.
En este trabajo proponemos un modelo que adapta el trabajo de [1], basado en un tipo particular de redes generativas adversarias, denominado CycleGAN, e incorporamos algunas actualizaciones en la arquitectura que mejoran la calidad de las voces sintetizadas. Abordamos tres cuestiones:
- Tradicionalmente los modelos se han entrenado con datos paralelos, donde existen ejemplos de frases dictadas con distintas emociones, pero que comparten contenido lingüístico. Esta limitación hacía imposible utilizar datos reales para el entrenamiento, y limitaba la utilidad de los modelos. Las redes CycleGAN no requieren datos paralelos, y permiten aprovechar conjuntos de datos extraídos de problemas reales.
- Las características de la voz con mayor influencia en la emoción están relacionadas con aspectos prosódicos de la voz, como el tono o el ritmo. Para conseguir una transferencia de emociones eficaz es necesario transformar estos rasgos. En este proyecto descomponemos la frecuencia fundamental de la voz con continuous wavelet transform. Esta transformación ha demostrado mejorar la conversión de la frecuencia fundamental, y en consecuencia, de la prosodia.
- La calidad de las voces transformadas es inferior a las voces originales. En este proyecto, incorporamos una arquitectura actualizada de CycleGAN propuesta por [2] para problemas de transferencia de identidad, y demostramos que mejora la calidad de las voces sintetizadas con respecto al modelo base.
El modelo final mejora la calidad de las voces sintetizadas: consigue voces más similares al objetivo, tanto en el espectro, como en la frecuencia fundamental.
[1] K. Zhou, B. Sisman y H. Li, Transforming Spectrum and Prosody for Emotional Voice Conversion with Non-Parallel Training Data, en, arXiv:2002.00198 [cs,eess], oct. de 2020. [En línea]. Disponible en: http://arxiv.org/abs/2002.00198 (Acceso: 04-04-2023).
[2] T. Kaneko, H. Kameoka, K. Tanaka y N. Hojo, CycleGAN-VC2: Improved CycleGAN-based Non-parallel Voice Conversion, en, arXiv:1904.04631 [cs, eess, stat], abr. de 2019. [En línea]. Disponible en: http://arxiv.org/abs/1904.04631 (Acceso: 04-04-2023).
TRABAJO FIN DE GRADO DE:
PABLO DÍAZ LARRAÍN
Titulación
Grado en Ingeniería Informática
Experiencia laboral
Investigación en la cátedra UC3M-MásMóvil (septiembre 2022 – mayo 2023)
Habilidades técnicas
Lenguajes de programación: Python, C/C++, Javascript.
Librerías: Tensorflow, NumPy, Pandas.
Plataformas: Google Cloud Platform y Vertex AI.