Objetivo

El propósito de este Trabajo Fin de Grado es la detección y clasificación de anomalías en los datos relacionados con la calidad de red de un cliente. Se define como anomalía la presencia de una queja por parte del cliente y se considera que una queja se produce debido al comportamiento errático en la red, estableciendo una relación bidireccional de causa-efecto entre ambos conceptos. El objetivo final es la obtención de dos modelos, el primero que permita detectar las quejas producidas por anomalías y el segundo que una vez detectada la misma permita clasificarla según sus distintas tipologías.

Inicialmente, se realiza un proceso ETL de todas las bases de datos correspondientes, en donde el desbalanceo en los datos resulta evidente y lógico por el tipo de problema que se trata de resolver, para pasar a una selección final de los atributos numéricos y categóricos, que permita el desarrollo de un modelo base estableciendo así un punto de inicio (1).

Para poder medir y comparar la calidad de los modelos de detección se utiliza la matriz de confusión; la cual se emplea generalmente de manera normalizada, el valor F1 y el área bajo la curva ROC; que además se proyecta gráficamente (2).

Se sigue con el modelo de clasificación, ya que se parte de un conjunto de datos menor, únicamente los datos anómalos que son quejas, en donde se observa de nuevo otro desbalanceo entre cada una de las clases. Se emplean los mismos atributos que han sido empleados en la detección base y se modela el árbol obtenido mediante una modificación en sus hiperparámetros, junto con una poda posterior una vez ha sido entrenado este, mejorando los resultados y obteniendo gracias a dicha simplificación la explicabilidad del mismo, pudiendo observar su estructura completa y los atributos más importantes en la clasificación (3).

Se desarrollan dos modelos en base a la misma arquitectura, pero con funcionamientos, interpretaciones y resultados totalmente distintos. En ambos trataremos de igualar el porcentaje de acierto para ambas clases buscando el punto de corte entre las tasas
de verdaderos positivos (TPR) y negativos (TNR) detectados. El primero es el Autoencoder, donde encontramos en su espacio latente la codificación en dos dimensiones que genera el modelo a partir de los datos de entrada, obteniendo además mejores resultados que el modelo inicial base. El segundo es el Variational Autoencoder, cuyo espacio latente significa la distribución de probabilidad de que los datos pertenezcan a cada clase, obteniendo una nueva mejora en los resultados. Finalmente, respecto a este último (y mejor) modelo se obtiene que si se modifica el valor umbral que diferencia una clase de la otra se puede observar la especialización del mismo en una, lo que conlleva nuevamente a la mejora de los resultados en cada una de las predicciones.

TRABAJO FIN DE GRADO DE:

JAVIER CRUZ DEL VALLE

Titulación

Máster Universitario en Ciencia y Tecnología Informática
Universidad Carlos III de Madrid (septiembre 2022 – actualidad)

Grado en Ingeniería Informática
Universidad Carlos III de Madrid
(septiembre 2017 – julio 2022)


Experiencia Laboral

Especialista técnico en Inteligencia Artificial, jornada parcial. Universidad Carlos III de Madrid en colaboración con Xfera Móviles para la cátedra grupo MásMóvil (septiembre 2021 – mayo 2022)

Arquitecto informático de integración software, contrato de prácticas. NTT DATA (noviembre 2020 – julio 2021)


Habilidades técnicas

Lenguajes de programación: Python, Java, R y C++

Lenguajes de dominio específico: SQL y PDDL

Librerías de desarrollo: Pandas, NumPy, TensorFlow, Keras, Ploty y Scikit-Learn

Otras herramientas: Git, herramientas Google (Colaboratory y BigQuery)


LinkedIn