Objetivo
Actualmente, empresas de todo tipo recogen datos de la interacción de los clientes con sus productos o servicios. Estos datos son muy valiosos y funcionan como herramienta para las empresas tanto para generar ingresos como para reducir costes. En este caso concreto se trabaja con diferentes indicadores de calidad de la red móvil de MasMovil (KPIs), que permiten supervisar el funcionamiento de la red para cada cliente.
Respecto a los datos, cabe decir primero que en este escenario hay pocas quejas y, por tanto, mucho desbalanceo con respecto a la clase mayoritaria de no queja. Este trabajo en particular pone el foco en únicamente el motivo de queja de “Internet lento”, por ser una de las categorizaciones menos confusas y porque centrando el esfuerzo en una queja se obtendrán resultados más precisos.
Contando con estos datos, el objetivo de este trabajo consiste en, por un lado, predecir casos de queja antes de que ocurran, teniendo un impacto directo en la imagen que ofrece MasMovil al cliente, con sus consiguientes beneficios económicos. Por otro lado, se busca detectar casos de comportamientos anómalos en los indicadores de calidad de la red móvil del cliente, para poder estudiar las antenas con esos comportamientos anómalos por las que pasan esos clientes. Para ello se usan los datos de la queja como input para estos métodos.
Los métodos empleados para predecir los casos de queja antes de que ocurran se tratan de modelos de aprendizaje supervisado clásicos como Random Forest, SVCs o Árboles de Decisión. Para la evaluación de resultados se ha utilizado principalmente la métrica de Área Bajo la Curva ROC (AUC) debido a que considera las tasas de acierto para cada clase y es más conveniente para casos con tanto desbalanceo, como al que se enfrenta este trabajo. Los mejores resultados vienen dados por modelos Random Forest empleando ventanas temporales que incluyen los datos del día de la queja y los 6 anteriores. Además, se usan todos los KPIs disponibles, siendo en este caso el AUC = 0.80. Adicionalmente, si prescindimos de los datos del día de la queja para predecir la queja, se obtiene un AUC = 0.76 con los mismos KPIs. No obstante, de cara al segundo objetivo se usarán únicamente 4 KPIs y ventanas temporales de 5 días, ya que de esta forma se reduce mucho la complejidad de los métodos a aplicar y además los modelos no pierden mucho rendimiento, por lo que se asume que no se pierde demasiada información.
Por otro lado, respecto al segundo objetivo, se han usado técnicas como Auto Encoders, Variational Auto Encoders o GANs para detectar anomalías en la ventana temporal (de 5 días) del cliente. Los mejores resultados vienen ofrecidos por las GAN, alcanzando una AUC de 0.66 ajustando los umbrales de clasificación como anomalía en un conjunto de validación para maximizar esta métrica. No obstante, puede ser muy interesante no ajustar de esta forma el umbral de clasificación y categorizar como anomalía solo aquello que la GAN identifique claramente como tal, obteniéndose en este caso un resultado con AUC=0.58. Con este resultado no hay prácticamente falsos positivos, pero sí falsos negativos. Esto es muy relevante ya que es posible tener más certeza de que realmente el caso se trata de una anomalía que debe ser estudiada.
TRABAJO FIN DE GRADO DE:
DAVID CAVADA BUENASMAÑANAS
Titulación
Doble grado de Ingeniería Informática y ADE en Universidad Carlos III de Madrid. Mención en Computación en el grado de Ingeniería Informática.
Un año de estudios en University of California Riverside. Grados de Bussiness Administration & Computer Science.
Experiencia Laboral
Desarrollador Front End en Varadero Software Factory S.L. (junio 2021 – septiembre 2021)
Técnico especialista (personal de investigación) en Universidad Carlos III de Madrid. Cátedras de Grupo MásMóvil. (septiembre 2021 – mayo 2022)
Desarrollador Back End en Grupo MásMóvil (junio 2022 – actualidad)
Habilidades técnicas
Habilidad avanzada en programación con Java y Python. BBDD relacionales.
Análisis de datos y técnicas de Machine Learning. HTML, CSS y JavaScript.
Orquestación de aplicaciones escalables distribuidas mediante Cadence. Vert.x y RxJava. Kubernetes.
Conocimientos de Administración y Dirección de Empresas, como Dirección Estratégica, Contabilidad, Economía o Marketing.