Patrones de uso del servicio de datos en una red de telefonía móvil – Parte 2

Por Ing. Horacio Gastón Arrigo (Especialista en Explotación de Datos y Descubrimiento del Conocimiento-UBA).  

En la primera parte de esta publicación se introdujeron los conceptos básicos de una red de telefonía celular y, utilizando los datos reales de la red de Telecom Italia, obtuvimos un clustering de los distritos de la ciudad de Milán. Esto fue en base al comportamiento temporal del uso del servicio de internet.

En esta segunda parte se muestran los resultados obtenidos con los métodos de agrupación por componentes espectrales y agrupación por acumulación de evidencia. Por último se presentan las conclusiones finales.

Agrupación por componentes espectrales 

Aplicando la transformada discreta de Fourier[6] a las series de tiempo, mediante el algoritmo FFT[9], obtenemos un modelo equivalente en el dominio de la frecuencia. 

Si se aplica a la serie de la figura 11, se obtiene el resultado en módulo y fase de la figura 12. El eje horizontal en escala de 𝜇Hz y los valores de densidad espectral de potencia (PSD por sus siglas en inglés), y de fase junto a los marcadores. 

Figura 11: CDR de internet para la celda #5060

Figura 12: PSD y fase obtenido mediante la FFT de la serie de tiempo de la celda 5060.

Es posible utilizar la transformación para obtener un modelo equivalente, seleccionando algunas componentes en frecuencia, y así reducir la dimensionalidad. En este caso, se utilizan los valores de frecuencia, magnitud y fase como atributos. Para la selección de componentes, es posible adoptar diversos criterios, tales como: 

  1. Selección por Umbral: Elegir solo las componentes cuyo valor de PSD supera un determinado umbral.
  2. Selección por Muestras: Elegir las primeras N componentes.

Aquí solo se muestran los resultados obtenidos mediante la selección por muestras. En el trabajo original se puede ver una comparativa entre estos dos métodos.

A modo de ejemplo, se aplica la selección por componentes a la serie temporal de la celda #5060 (Figura 11). En la figura 13 se muestra la serie de tiempo original (rojo) y la series de tiempo equivalentes utilizando las 5, 10 y 20 primeras componentes. 

Figura 13: Resultados obtenidos a partir de los modelos de selección de componentes por Umbral y por cantidad de muestras N. En rojo se muestra la serie de tiempo original de la celda #5060 y en verde la serie obtenida a partir del modelo. a) N = 5, Umbral = 0; b) N=10, Umbral = 0; c) N=20, Umbral=0.

Al buscar el k óptimo se obtiene nuevamente un rango, aunque algo menor que el obtenido para series de tiempo. En la figura 14 se muestran los resultados del clustering por K-means.

Figura 14: Mapa de distritos agrupados mediante K-means, con componentes espectrals y k=3, 4 y 5.

Al igual que en los resultados obtenidos con el clustering de las series de tiempo, aquí tampoco es posible deducir una relación entre consumo medio y agrupación de distritos. Nuevamente se observa que al aumentar k, las nuevas agrupaciones se crean a partir del cluster con más distritos. Es importante notar que si bien los modelos son físicamente equivalentes, las agrupaciones obtenidas son diferentes. (Se recomienda ver la figura 9 de la parte 1).

Agrupación por acumulación de evidencia

La agrupación por acumulación de evidencia es, en forma resumida, un método de ensamble de resultados[7]. Es de utilidad cuando no se dispone de un set de datos de control y validación. Consecuentemente, el resultado obtenido con una única ejecución de K-means podría no ser suficiente para encontrar la agrupación más adecuada. 

Se aplica la técnica de Single-Linkage (clustering jerárquico) con medida Euclídea, pero se han propuestos algoritmos más complejos [8].

Existen diversas maneras de acumular evidencia en aprendizaje no supervisado, pero aquí solo se utiliza la técnica de ejecutar un algoritmo muchas veces con diferentes parámetros [8]. En este caso, combinando resultados del algoritmo K-means con k entre 2 y 15.

En la figura 15 se muestran los dendogramas obtenidos con las series de tiempo (a), y con las componentes espectrales (b), de los perfiles de los distritos

Figura 15: Dendogramas obtenidos por acumulación de evidencia para los 88 distritos de Milán utilizando: a) Series de tiempo b) Componentes espectrales.

La cantidad de clusters queda definida eligiendo un valor de altura igual a 3 para ambos dendogramas. En las figuras 16 y 17, se muestran los resultados comparando además con el equivalente de aplicar una única ejecución de K-means. 

Figura 16: Clustering obtenidos a partir de las series de tiempo de los distritos con a) K-means con k= 6 b) Acumulación de Evidencia y Clustering Jerárquico.

Figura 17: Clustering obtenidos a partir de las componentes espectrales (FFT) de los distritos con a) K-means con k= 5 b) Acumulación de Evidencia y Clustering Jerárquico.

De las figuras se observa que las agrupaciones obtenidas mediante ambos métodos, coinciden en la mayoría de los distritos pero, al parecer la agrupación por acumulación de evidencia, encuentra estructuras subyacente que no son detectada por una única ejecución de k-means. 

Conclusiones

De los resultados, podemos decir: 

  • Los valores promedio no son representativos del comportamiento temporal. Un valor estadístico no puede representar la dinámica del uso del servicio. 
  • Las agrupaciones obtenidas por serie de tiempo y su equivalente en frecuencia, son diferentes. Esto indicaría que las agrupaciones captaron diferentes aspectos del comportamiento en los distritos. Sería interesante estudiarlo con más detalle. 
  • Los resultados del método por acumulación de evidencias son consistentes con los obtenidos de una única ejecución de K-means. 
  • La agrupación por acumulación de evidencia parece detectar mayor detalle.

El análisis realizado por distrito se puede hacer fácilmente a nivel de celda. Estos permitiría encontrar patrones que sean de utilidad para tomar acciones sobre radiobases que se encuentran sobrecargadas o bien encontrar tendencias que permitan realizar acciones preventivas antes que esto ocurra. Al mismo tiempo, podría resultar de interés relacionar cada una de las celdas con el distrito al cual pertenece para que, agregando datos externos, poder hacer otros análisis tales como: análisis socioeconómico, demográficos, rendimiento de la infraestructura, cobertura, capacidad de servicio, etc. 

La validación de resultados, resulta difícil sin datos externos o algún etiquetado. Sin embargo, analizando algunas características de la ciudad, se ve que las agrupaciones tienen sentido cuando se analiza la ubicación de puntos turísticos,  zonas céntricas y residenciales. 

Sería provechoso estudiar otros algoritmos de agrupamiento, como así también otras medida de distancia más adecuadas para series de tiempo.

Referencias

               6. Proakis, J. G.,  Manolakis, D. K., Digital Signal Processing, Pearson new international edition, fourth edition, 2014

               7. Fred A., Jain A.K. (2002) Evidence Accumulation Clustering Based on the K-Means Algorithm. In: Caelli T., Amin A., Duin R.P.W., de Ridder D., Kamel M. (eds) Structural, Syntactic, and Statistical Pattern Recognition. SSPR /SPR 2002. Lecture Notes in Computer Science, vol 2396. Springer, Berlin, Heidelberg

              8. Fred, A. L. N., & Jain, A. K. (n.d.). Data clustering using evidence accumulation. Object Recognition Supported by User Interaction for Service Robots. doi:10.1109/icpr.2002.1047450 

              9. Cooley, James W., Tukey, John W. (1965). An algorithm for the machine calculation of complex Fourier series, Mathematics of Computation, 19(90), 297-301. doi: 10.2307/2003354.

Facebooktwitterlinkedin

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *