Patrones de uso del servicio de datos en una red de telefonía móvil-Parte 1

Por Ing. Horacio Gastón Arrigo (Especialista en Explotación de Datos y Descubrimiento del Conocimiento-UBA).

Las empresas de telecomunicaciones que proveen servicio de telefonía móvil, tienen como objetivo proveer un servicio ininterrumpido y de calidad adecuada. El motivo no es solo comercial sino que también se deben cumplir con obligaciones contractuales y resoluciones gubernamentales. Ésto motiva que la planificación, mantenimiento y actualización de una red sea un desafío con diversos enfoques que excede lo meramente tecnológico.  En otras palabras, la implementación de nuevas tecnologías por sí sola, no resuelve inconvenientes como: interferencias, condiciones climáticas, acontecimientos sociales que demandan mayor uso de la red y otros eventos que pueden generar diversos tipos de afectaciones en el servicio. Por esto, una adecuada planificación y conocimiento del comportamiento, es fundamental para tomar acciones proactivas que permitan anticiparse, disminuir o evitar las deficiencias del servicio. 

Los datos obtenidos de la red, pueden combinarse con datos externos que permitan analizar otras problemáticas tecnológicas, sociales, ambientales o culturales entre otros. En los últimos años, grupos interdisciplinarios dedican esfuerzo en el estudio de los datos de las redes móviles para obtener información que resulta difícil de conseguir por medios tradicionales (censos, encuestas, etc.) [4]. 

Los resultados presentados son parte de mi trabajo de especialista, el cual puede consultarse completo, con análisis y resultados adicionales, aquí

Red de telefonía móvil

Una red de telefonía móvil o red celular, es una red cuya infraestructura se encuentra distribuida en la ciudad, pueblo o región geográfica, en la cual se desea proveer servicio. El nombre “celular” proviene del hecho que la cobertura del servicio se constituye mediante “celdas” o “células”, que representan un área geográfica, donde una o más radio bases permiten el acceso al servicio. Un diagrama esquemático se muestra en la figura 1.

Figura 1: Diagrama esquemático de una red de celular.

Las radio bases se conectan entres sí y con el sistema central para conformar una red uniforme y transparente al usuario. La actividad de los dispositivos móviles es procesada y registrada en primera medida por las radio bases y luego validada por el sistema central.

Cada vez que un usuario utiliza su teléfono, el sistema le asigna una estación radio base (RBS) para proveer el servicio. Luego, se crea un registro CDR (Call Detail Records, por sus siglas en Inglés), que registra el tiempo de la interacción y la RBS que lo gestiona. 

Desarrollo 

Para el trabajo se utilizó  un subconjunto de los datos provistos por la empresa Telecom Italia para la competencia “Big Data Challenge 2014” [1] [2]. Los datos de la actividad en la red móvil se registraron durante una semana (7 días), con las interacciones agrupadas cada una hora, para la ciudad de Milán, Italia. En este trabajo, se utilizan únicamente los datos del servicio de acceso a internet. 

La geolocalización se realiza con la grilla de la red celular, compuesta de 1.000 celdas de 235×235 metros cada una y los distritos de la ciudad[3]. Esto se muestra en la figura 2. 

Figura 2: Ciudad de Milán, grilla de las celdas de la red móvil y los distritos de Milán.

 

Mapa de calor y patrones de comportamiento temporal

Como primera aproximación se crea un mapa de calor en función del valor medio del periodo completo para cada celda y también se agrupan los resultados por distrito. Esto se muestra en las figuras 3 y 4.

Figura 3: Mapa de calor con valores medios para el servicio de internet. La escala indica el valor medio por hora.
Figura 4: Mapa con valores medios por distrito, para el servicio de internet. La escala indica el valor medio por hora.

Se observa que la mayor actividad promedio se registra en el centro de la ciudad y decae hacia los límites exteriores. Esto se debe a que la zona céntrica y el casco histórico, poseen mayor actividad comercial y turística, con mayor afluencia de personas hacia los distritos que las componen[4].

El uso de los servicios varía según la zona y el momento del día [5], por lo que resulta imprescindible hacer un análisis temporal. En la figura 5 se muestra un mapa de calor dinámico. El tiempo entre imágenes es expresamente corto para percibir el denominado “pulso” de la ciudad.

Figura 5: Imagen animada con los valores promedios horarios de las celdas. La velocidad de cambio permite percibir el llamado “pulso” de la ciudad.

Para la búsqueda de patrones primero se analizan la evolución temporal del servicio y la función de autocorrelación para series de tiempo. En las figuras 6 y 7, se observa la serie temporal y su autocorrelación para la celda #5060, ubicada en un punto céntrico de la ciudad.

Figura 6: CDR de internet para la celda #5060.
Figura 7: Autocorrelación de la señal de la figura 5 con un desfasaje máximo de 48hs.

De la figura se observa una forma periódica, dominada por un función del tipo sinusoidal con periodo de 24 horas y relacionada con la dinámica del comportamiento social (horarios diurnos y nocturnos con mayor y menor actividad respectivamente). 

Se busca entonces un modelo que permita agrupar las celdas en función de su comportamiento temporal y que ayude a realizar una clasificación en clases discretas. En este trabajo se realizó la clasificación de los distritos, agrupando las celdas contenidas en ellos, con el valor promedio. El trabajo es fácilmente extrapolable a las celdas individuales. 

Agrupación por serie de tiempo 

Al no tener un set de entrenamiento, resulta práctico aplicar el algoritmo no supervisado K-means de agrupamiento (también referido ampliamente con el término en inglés clustering). Para esto, cada muestra horaria se considera como un atributo de la serie (168 atributos: 7 días por 24 horas). Esa cantidad de atributos aumenta la probabilidad que se manifieste la “maldición de la dimensionalidad”, también conocida como efecto Hughes (El Efecto Hughes o “Maldición de la dimensionalidad” (Hughes 1968), establece que la creciente dimensionalidad disminuye la confiabilidad de las estimaciones de los parámetros estadísticos requeridos para calcular las probabilidades).

Se busca el número óptimo de clusters mediante los métodos de Elbow, Silhouette y GAP. Los resultados se muestran en la figura 8.

Figura 8: Resultados de aplicar el método de Elbow y Silhouette (arriba) y GAP (abajo) para la búsqueda de cantidad óptima de clusters sobre las series de tiempo. Los resultados para GAP fueron obtenidos con un valor de parámetro de bootstraping de 50 (izquierda) y 500 (derecha).

Las gráficas sugieren que el valor óptimo de k debería estar entre 2 y 9. 

En la figura 9 se comparan los resultados obtenidos en el mapa de calor de promedios de uso (arriba), con los obtenidos en el clustering para k igual a 3, 4 y 5 (abajo). 

Figura 9: (arriba), Valores medios horarios. Escala representada en cuartiles con igual cantidad de ocurrencias. (abajo) Distritos agrupados por serie de tiempo con k=3, 4 y 5.

De las figuras vemos que la agrupación obtenida no está relacionada con el consumo medio. También, que al aumentar k, los grupos se mantienen iguales y las nuevas agrupaciones se desprenden del cluster con mayora cantidad de distritos. Esto podría indicar la existencia de agrupaciones inherentes, visibles al realizar una mayor segregación.

En la figura 10 se muestran los perfiles de 4 distritos pertenecientes a distintos clusters (k=4).

Figura 10: Perfiles temporales de 4 distritos pertenecientes a clusters diferentes.

Aquí concluye la primera parte de esta publicación. Hasta aquí se obtuvo un clustering de los distritos, basado en las series de tiempo. La validación de resultados, resulta difícil sin datos externos o algún etiquetado. Sin embargo, analizando algunas características de la ciudad, se ve que los resultados encuentran sentido cuando se analiza la ubicación de puntos turísticos, zonas céntricas y residenciales, entre otros. 

En la siguiente y última parte, se analiza el agrupamiento con dos métodos adicionales. Estos son, agrupamiento por componentes espectrales y agrupamiento por acumulación de evidencia. Finalmente se obtiene una conclusión de todos los resultados obtenidos.

Referencias

  1. Barlacchi, Gianni, Marco De Nadai, Roberto Larcher, Antonio Casella, Cristiana Chitic, Giovanni Torrisi, Fabrizio Antonelli, Alessandro Vespignani, Alex Pentland, and Bruno Lepri. “A multi-source dataset of urban life in the city of Milan and the Province of Trentino.” Scientific data 2 (2015). http://go.nature.com/2fcOX5E
  2. kaggle.com/marcodena/mobile-phone-activity/downloads/mobile-phone-activity.zip/4, consultado en Julio de 2019.
  3. http://dati.comune.milano.it/dataset/e5a0d956-2eff-454d-b0ea-659cb7b55c0b/resource/af78bd3f-ea45-403a-8882-91cca05087f0/download/nilzone.geojson, consultado en Julio de 2019
  4. Naboulsi D., Fiore M., Ribot S., Stanica R., Large-Scale Mobile Traffic Analysis: A Survey. IEEE Communications Surveys & Tutorials, Vol. 18, Issue  1, 124 – 161 (2015).
  5. Cs´aji, B., Browet, A., Traag, V.A., Delvenne, J.-C., Huens, E., Van Dooren, P., Smoreda, Z., Blondel, V.D.: Exploring the mobility of mobile phone users. Physica A: Statistical Mechanics and its Applications 392(6), 1459–1473 (2013).
Facebooktwitterlinkedin

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *