Análisis textual de reclamos ambientales en la cuenca baja del Matanza-Riachuelo

Por Ignacio Uman – Milena Dotta es Especialista en Explotación de Datos (UBA) y está por finalizar la cursada de la Maestría.  Licenciada en Economía (UBA), actualmente es Data Scientist en una fintech y se desempeñó en diversas organizaciones privadas y públicas. 

Milena Dotta

Su destacado trabajo de Especialización Análisis de Anticipaciones Urbanas extra-disciplinares en CABA y AMBA”, surgió a partir de una colaboración directa con un grupo de arquitectos y planificadores urbanos de la Facultad de Arquitectura de la Universidad de Buenos Aires y el Observatorio Latino Americano (OLA) de la Universidad The New York School. Este grupo viene analizando diversas expresiones públicas en redes sociales, medios de comunicación o publicaciones digitales en temas ambientales y urbanos, las cuales suelen ser difundidas por integrantes de la sociedad civil, correspondientes a la Región Metropolitana. El proyecto, dirigido por la investigadora Margarita Gutman, apunta a visibilizar diversas necesidades territoriales de vivienda e infraestructura para conocer en mayor medida las expectativas urbanas de estas comunidades y poder mejorar su planificación e intervención pública.

En diálogo con Predictivos, Milena comenta sobre los pormenores de su trabajo final y su experiencia de aprendizaje durante la Maestría. 

¿Cómo surgió la idea de tu trabajo final y la colaboración con el grupo de FADU-OLA?

El director de la Maestría, Dr. Marcelo Soria, me presentó a la investigadora Margarita Gutman, Arquitecta y Doctora en Historia con una reconocida trayectoria en el tema de la anticipación como elemento de un proyecto urbano e identitario. Ella coordina un grupo de investigación conformado por arquitectos y planificadores urbanos de la Facultad de Arquitectura (FADU-UBA) y el Observatorio Latino Americano (OLA) de la Universidad The New York School. Este grupo había realizado una importante tarea de recolección de información de las denominadas “Anticipaciones urbanas extra-disciplinares”, que funcionan como mensajes de distintas fuentes digitales, redes, blogs, videos o noticias en boletines barriales sobre problemáticas ambientales. Hicieron todo un relevamiento bastante grande y se hizo una categorización a mano. El proyecto original de relevamiento de notas había comenzado en 1990 y finalizó en el año 2015.

Lo que me propusieron fue poder aportar un enfoque más sistemático y metodológico desde el análisis y procesamiento de esos datos, de modo de poder llegar a conclusiones interesantes que asocien los reclamos de estas comunidades sobre problemáticas socio-ambientales (vivienda e infraestructura de cada municipio y/o comuna) con las iniciativas para poder solucionarlas. Entiendo que también les interesó mi perfil porque, como economista, he trabajado en ciertas cuestiones de análisis social en el sector público.

Para comprenderlo mejor, ¿podrías definir estas “anticipaciones” urbanas, en el contexto de la investigación y por qué serían extra-disciplinarias?

Técnicamente estas anticipaciones son un conjunto de “ideas, proyectos y planes que son propuestos y/o difundidos por colectivos o individuos de la sociedad civil, como organizaciones no gubernamentales, prensa y periodistas locales, o público en general”. Al estudiar dichas anticipaciones se busca identificar y analizar las demandas difundidas por la sociedad civil en el espacio digital.  Se llaman extra-disciplinares en contraposición con las anticipaciones disciplinares, es decir, aquellas producidas por profesionales en el ámbito de la planificación urbana institucional, tales como los planes urbanos municipales o sectoriales.

Contame un poco sobre tu actividad con la información textual y las variables de las publicaciones. ¿Cómo hiciste para generar el set de datos?

El grupo tenía una matriz de 909 registros con 148 variables. No es Big Data pero es una base mediana. El tema es que los datos eran difíciles de abarcar porque cada caso tenía muchas variables, muchos cortes, entonces hubo que reconfigurar y limpiar la base. Aparecieron allí cuestiones propias del Excel, como celdas agrupadas, columnas que tenían tres niveles de jerarquía juntos, valores marcados con una cruz y a veces con un puntito, a veces con un sí y a veces con un no. Entonces en vez de tener una variable con muchas categorías, tenías una grilla con todos los posibles valores que podía tomar la variable y todas cruces (X) y unos (1). Por lo que llegar a una reconversión de esto a un formato más ordenado la verdad que fue bastante laborioso. Había además algunas inconsistencias internas, como datos sin ID o datos geográficos incorrectos (se asignaban variables del partido de La Matanza a CABA por ej.). El ajuste más fuerte lo hice con Python y llegué a armar una base principal con 48 variables y después bases auxiliares más específicas que hacían foco en ciertas temáticas urbanas.

Con respecto al Procesamiento del Lenguaje Natural, ¿con qué criterio elegiste las técnicas y qué ventajas tuvieron estas por sobre otras?

Mi objetivo fue validar la temática asignada a cada una de las publicaciones en base a lo que decía el resumen y el título. Las técnicas más avanzadas de procesamiento del lenguaje natural (NLP por sus siglas en inglés), como por ejemplo topic modelling y sentiment analysis, trabajan con redes neuronales por lo que  se necesita una gran cantidad de información para que los resultados sean confiables. 

Como la base a analizar no era lo suficientemente grande para usar dichas técnicas de NLP más avanzadas, opté por usar Wordclouds para ver cuáles eran las palabras clave que más aparecían, lo cual es comúnmente aceptado como un indicador del tema ya que “para temas similares se utilizan palabras similares”. Antes de realizar cualquier análisis de NLP es necesario realizar un pre-procesamiento y limpieza del texto. En primer lugar se sacan del texto la puntuación, las tildes, las palabras conectoras o preposiciones (stop words)  y se generan los denominados tokens, que son las unidades mínimas de texto a analizar.

Luego de obtener el texto tokenizado, procedí a encontrar las llamadas collocations. Las collocations son las palabras compuestas, por lo general nombres propios, como por ejemplo Buenos Aires, Río Negro, etc. Este paso es de suma importancia ya que si no se consideran las palabras compuestas el análisis tiende a perder riqueza y sentido. Por ejemplo, si la palabra “aire” (ejemplo sin marcar las collocations) surge como muy frecuente dentro del corpus es muy diferente a que surja “Buenos Aires”.

Con el texto tokenizado y con las collocations encontradas, se procede a la lematización del texto, lo cual consiste en llevar a las palabras a su forma sin inflexión. Dos ejemplos de lematización son llevar los verbos de sus formas conjugadas al infinitivo (reclamaban, reclamaste se transforman en reclamar) y llevar sustantivos y verbos a su forma sin inflexión (vecinos, vecinas se transforman en vecino). En general las librerías disponibles en Python para realizar este procedimiento funcionan bien en inglés pero no en español. Por suerte en este caso pude encontrar una librería confiable de la Universidad de Stanford que se llama Stanza. Tiene un Git muy prolijo, hace un buen tratamiento de las collocations y tiene un excelente lematizador . Esto, en definitiva, hizo que pueda lograr mejores resultados.

¿Cómo fue el trabajo analítico de comparación y visualización de las notas una vez que pudiste consolidar su procesamiento?

Primero validé las conclusiones que el grupo de investigación había extraído. Luego me surgió el interés de reconocer una problemática ambiental general y de comparar entre regiones, CABA y GBA. La clave fue ver analíticamente las diferencias entre los reclamos de cada región y también observar que tenía un correlato con los censos realizados. A su vez, se encuentra una coherencia entre los reclamos y los índices de necesidades básicas insatisfechas (NBI). Estas diferencias entre regiones marcaron el tipo de política a llevar a cabo para resolverla y quedaron claramente mapeadas. 

Quedó bastante claro que la zona sur de CABA tiene un problema serio en lo que es vivienda y lo que es GBA trae aparejado problemas de infraestructura severa: cloacas, agua potable y recolección de residuos. Esta última es una problemática muy grande en La Matanza sumada a la problemática del Riachuelo. El enfoque del proyecto fue tratarlo desde la cuenca baja y media del río Matanza-Riachuelo, siendo la zona de análisis, que engloba a las comunas del sur de CABA y toda la parte sur de AMBA y La Matanza.

 En cuestiones de infraestructura las diferencias son claras:

WC Infraestructura CABA – WC Infraestructura GBA

¿Qué correlaciones pudiste encontrar entre la demanda o reclamo de la comunidad y las propuestas generadas por vecinos y vecinas?

Los Wordclouds mostraron explícitamente qué es lo que se pedía. Definitivamente existen ciertas variaciones en los niveles de concreción de los pedidos entre las distintas zonas pero más que nada prima el hecho de que las propuestas tienen estado de concreción nulo o preliminar y que había pocas propuestas avanzadas. La escala suele ser barrial, con proyecciones a corto plazo, el período de propuesta es muy breve y la búsqueda de solución es inmediata.

Un problema fue no haber podido acceder a las fuentes originales de los reclamos ya que al trabajar con resúmenes realizados por un conjunto limitado de personas se pierde parte de la riqueza de los textos. En un momento pensé en scrapear cada una de las páginas relevadas,  pero era muy difícil ya que como todas las fuentes son distintas, sus códigos HTML difieren mucho entre sí y la limpieza de los mismos hubiera sido muy tediosa. Por eso mi recomendación para futuras iteraciones fue conservar las fuentes originales, ya que también podrían servir, por ejemplo, para hacer análisis de sentimientos de los mensajes escritos en estas comunidades.

 ¿Cuál fue el mayor desafío del trabajo?

Durante el uso de la librería Stanza no fue tan simple entender el tema de la implementación de la búsqueda de collocations. Sin embargo, finalmente logré estructurar un Pipeline de trabajo bastante limpio donde sólo es necesario tener como imput el corpus para obtener como resultado de salida el texto limpio. Generé un par de archivos .py desde los cuales se puede ir llamando a las diferentes funciones creadas y cada .py comprende un conjunto de funciones de un tema. Por ejemplo, si llamo a la función “limpieza de texto” dentro de esa limpieza de texto está estructurada la limpieza de las puntuaciones, de tildes, tokenización, collocations y directamente se recibe el texto lematizado. Eso fue importante para poder estructurar la investigación, un desafío más a nivel personal, ya que el valor fue generar un código de limpieza de texto que se pueda aplicar a cualquier corpus más allá de que si uno ve en el trabajo el código principal hay sólo 3 funciones.

Por último, ¿qué opinión te merece la Maestría y cómo fue tu experiencia de aprendizaje?

El posgrado me sirvió un montón, fue un giro para mi carrera profesional y me quedan dos materias. Creo que la cursada depende mucho de uno cómo aprovecharla. En lo personal aprendí a programar por mi cuenta, arranqué la Maestría y ya sabía programar. Noté que había compañeros que estaban a la expectativa de que les enseñen a programar. Pero yo tuve otra expectativa, a mí la Maestría me dio todo el background de formación de las técnicas y metodologías. Porque hay muchas librerías y cursos disponibles, pero entender un poco la ciencia tras bambalinas es lo que termina de marcar la labor de cada uno. 

Después lógicamente es cuestión de dónde cada uno le aporta una impronta, su ingrediente a los trabajos finales o de tesis, su originalidad a las investigaciones. Por otro lado, a modo de sugerencia, considero que quizás se podría optimizar el recorrido de aprendizaje, mejorando la interacción y comunicación entre los docentes de las diferentes materias, como para saber desde dónde arrancar y no solapar el dictado de algunos temas en las diferentes materias y también para no quedarse desactualizado. Es una cuestión de tener en cuenta la correlatividad de contenidos y, al mismo tiempo, de aggiornarse permanentemente.

 

Facebooktwitterlinkedin

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *