La pandemia en palabras: dinámica del cambio semántico a partir de redes semánticas

Por Vanesa Copa (Magister en Explotación de Datos y Descubrimiento de Conocimiento – UBA, Bioquímica y Farmacéutica – UBA).

Gracias a la Maestría tuve la oportunidad de conocer a quien fue mi directora de Tesis  la Dra. Laura Kaczer y por intermedio de ella a mi co-director Sebastián Pinto, ambos con grandes cualidades docentes. Conocerlos me dio la posibilidad de iniciar mi tesis en el tema que más me interesaba: Procesamiento del Lenguaje Natural.

Motivación

Comprender el cambio en el significado de las palabras en diferentes contextos y períodos de tiempo es crucial para revelar el papel del lenguaje en la evolución social y cultural. La pandemia de COVID-19 ofreció una oportunidad única para investigar en terrenos cuantitativos los cambios en el significado de las palabras [3, 4]. En este trabajo investigamos cómo podemos detectar cambios en el significado de las palabras expresadas a partir del uso de redes semánticas. Nuestra hipótesis es que los cambios en el uso y significado de diferentes términos se verán reflejados en la variación de propiedades de estas redes en las diferentes etapas del desarrollo de la pandemia (años 2019, 2020 y 2021).

Datos 

¿Con qué datos trabajamos? Levantamos un conjunto grande de tweets públicos y originales (es decir, que no son retweets) buscando captar expresiones espontáneas de un grupo cualquiera de usuarios. Nos enfocamos en tweets cuya fecha de publicación pertenece a un período anterior a la pandemia de COVID-19 (año 2019) y a diferentes etapas de la misma (años 2020 y 2021), para captar el impacto de la misma en el lenguaje. A su vez nos quedamos con tweets geo-etiquetados, limitándonos a aquellos publicados desde Argentina, a fin de captar textos escritos en español rioplatense. 

De estos tweets nos quedamos con aquellos que pertenecían a 200 usuarios que detectamos que tuvieron suficiente actividad en cada uno de los tres años mencionados. Nuevamente la motivación de ello fue contar con datos que nos permitan “repetir el experimento” con los mismos usuarios en tres períodos diferentes (antes, durante y casi llegando al fin de la pandemia). El conjunto de datos resultante estuvo finalmente formado por 3.477.422 tweets publicados por dichos 200 autores. 

Metodología 

Los primeros pasos fueron los típicos que se realizan en muchos trabajos que involucran procesamiento de lenguaje natural: eliminamos URLs, menciones a usuarios, símbolos emoji y caracteres especiales, transformamos las palabras a minúsculas, y eliminamos palabras no informativas (stopwords) como preposiciones y artículos. A su vez lematizamos [5] las palabras restantes. Lematizar es llevar las palabras a su raíz. Por ejemplo, si aparecen las palabras “corren” y “corrieron” se transforman en “correr”. Esto permite eliminar redundancia y homogeneizar los textos. Finalmente, tokenizamos, es decir, separamos los tweets en palabras, transformando cada tweet en una lista de palabras que sobrevivieron a los filtros anteriores. 

Luego de tokenizar los tweets, construimos redes semánticas. Estas están compuestas por nodos que representan a las palabras y enlaces que representan una relación entre las mismas. En principio, estas redes las definimos como pesadas, es decir, que cada enlace tiene además un número asociado que llamamos “peso”. Definimos este peso a partir de la información mutua puntual normalizada (NPMI) [2]. El NPMI es un número entre -1 y 1, donde, en nuestro caso, 1 indica que dos palabras siempre aparecerán en los mismos tweets, -1 que son completamente excluyentes (es decir, que cuando encontramos una palabra la otra nunca va a estar) y 0 que no tienen ninguna relación (el hecho que aparezcan en un mismo tweet o no es por puro azar).

A estas redes las definimos para cada uno de los 200 usuarios y cada periodo (2019, 2020, 2021) y para tener una representación del periódo promediamos sobre todos los usuarios (es decir, el peso entre dos palabras es el promedio de los pesos entre esas palabras para cada usuario). Finalmente, para simplificar el análisis posterior, en cada red nos quedamos con los enlaces más significativos (aquellos cuyo peso se desvía suficiente de lo esperado por azar) [6], transformando nuestras redes pesadas en binarias (el enlace existe o no) que son las que efectivamente analizamos. 

Resultados 

Los resultados se basaron en el análisis de las redes obtenidas para cada uno de los tres períodos. Por un lado evaluamos diferentes métricas de las redes semánticas, entre ellas, la cantidad de nodos totales, el grado medio (número de enlaces promedio), el diámetro de la red, el coeficiente de clustering y la asortatividad, sin encontrar grandes diferencias en estas métricas en los distintos períodos, lo cual nos hizo entender que la estructura global de las redes no varía significativamente.

Donde sí encontramos grandes diferencias fue en las comunas emergentes en cada red. Una comuna es un conjunto de nodos que tienden a interactuar más entre sí que con el resto de los nodos. Para detectarlas utilizamos el algoritmo de Louvain [1], muy usado en el área. Por ejemplo, la Figura 1 muestra las principales palabras relacionadas con la comunidad que etiquetamos como “fútbol” detectada en los años 2019 y 2021. Así como esta encontramos muchas otras que resumimos en el Cuadro 1, donde podemos ver la aparición de éstas en función del tiempo. 

a) Año 2019, Comunidad  fútbol                                                               b) Año 2021, Comunidad fútbol
Figura 1. Comunidades obtenidas en los tres períodos, el tamaño y color indican el valor de eigenvector centrality de los nodos.
Cuadro 1. Principales temas y porcentaje de nodos respecto a la componente gigante que contiene esa comunidad.

 

Finalmente, seguimos específicamente algunas palabras y vimos cómo cambiaba el entorno de las mismas.  Por ejemplo, en la Figura 2 podemos ver cómo cambian las palabras más cercanas a “inmunidad”, cuyo significado se vió muy afectado por la aparición de la pandemia “COVID-19”. Haciendo este estudio más sistemáticamente, encontramos que el entorno de las palabras ligadas la pandemia (como por ejemplo, “inmunidad”, “protocolo”, entre otros), cambió notablemente del 2019 al 2020, (pasando de una asociación con temas judiciales a otra con inmunología) y no tanto del 2020 al 2021. Es decir, entendimos que el efecto de la pandemia alteró el significado de las palabras, quedando ya establecido en el último período.

Figura 2. Subgrafo de la palabra “inmunidad” de los tres períodos. Cada período se señala en la figura. Se puede observar el cambio de vecindad de la palabra “inmunidad” asociado a un cambio en su uso semántico.

 

Conclusiones

El presente estudio tuvo como objetivo desarrollar un método novedoso para abordar cambios semánticos a partir de la red social Twitter. Mediante el seguimiento de los tweets de un grupo de usuarios a lo largo de 3 períodos (2019/2020/2021), pudimos capturar cambios sutiles e informativos en las representaciones mentales léxicas. Encontramos que varias palabras se desviaron de sus vecindarios semánticos anteriores, revelando ahora asociaciones con la pandemia de COVID-19, como así también la emergencia de nuevas comunidades en la redes. Por lo tanto, el método propuesto podría ser útil para comprender cambios rápidos en el significado de las palabras en un escenario colectivo. 

 

Referencias

  1. Newman, M. E. and Girvan, M. (2004). Finding and evaluating community structure in networks. Physical review E, 69(2):026113.
  2. Bouma, G. (2009). Normalized (pointwise) mutual information in collocation extraction. Proceedings of GSCL, 30:31–40.
  3. Carrillo, F., Cecchi, G. A., Sigman, M., and Slezak, D. F. (2015). Fast distributed dynamics of semantic networks via social media. Computational intelligence and  neuroscience, 2015:50–50.
  4. Laurino, J., De Deyne, S., Cabana, A., and Kaczer, L. (2023). The pandemic in words: tracking fast semantic changes via a large-scale word association task. Open mind, pages 1–19.
  5. Qi, P., Zhang, Y., Zhang, Y., Bolton, J., and Manning, C. D. (2020). Stanza: A python natural language processing toolkit for many human languages. arXiv preprint arXiv:2003.07082.
  6. Serrano, M. Á., Boguná, M., and Vespignani, A. (2009). Extracting the multiscale backbone of complex weighted networks. Proceedings of the national academy of sciences, 106(16):6483–6488.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *