Ciencias sociales computacionales: cuando los datos y el aprendizaje automático ayudan a pensar la sociedad
Germán Rosati es profesor de la Maestría en Ciencia de Datos, donde dicta Visualización de la Información. Es investigador de CONICET en la Escuela Interdisciplinaria de Altos Estudios Sociales de la Universidad Nacional de San Martín (EIDAES-UNSAM) y trabaja en la aplicación de métodos de Machine Learning a las Ciencias Sociales y al análisis de texto.
Allí en UNSAM coordina la Diplomatura en Ciencias Sociales Computacionales y Humanidades Digitales y factor~data, un laboratorio en Ciencias Sociales Computacionales. También en IDAES es Profesor Titular de «Técnicas de Investigación Cuantitativa» en las carreras de Sociología y Antropología.
En cuanto a su formación es Doctor en Ciencias Sociales y Licenciado en Sociología por la Universidad de Buenos Aires y Magíster en Generación y Análisis de Información Estadística por la Universidad Nacional de Tres de Febrero.
Durante esta entrevista con Predictivos, Germán relata de qué modo aplicar la visualización de datos para mejorar la toma de decisiones, su mirada sobre el auge de la IA Generativa y cómo las ciencias sociales computacionales pueden contribuir a resolver problemas más eficientemente.
En primer lugar, quería hablar de tu rol como profesor en la Maestría.
Estoy dictando la materia Visualización de la Información junto con Claudio Delrieux y Paula Feldman. Es una materia optativa dentro de la Maestría, aunque a veces termina funcionando como obligatoria de acuerdo a la oferta de ese cuatrimestre.
En la última cursada tuvimos alrededor de 17 inscriptos con muchísimo interés y participación. Creo que es una materia atípica respecto al plan de estudios, ya que tiene una componente de diseño visual, no sólo de ciencia de datos. Está toda la parte de análisis de datos pero hay buena parte de discusión sobre cuestiones de “diseño”: qué elementos tiene una visualización, cómo construirlos de forma efectiva, cómo disponerlos en el “lienzo”, cómo trabajar un dataset para hacer una visualización que sea efectiva, innovadora e interesante. Eso nos lleva a tocar temas que (en apariencia) están poco relacionados con la ciencia de datos como la teoría del color, por ejemplo.
Siempre hay más de una decisión posible sobre cómo presentar los datos y proponer visualizaciones. Sobre todo en el práctico, quienes cursan encuentran esta riqueza en ver que en un mismo dataset se puede resolver problemas de formas distintas y discutimos visualizaciones que hicieron otros, por lo que siempre hay varias respuestas posibles.
¿Podrías contar algún ejemplo de estas visualizaciones que hayan trabajado en la materia?
Trabajamos un poco el marco conceptual de la materia con la propuesta de Edward Tufte, profesor emérito de Yale, estadístico y además escultor. Todo un personaje. Él tiene una postura minimalista extrema, por así decirlo, al respecto de la forma y los elementos que tiene que contener una visualización.
Tufte plantea que las visualizaciones tienen que tener lo mínimo e indispensable y ni un puntito de tinta de más, o en este caso ni un píxel de más ahora que todo es digital.
Trabajamos una serie de ejemplos que analiza él en uno de sus libros. Hay un ejemplo que es de los más conocidos, el del accidente del transbordador espacial Challenger. En 1986 explotó pocos segundos después del despegue, por lo que murieron sus siete tripulantes.
El análisis forense de las causas de la explosión evidenció que fue provocada por una falla en las juntas que separaban a los propulsores del combustible de hidrógeno líquido debido a la baja temperatura del día del lanzamiento (mucho más baja que las de los días que se había hecho en los ensayos). Pero lo interesante es que hay un informe previo en el que los técnicos ya habían identificado esa relación entre fallas y temperatura y habían alertado sobre los riesgos.
En su libro Visual Explanations, Tufte analiza el informe y propone un gráfico de dispersión (scatter plot) para mostrar la relación entre la temperatura y el daño de las juntas (cuanto más frío mayor era el daño), extiende el gráfico para mostrar cómo la temperatura pronosticada para el día del lanzamiento se encontraba en una zona de alto riesgo, muy por fuera de las observaciones anteriores. Y su conclusión es que una visualización tan clara habría hecho que la decisión de lanzar el transbordador en esas condiciones fuera insostenible.
Para resumir, Tufte muestra, bastante convincentemente, cómo un mal diseño de la información impidió a los tomadores de decisiones comprender los riesgos y propuso una solución a esa falta de visualización clara.
Con esos extractos del informe, en la materia discutimos cómo se dispuso la información y vemos qué propuestas de “corrección” se podrían hacer. Está bueno porque es un caso bastante integral, no es un ejemplo suelto.
Tomamos, también, el caso famoso del mapa de cólera de John Snow, y trabajamos con visualizaciones del INDEC y de trabajos académicos. La idea es detectar puntos débiles en la visualización y proponer mejoras.
En cuanto al eje de tus proyectos que es el de las ciencias sociales computacionales, te quería preguntar cómo surgió tu conexión entre lo que son las ciencias sociales y el análisis de datos con herramientas de IA.
Mi formación de grado es en sociología e hice una maestría en estadística y después el doctorado en ciencias sociales. Hace unos cuantos años que empecé a trabajar con estas técnicas, primero en consultoría con datos más tradicionales (encuestas, censos, datos de nivel socioeconómico, etc.).
Después hará unos doce años, un poco por interés propio pero también por necesidad laboral, me metí en cuestiones vinculadas al aprendizaje automático.
Al principio en un proyecto con el ex Ministerio de Trabajo, en la Secretaría de Información Estadística, donde se generó un modelo de imputación de datos de ingreso, usando una serie de técnicas lazo. Ese estudio después salió publicado en una revista de ciencias sociales.
Y luego mi trabajo se orientó más a proyectos de procesamiento del lenguaje natural (NLP) aplicado a problemas sociales.
Si bien la sociología siempre fue acompañando a la ciencia de datos, aún no habría una comunidad tan grande en Machine Learning aplicado a ciencias sociales. ¿Coincidís con esta visión, es una cuestión de madurez de la interdisciplina?
Creo (o más bien espero) que este campo disciplinar no tan nuevo que se llama “ciencias sociales computacionales” apunta a romper esa barrera. Pero el Machine Learning debería ser una herramienta más para las ciencias sociales. Aunque todavía no lo sea, por lo menos en Argentina.
Pero lo que sí veo, entre los estudiantes de grado y particularmente en las carreras de sociología y antropología de la UNSAM, donde doy clase, es cada vez mayor interés por estos temas. Ahí armamos un trayecto de cuatro materias optativas, y también un diploma en Ciencias Sociales Computacionales y Humanidades Digitales. Eso está empezando a vincular métodos “computacionales” o de aprendizaje automático con las ciencias sociales, aunque la coyuntura nos muestra que no es el mejor momento para las ciencias y la investigación.
Empezar a incorporar estas herramientas en la formación de grado es clave. Coincido con el diagnóstico de que parte del problema tiene que ver con la madurez relativa en las disciplinas. Habrá que ver qué pasa en este contexto de ataque bastante fuerte a la ciencia en general, pero que tiene especial ensañamiento con las ciencias sociales en particular.
De hecho, hoy vi un tweet de Roy Hora, un historiador destacado, que mostraba las inscripciones a las carreras a las facultades de la UBA y la matrícula en ciencias sociales habían caído como un 40% la facultad. Y se iba incrementando en las carreras STEM.
Cambiando un poco de tema, el auge de la IA Generativa y los LLM, lleva a que cada vez haya más herramientas para el análisis textual. ¿Qué aportes te parece que pueden ser interesantes para aplicaciones sociales y qué problemáticas ves, donde la IA aún no resuelve bien los problemas y se sigue necesitando un fuerte apoyo humano?
Es bien complicada la cuestión. Por un lado, creo que hay toda una serie de tareas del proceso de investigación en las que los LLMs tienen una performance alta. Creo que estas herramientas podrían ayudar a automatizar esas tareas, aunque sea parcialmente. Hablo, específicamente de las ciencias sociales, aunque quizás haya puntos en común con otras disciplinas.
Tareas vinculadas a la clasificación de texto, codificación de preguntas, análisis de entrevistas, en fin, todas aquellas operaciones que tengan que ver con el trabajo sobre texto abierto.
De hecho, hay varios trabajos científicos que tratan de medir la performance de distintos LLM en esas tareas, y la evidencia muestra que hay un campo de aplicación bastante promisorio.
Después está el otro uso que se hace, que para mí está menos sistematizado, que es el uso del modelo de lenguaje como un asistente.
Por ejemplo, para hacer un brainstorming es muy útil. No porque el resultado que devuelve el LLM pueda ser usado directamente y sin mediaciones. Más bien hay un ida y vuelta entre el planteo de una pregunta, el diseño de un primer argumento, la puesta en cuestión de ese argumento, etc. Se abre ahí un proceso que es interesante pero que tampoco es tan diferente a lo que uno podría llegar intercambiando con colegas. Claro que es una utilidad acotada a una serie de tareas específicas.
También está la otra la posibilidad de aliviar parte la carga del trabajo más burocrático. La redacción de informes de resultados, de solicitudes de becas, subsidios, etc. en el sistema científico, al menos, es un género discursivo bastante estandarizado y estructurado. Hay espacio, entonces, para usar RAG sofisticados, como el de la herramienta NotebookLM, ayuda a por lo menos a ordenar la información para después avanzar. Creo que en esas tareas hay más ventajas que riesgos.
Por último, es necesario remarcar que las preguntas todavía las seguimos planteando los seres humanos y lo que hacen las herramientas es asistirnos en esas respuestas. Si bien hay algunos papers dando vueltas donde se intenta armar un pipeline de investigación totalmente automatizado, aún no tenemos del todo claro qué puede pasar. Todavía parecen más bien “juguetitos” -aunque hace 5 años esos “juguetitos” eran medio impensables-
Aventurándonos bastante, ¿qué pasaría si el día de mañana la IA con toda esa base de prompts, de preguntas humanas, acumule muchas preguntas y respuestas, y empiece a tener autonomía para que se genere una inteligencia artificial general que se pueda usar para tareas críticas o más riesgosas, cuál sería la ética de ese fenómeno?
Creo que por ahora estamos lejos de una inteligencia artificial general, aunque ahora estemos más cerca que hace cinco años. Es cierto que había cosas que eran medio impensables hace cinco años y hoy son bastante plausibles. Pero como mínimo estamos más cerca -o quizás ya llegamos- de un modelo general de lenguaje, que pueda resolver muchas cosas al mismo tiempo.
En todo caso, entre la eventual aparición de una inteligencia artificial general y este fenómeno de los LLM y del Machine Learning, hay toda una serie de usos que sí son muy problemáticos y son urgentes de resolver.
Supongamos que una empresa decidiera hacer una búsqueda laboral y decidiera filtrar currículums con algún LLM, que de hecho en algún punto es lo que se está haciendo. En este caso, uno quisiera que el LLM, por ejemplo, no filtre esos CVS en función de sesgos previos que aprendió en su proceso de entrenamiento; es decir, que no excluya personas en función del lugar en el que viven, de su género, de la escuela a la que fueron, etc. Todos estos sesgos que vienen por defecto en los LLM pueden ser, efectivamente, un gran problema para ese tipo de tareas.
También es preocupante los usos vinculados al reconocimiento facial, que si bien no son LLMs, hay un claro uso del aprendizaje automático y la IA muy direccionado hacia eso.
Hay una primera pregunta, que es de carácter ético o político y que es previa a la discusión acerca de cómo funcionan esos sistemas: ¿por qué el Estado (o una empresa) tienen que reconocer mi cara en la calle que es un “indicador” de mi propia identidad, en la calle?
Supongamos, sólo por avanzar en el argumento porque yo no estoy de acuerdo con esto, que nos pusimos de acuerdo en que está bien que nos anden sacando fotos, tomando videos y reconociendo el rostro; a partir de ese acuerdo se abren toda una una serie de problemas en los en modelos que realizan esa tarea de detección.
Hay infinidad de casos dando vueltas. El más reciente que recuerdo en Argentina es el del actor cómico Osqui Guzmán, que fue confundido por uno de esos sistema como “chorro” por el “algoritmo”. En Estados Unidos existe la “Liga por la Justicia Algorítmica”, un equipo de investigación que hace unos años mostraron los sesgos que tienen este tipo de herramientas (de clase, raza, etc.)
Una capa de problemas adicionales tiene que ver con que los gobiernos tienden a comprar paquetes o productos medio enlatados para ese tipo de tareas, que no consideran una solución a esos sesgos, y eso sí es muy problemático.
En esta última parte quería consultarte sobre el proyecto de Factor Data y si podrías mencionar un caso de uso que hayan encarado en ciencias sociales computacionales para resolver alguna problemática social.
Bien, te cuento, Factor Data está dentro de la EIDAES-UNSAM, donde tenemos distintas formas de constituir equipos investigación, y es lo que se llama un núcleo.
IDAES forma parte de un centro de investigación, que se llama CeSDi-Centro de Estudios sobre Sociedad Digital, donde se integraron en un marco común todas las investigaciones de la UNSAM relacionadas a la inteligencia artificial, la digitalización y las plataformas.
Dentro del CeSDi existen proyectos vinculados con las técnicas metodológicas (ciencias sociales computacionales, etnografías digitales), y su impacto en distintas dimensiones de la sociedad (digitalización de la cultura, la economía, el trabajo, las cuestiones de género y otras). Pero nosotros abordamos los que tienen que ver con ciencias sociales computacionales.
Y trabajamos en tres líneas 1) Investigación básica; 2) Investigación aplicada a proyectos de ciencias sociales computacionales 3) Formación (trayecto de materias y diplomatura mencionada anteriormente).
Y Factor Data articuló esa integración: es un espacio abierto de experimentación que busca potenciar el desarrollo de las Ciencias Sociales mediante la promoción del uso de fuentes de datos (nuevas y tradicionales) y la aplicación de técnicas computacionales de análisis de datos.
Quisiera mencionarte un proyecto más aplicado, uno que realizamos durante la pandemia para el Municipio de Vicente López.
Era en el momento más duro del aislamiento y allí el Municipio tenía una serie de voluntarios que recorrían los domicilios de los adultos mayores y les preguntaban qué necesitaban, qué problemas tenían y en qué les podían ayudar.
Los voluntarios relevaban las respuestas en una planilla Excel o en alguna herramienta de ese estilo, es decir, un punteo de las cosas que les comentaban los vecinos de cada hogar. El problema era que la información textual no estaba estructurada. Entonces el Municipio se encontró con que necesitaba identificar qué pasaba allí.
Nosotros tratamos el problema como una tarea de clasificación de texto, que intentaba analizar cada comentario en los hogares y detectar si eso era un pedido de ayuda, un pedido de acompañamiento o si no había ningún tipo de requerimiento.
Ese proyecto fue muy interesante porque supuso hacer todo esto en el contexto del 2020 y todavía no había LLM. Entrenamos un pequeño modelo basado en word embeddings (modelo FastText de dos capas) y armamos una pequeña API en Python para que la usaran los analistas del municipio. Fue bastante desafiante en ese momento pero ayudó al Municipio a mejorar la toma de decisiones con datos concretos.
En definitiva, es otro ejemplo de que el uso del Machine Learning tiene que incorporarse cada vez más a las problemáticas sociales.




