Vinculación desde la ciencia de datos

La Maestría está creando un área de Vinculación destinada a potenciar, por un lado, la interacción con sectores públicos para participar en proyectos de la sociedad y problemas de políticas públicas donde la intervención con datos masivos tenga un valor agregado. Y, por otro lado, generar contenidos a modo de publicaciones (trabajos académicos, artículos, tesis, etc.) relacionadas con el uso de datos públicos.

Para conocer más sobre la iniciativa, conversamos con Matías Iglesias, designado como responsable del área. Matías es Licenciado en Física (UBA) y Doctor en Economía (Universidad de Pisa). Como científico contribuyó en ingeniería de dispositivos cuánticos en el Instituto Tecnológico de California y más recientemente en análisis de geografía económica en la Escuela de Gobierno de Harvard. Ha desarrollado repositorios de software para el mapeo interactivo de ingresos y pobreza en Argentina, la compilación de microdatos de la Encuesta Permanente de Hogares y el entrenamiento de modelos con Machine Learning para complementar entradas del Censo.

En esta entrevista con el Blog Predictivos, Matías comenta sobre los desafíos que implicará la vinculación desde la Maestría, con sede en la Facultad de Ciencias Exactas y Naturales (FCEN).

¿Cuál es el potencial que tiene la vinculación para la Maestría en Data Mining? 

Lo que llamamos vinculación tiene que ver con la relación de la Maestría con el afuera de la FCEN. Para entender un poco mejor el porqué de un área de vinculación tenemos que observar el contexto en que nos encontramos.

Por un lado, la FCEN es una autoridad en trabajo con datos duros por dedicarnos a las ciencias naturales. La novedad de esta etapa es que muchas cuestiones humanas ahora vienen descriptas en detalle en montañas de información, pero no cualquiera domina técnicas complejas que pueden sacarle el jugo a esos datos. Por eso en este momento se da la paradoja de que hay muchos resultados en temas sociales a los que puede acceder la FCEN, y no las instituciones originalmente dedicadas a eso. Digo la FCEN, pero en realidad tendría que hablar de los múltiples centros de estudio de ciencias de datos que hay en el AMBA y en el país. El mismo escenario se da en otros lugares, no es una situación propiamente Argentina.

Los datos en general tienen algún dueño, que genera y mantiene la información. En cuestiones sociales muchas veces los dueños son oficinas públicas. En esos casos, si nosotros queremos acceder a esa información puede que tengamos que dialogar con estas oficinas públicas. Ahí es donde entra la función más clara del área de vinculación.

Por otra parte, el sector privado tiene una variedad de objetivos particulares y contratan talento para cumplirlos. En cambio, el sector público tiene entre sus objetivos cuestiones de bien público, pero depende de procesos más paulatinos para adaptarse a nuevas realidades tecnológicas, y tiene limitaciones para contratar talento. 

Ahora bien, resolver problemas públicos puede significar un beneficio importante para todos, entonces, vale la pena explorar formas innovadoras mediante las cuales el talento de la FCEN pueda ser analista de información detallada, actualmente en manos de oficinas públicas. Está claro que el Estado no va a tener en el corto plazo capacidades de análisis de datos sofisticado dentro de su estructura, con lo cual para ellos delegar en centros de investigación es un camino que les puede rendir. Así que vamos a buscar los marcos normativos y prácticos para que eso suceda. Esperamos recorrer caminos en los que todos podamos aprender algo. 

¿Creés que el sistema político tendría en cuenta posibles resultados sociales obtenidos por grupos de la FCEN?

Sin duda. Te doy un ejemplo que conozco de primera mano: el cálculo de la incidencia de la pobreza. Es un problema que con un poco de machine learning podemos tratar con facilidad. Por ejemplo, entrenando modelos de clasificación y regresión en encuestas de hogares y usándolos para predecir ingresos de hogares que figuran en el censo. Después hay que comparar los ingresos con el valor de las canastas y se determina la condición de pobreza o indigencia para cada hogar en la muestra. Con ese ejercicio obtenemos una estimación de ingresos y pobreza en cada barrio de la Argentina, que se puede combinar también con variables como la edad, el género, los estudios alcanzados, la composición familiar, entre muchas otras. Esto que te acabo de describir, ya es un análisis mucho más sofisticado que el que siempre ofrecieron el INDEC y otros grupos de investigación que usan los métodos tradicionales para estimar pobreza. Entonces, siendo la FCEN una institución capaz de dominar técnicamente este tema, ¿tenemos que ponerlo en común o delegamos en los otros y que se sigan haciendo cargo de todo?

Son caminos a elegir, tampoco digo que porque podamos medir algo mejor que los demás, obligatoriamente tengamos que hacerlo. Lo que sí, son oportunidades para que compartamos nuestra impronta hacia la sociedad. Nosotros naturalmente podemos ofrecer todos los pasos intermedios para que sean estudiados, mantenemos códigos abiertos, los automatizamos para que no nos consuma esfuerzo humano. En este caso, estimar la distribución de ingresos en todos los barrios del país todos los meses y generar informes periódicos. Entonces también son oportunidades de compartir nuestra forma de conocer el mundo con otros actores de la sociedad y puede ser algo muy valioso para todos.

Creo que tenemos que irnos acostumbrando a que la irrupción de la información digital es una bisagra a partir de la cual la facultad de Exactas está llamada a ser autoridad en el estudio de ciertas cuestiones cuantificables que tradicionalmente nos eran ajenas. Aunque esto nos choque en un principio, tengamos en cuenta que los datos (evidencia empírica) son un pilar importantísimo en el trabajo científico, por eso los conocemos muy bien. Hoy la sociedad necesita nuestra experiencia con datos naturales, para entender observaciones en el mundo humano. En realidad, tampoco tienen que ser temas estrictamente humanos por decirte algo, la detección de animales en imágenes satelitales o el monitoreo del suelo también es ciencia de datos. Lo que es seguro es que estamos frente a escenarios nuevos a los que podemos sacar provecho si logramos adaptarnos.

¿Quiénes integrarían el grupo de trabajo, sólo la Maestría en Data Mining u otros ámbitos de la Facultad?

Este área de vinculación que estamos estableciendo es propia de la Maestría. De todos modos, obviamente hay una convivencia natural con otras áreas de la facultad, sobre todo con el Departamento de Computación. Creo que hay un sentimiento compartido en gente de distintos departamentos de querer invertir un poquito de energía para impulsar el análisis de datos en problemas públicos complejos. Es un camino con desafíos, y creemos que los que tengamos ese norte debemos sí o sí complementarnos y no trabajar aisladamente o duplicando esfuerzos.

¿Con qué instituciones públicas y/o actores imaginás que se podría generar la vinculación y qué temas serían prioritarios?

Hay dos planos que hay que tener en cuenta. Por un lado, el mundo de la formación en ciencias de datos y por el otro el de las administraciones públicas. Los dos son importantes pero son cuestiones distintas.

En cuanto al tema de la formación, tengamos en cuenta que tal como ocurre en otras carreras científicas y técnicas, estudiar ciencia de datos no es sencillo, ni para los estudiantes, ni para los docentes e investigadores. Algo que ayuda, obviamente, es la interacción entre pares. Pero los centros de estudio que hay por separado en el AMBA, no alcanzan un tamaño crítico por el momento. Es una cuestión de escalas, no se avanza igual de fuerte teniendo 2000 estudiantes y docentes concentrados en un pabellón de una facultad (como pasa en algunas carreras), que con 500 personas en 15 centros de estudio diferentes. La persona especialista en ese tema que vos querés consultar probablemente trabaje en otro centro de estudio. Lo que tenemos a favor es que el AMBA sí tiene una masa crítica que hay que aprovechar y por eso vamos a buscar dar vitalidad a todos los ámbitos de encuentro de la comunidad de ciencias de datos metropolitana, aunque tengan que ser virtuales en épocas de pandemia.

El otro plano, como te decía, es el de las administraciones públicas. Como ya mencionamos, nuestro objetivo es poder analizar datos detallados cuyos dueños son oficinas del gobierno. Esto implica un desafío en parte técnico pero también político de nuestra parte, para que se presten a compartir información con grupos de investigación científica. El beneficio para todas las partes es claro, pero puede que nos encontremos algunas dudas u obstáculos que habrá que ir trabajando.

En el AMBA, tenemos sedes del gobierno nacional, gobiernos provinciales y municipales. Todos ellos, deberían tener un área responsable de políticas de datos, generalmente junto a otras oficinas de modernización y dependiendo de la jefatura de gabinete o la gobernación. Para hacer las cosas bien, lo que necesitamos es planificar junto con estas oficinas de modernización la vinculación con las distintas dependencias de los gobiernos. Este proceso lo vamos a iniciar en las próximas semanas, con lo cual por el momento no tenemos detalles. Sabemos igualmente que en algunos ministerios les interesa la colaboración con la FCEN y están expectantes de que se pueda contar con el apoyo de las áreas de Datos del gobierno para establecer lineamientos de trabajo e ir avanzando en colaboraciones concretas.

Mientras buscamos datos afuera, no nos olvidemos que hay temas interesantes e importantes para los cuales el dueño de los datos es la facultad. Por ejemplo, algunos datos del sistema de inscripciones junto con algunos detalles que se registran en la inscripción a Exactas y junto a otros datos abiertos nos permiten estudiar y entender ramificaciones de la deserción o directamente la falta de acceso a nuestra facultad por temas socioeconómicos, de género, de familia o hasta geográficos. Hay que resguardar la privacidad de las personas, claro que sí, pero no perdamos de vista en este caso, que podemos llegar a entender las trayectorias educativas, y eso además de servir en el presente tiene una importancia central en planes de mediano y largo plazo. Creo que podemos generar tanto para beneficio académico como de la sociedad esos estudios estratégicos, simples y a la vez sofisticados, y estamos en condiciones de hacerlo. 

Por último, ¿qué rol podrían tener los estudiantes en toda esta iniciativa?

Los estudiantes generalmente van a ser protagonistas. Confío en su gran capacidad, el empuje que tienen, y un componente innovador que vamos a acompañar. Y vamos a buscar que efectivamente haya tiempo de cabeza y CPU puesto en una variedad de problemas interesantes, en el marco de materias, trabajos de tesis o talleres. También jornadas especiales como hackatones. Esperamos que todas estas cuestiones sean un logro colectivo de la comunidad de datos de exactas. 

Quiero aprovechar el espacio para hacer un llamado a todos los que comparten esta inquietud de querer fortalecer la formación en ciencia de datos y que la facultad pueda innovar en el análisis de datos estratégicos, a que se comuniquen por mail con la maestría (data_mining@dc.uba.ar) si es que todavía no lo hicieron. Seguramente hay iniciativas interesantes de parte de gente en la FCEN o en otras facultades que sinceramente no conocemos, les pido que también las mencionen en su mensaje para que podamos percibir mejor el ecosistema de la formación en ciencias de datos en el AMBA, y que compartan además esta nota a la gente a la que pueda interesarle la vinculación con la Maestría en Data Mining de Exactas.

Por último pedirle a la comunidad que fortalezcamos los espacios virtuales donde se comparten ideas. Si conocen grupos en redes sociales y otros foros, por favor dejen los links asentados en los comentarios y participemos en esos espacios. Necesitamos un esfuerzo especial para torcer el brazo al aislamiento social por la pandemia que ralentiza todo tipo de proyectos. Hay que tener espacios virtuales bien activos en este contexto. Todo este proceso esperamos recorrerlo junto a los estudiantes y la comunidad entera de la facultad. La ciencia de datos es algo nuevo para todos, no está todo resuelto y ningún encargado tiene la respuesta a todo.


La experiencia de Matías Iglesias contada en primera persona

Dr. Matías Iglesias

“Me gradué en Física en Exactas y completé en 2020 el doctorado en Economía. Entre esas dos cosas, además de la matemática, por supuesto, un factor común es la ciencia de datos. Es algo que en Laboratorio 1 de física ya está presente. Aunque tengo que decir que en un principio no lo reconocía como algo demasiado importante. Una vez graduado, en 2015 hice una visita en un instituto muy interdisciplinario y ahí escuche por primera vez hablar de Data Science, además de machine learning, computer vision, entre otras cuestiones que iban avanzando vertiginosamente. En ese momento encontré la forma de hacer el doctorado en Economía, y lo hice siempre teniendo al trabajo con datos en un lugar central. Por un lado, porque lo que me quedó de los mejores experimentos que hice en física es que uno tiene que conocer y entender con máximo detalle lo que tiene entre manos, si quieres que las cosas te funcionen. Y por otro lado porque empecé a notar los muchos problemas abiertos que tenemos en nuestro país, que por primera vez pueden abordarse muy satisfactoriamente por medio de los nuevos datos que van surgiendo en esta revolución digital que transitamos.

Después me invitaron a contribuir desde el ‘Center for International Development’ (CID), que es el centro con más clara impronta latinoamericana y del mundo en desarrollo en la Universidad de Harvard. Eso fue muy interesante para mí, porque el CID tiene sede en la Escuela de Gobierno de Harvard (HKS). Siempre tomé parte en proyectos políticos acá en Buenos Aires, fui aprendiendo informalmente, como todos. Pero en HKS la actividad política se estudia racionalmente y se profesionaliza. Eso complementó mi formación también y me ayudó a reconocer que este modo de vida, que me gusta elegir, también cumple funciones que la sociedad necesita. Pero hay que tomárselo en serio, no andar improvisando”.

Facebooktwitterlinkedin

3 responses to “Vinculación desde la ciencia de datos”

  1. Daniel Gomez dice:

    Excelente oportunidad para toda la comunidad cientifica.
    Exitos!!!

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *