Ciencia de datos en beneficio de pronósticos meteorológicos
Alfredo Rolla es Profesional Principal del CONICET en el Centro de Investigaciones del Mar y la Atmósfera (CIMA). Se especializa en el desarrollo de aplicaciones usando modelos de crecimiento de cultivos, modelos climáticos y programación paralela y en el análisis y desarrollo de aplicaciones de tecnologías web para la visualización georreferenciada de datos. Colaboró en la segunda y tercera Comunicación Nacional de la República Argentina a la Convención Marco de las Naciones Unidas sobre Cambio Climático.
Es Calculista Científico (CAECE) y Especialista en Explotación de Datos y Descubrimiento del Conocimiento (UBA). Actualmente está desarrollando su Tesis de Maestría centrada en métodos de aprendizaje automático de calibración supervisados para eliminar los errores sistemáticos de los modelos de pronóstico dinámicos semanales.
En esta entrevista con el Blog Predictivos, Rolla profundiza sobre sus temas de investigación en el CIMA y nos explica cuál es el valor agregado que aporta la ciencia de datos a los modelos de clima.
¿Qué importancia tiene el CIMA en nuestro país?
El Centro de Investigaciones del Mar y la Atmósfera (CIMA) es un instituto CONICET-UBA cuya actividad está focalizada en la variabilidad y cambio climático, predicción del tiempo y del clima, estudio de los procesos físicos en el Atlántico Sur y el Mar Argentino y estudio de los procesos físicos e interacciones en los distintos Sistemas (Atmósfera, Océano, Tierra). Para alcanzar estos objetivos, la herramienta distintiva que usan los investigadores es el Modelado Numérico. Además de expandir el conocimiento de los procesos físicos que inciden sobre el comportamiento de la atmósfera y el océano, busca contribuir a la formación de futuros investigadores y técnicos y promover la transferencia de conocimientos y tecnología para beneficio de la sociedad.
Al mismo tiempo, el CIMA es sede del Instituto Franco-Argentino sobre Estudios de Clima y sus Impactos (IFAECI), por lo que pertenece también al CNRS (Centre national de la recherche scientifique), el equivalente al CONICET en Francia.
Hemos participado de las comunicaciones de cambio climático de Argentina para las Naciones Unidas. Particularmente estuve involucrado en la 2º y 3º comunicación y trabajé en el grupo que desarrolló los escenarios de cambio climático para que después otros grupos hagan los estudios de impacto.
Siendo uno de los especialistas en bases de datos, ¿en qué consisten tus investigaciones y cómo han avanzado estos proyectos orientados a cambio climático?
Llegué al CIMA en el año 2000, soy calculista científico y venía del área de la oceanografía. Al no ser meteorólogo, a lo largo de los años fui cursando materias de ciencias de la atmósfera y trabajando con meteorólogos, con el objetivo de comprender mejor el área. Pude detectar inicialmente uno de los problemas a enfrentar con los meteorólogos era el manejo de grandes volúmenes de datos porque, entre otras cosas, aparte de observaciones utilizan modelos dinámicos entendidos como sistemas de ecuaciones físico-matemáticas para estudiar la evolución del clima, que son generadores de “terabytes de datos”.
Todo esto me llevó a involucrarme en el manejo de Big Data para la elaboración de escenarios de cambio climático. Generalmente cruzamos información con diversos institutos de todo el mundo que generan escenarios de clima, esos escenarios hay que calibrarlos para Argentina y esas calibraciones, que solemos hacer con técnicas muy precisas, distribuirlas de algún modo en una base de datos. Los escenarios contienen variables de temperatura y precipitación de aquí al año 2100, en pasos diarios y en pasos mensuales.
Y a partir de allí surgió la plataforma CASANDRA para aplicaciones de impacto en agricultura…
Claramente, uno de los ejes de este trabajo es la plataforma CASANDRA, nuestra plataforma web diseñada para evaluar impactos y definir estrategias de adaptación al cambio climático. Destaco dos trabajos aplicados de temas que venimos estudiando hace tres años y sobre los que pudimos avanzar a partir de la plataforma; un primer trabajo en agricultura orientado a proyecciones de siembra de maíz, soja y trigo a partir de comparaciones de fechas de siembra actuales y a futuro y rendimientos del cultivo en cada una de las regiones. Uno de los problemas que vimos es que haciendo una proyección a 2099, con emisión de dióxido de carbono muy altas, se puede observar que habrá reducciones de rendimiento de maíz en la zona núcleo, con reducciones porcentuales que llegan incluso a cero.
En tanto que el segundo trabajo, publicado en Climatic Change, estuvo enfocado a la producción de ganado bovino de Argentina.
Durante el estudio se observó tanto el ganado de regiones áridas como el de la Pampa húmeda, donde hay más vacas para consumo humano. Y se observó que en las regiones donde más se podría producir el ganado de Argentina, y que serían aptas porque los animales viven en ciertos estándares de temperatura y humedad, se están comprimiendo y se moverían hacia el sur del país. Esto hará que a futuro el ganado deba modificar sus condiciones genéticas para sobrevivir, volviéndose más resistente a las altas temperaturas.
Creo que el valor de CASANDRA es que funciona como una plataforma de visualización de corridas de cambio climático para un futuro cercano y futuro lejano. A diferencia de los análisis que se solían hacer en agricultura y ganadería (que no integraban los datos de diversas regiones y veían cada punto por separado), puede integrar así como también procesar comparativamente todos los datos geográficos por región del país con un alto poder de cómputo y simulación de escenarios.
¿Qué dificultades encontrás habitualmente para atacar estos problemas y cómo ayuda la ciencia de datos a resolverlos?
Una de las cosas que aprendí en meteorología es que la atmósfera no es muy predecible. Tal como anticipó Edward Lorenz, la atmósfera es caótica y es muy difícil predecirla con precisión. Por ende tenemos una incertidumbre propia del trabajo con los pronósticos. Cuando uno se basa en modelos dinámicos, la manera de luchar con la incertidumbre es usando la probabilidad: se hacen muchas corridas usando técnicas probabilísticas, que generan una media y una variabilidad. No es posible estimar la temperatura de la semana próxima a partir de pocas corridas, por eso se realizan varias a partir de diferentes condiciones iniciales. En general estamos trabajando con 16 corridas de pronósticos.
El tema fundamental es cómo se comunica el clima a la población: debe quedar claro que siempre se comunica una probabilidad, que se entienda que la atmósfera es caótica y que este análisis está sujeto a errores e incertidumbre propia de los modelos, lo cual no suele ser comprendido por el ciudadano común. Hay un uso experimental por parte del Servicio Meteorológico Nacional y está plasmado en el portal CLIMAR, proyecto que es principalmente utilizado por pronosticadores y que está liderado por la Dra. Carolina Vera, quien es uno de mis directores de tesis de Maestría.
Esto está relacionado de alguna manera con tu Tesis de la Maestría en Explotación de Datos…
En cierta medida sí, porque la tesis está orientada a calibrar los modelos probabilísticos de los pronósticos semanales, para que individuos y organizaciones puedan tomar decisiones más confiables e ir eliminando los errores. Usualmente sucede que la predictibilidad es buena en la primera semana, los pronósticos responden muy bien desde el día 1 al día 5, pero después ya empieza a caer la precisión. Tenemos un desafío a nivel global que es mejorar la precisión de la semana 2, 3 y 4 usando pronósticos dinámicos de frecuencia semanal. Por ahora te puedo decir que vendrá una semana sin lluvias, pero si me preguntás más allá en la escala temporal el asunto se complejiza. Incluso en los modelos globales, las semanas 3 y 4 se estudian juntas, lo cual es un problema. A diferencia de la semana 1 donde la precisión es de 0,8 AUC, y de la semana 2 con 0,65 AUC, la precisión de la semana 3 suele ser 0,5 AUC, casi como tirar una moneda y ver qué sale.
El desarrollo propuesto en mi tesis utilizará modelos de pronósticos dinámicos como CFSv2 (NCEP Climate Forecast System versión 2) y GEFS (NOAA Global Ensemble Forecast System) y aplicará métodos de aprendizaje automático de calibración supervisados para eliminar los errores sistemáticos de los modelos dinámicos. El carácter probabilístico y calibrado del producto, sumado a una verificación del desempeño en la región de interés, contribuirá a elevar el valor socio-económico de los mismos para la toma de decisiones.
Estoy convencido de que si logramos resultados con visualizaciones de mapas de probabilidad, que filtren información cruda e indiquen en qué lugares geográficos hay más certeza en los modelos de pronóstico y en qué lugares hay menos, se podría ayudar sustancialmente a los pronosticadores y a los servicios climáticos en general. Asociado a este tema de toma de decisiones, desde 2016 participamos en el proyecto internacional CLIMAX cuya metodología innovadora apunta a lograr un trabajo conjunto entre los investigadores y los diversos actores interesados para producir las herramientas y conocimiento climático regional. Ya hemos realizado un valioso aporte científico en Chaco, para ayudar a la comunidad a monitorear y predecir el comportamiento del clima en el Departamento Bermejo. La aplicación está disponible en la web pero próximamente funcionará en el celular. En particular, “Diálogo Bermejo” tuvo una mención en NATURE.
Experiencia de Alfredo Rolla en la Maestría en Explotación de Datos
«Cursando la Maestría tuve profesores de excelencia con mucha experiencia, que me transmitieron su conocimiento práctico. Mi propósito fue buscar nueva información y conocimientos para poder aplicarlos aquí en el CIMA. Y realmente me dio resultado: con lo aprendido en la Maestría, escribí un Framework que lo usaron luego en el instituto, fui codirector de dos tesis de licenciatura en Meteorología y dos estudiantes usaron ese Framework para hacer modelos de pronóstico estacional. Pude generar un modelo estacional de lluvia para el verano, aplicado en la región pampeana. Además utilicé metodologías de clusterización que sirvieron para enriquecer estas investigaciones.
De este modo, aproveché las técnicas y conocimientos obtenidos en ciencia de datos para trabajar en temas de ciencia de la atmósfera y de esta manera potenciar el uso de metodologías alternativas.
Al mismo tiempo, entre mis compañeros surgió un grupo humano excepcional, ya que con varios de ellos nos seguimos comunicando, intercambiando inquietudes de análisis de datos y encontrando en reuniones sociales.»