Caracterización y modelado de eventos extremos en estaciones centenarias de las cuencas del Paraná, Uruguay y Limay.

Por Luciana Quarracino (Licenciada en Economía-UBA, Magíster en Explotación de Datos y Descubrimiento del Conocimiento y actual Analista de Planificación Comercial en AES Argentina Generación).

El presente artículo constituye una síntesis de los principales resultados obtenidos en el marco de la investigación desarrollada para la tesis de la Maestría en Explotación de Datos y Descubrimiento de Conocimiento de la Universidad de Buenos Aires. El objetivo general del trabajo fue caracterizar el comportamiento hidrológico de ríos estratégicos para el desarrollo económico y social de la Argentina, a partir del análisis de series históricas centenarias de caudal. En este sentido, se propone un abordaje metodológico que combina técnicas de análisis exploratorio, estadística multivariada, clusterización y modelos de predicción, con el fin de aportar herramientas que permitan una mejor comprensión y anticipación de eventos extremos en las cuencas del Paraná, Uruguay y Limay. Este estudio se inscribe en una línea de investigación orientada al fortalecimiento de las capacidades de planificación y gestión de los recursos hídricos.

Los recursos hídricos resultan ser fundamentales para el progreso económico y social de un país. En particular, en la Argentina ciertas cuencas son esenciales para el desarrollo de la agricultura, la generación de energía eléctrica y el turismo, así como también para la navegabilidad asociada tanto a las importaciones como a las exportaciones. De esta manera, es fundamental el continuo estudio hidrológico para la generación de sistemas de caracterización, prevención y alerta en las distintas cuencas de nuestro país, procurando cooperar hacia un manejo adecuado de los distintos cuerpos de agua. (1) (2)

Para hacer el análisis que dio lugar a nuestro trabajo, se han considerado tres ríos fundamentales: el río Paraná y el río Uruguay, ambos pertenecientes a la Cuenca del Plata, y el río Limay, perteneciente a la cuenca del río Negro. Los primeros dos se ubican en gran parte en la región este y noreste de la Argentina, mientras que el tercero se encuentra en la región Patagónica. La selección de estos ríos no ha sido arbitraria: los mismos representan un accionar fundamental en distintos sectores económicos de la Argentina (agricultura, energía, exportaciones, entre otros). 

A partir del estudio de los tres ríos, el trabajo realizado buscó obtener, en primer lugar, una caracterización básica de las series temporales de caudal, para luego realizar un análisis predictivo de las mismas.

En particular, mediante la caracterización de los ríos se ha intentado identificar, clasificar y agrupar, para cada río, patrones temporales anuales que presenten ciertas similitudes, explorando sus posibles causas. Además, se enfocó en poder determinar si ese agrupamiento resulta ser consistente en los tres ríos de interés. De esta manera, se han explorado distintos modelos predictivos con el objetivo de determinar una posible planificación futura del uso de los sistemas hídricos, considerando las características propias de cada año hidrológico, así como también su relación con las distintas oscilaciones climáticas, tales como el ENSO (El Niño–Southern Oscillation).

Datos

Los datos utilizados en el presente estudio corresponden a la información histórica del caudal medio diario de los tres ríos de interés: Paraná, Uruguay y Limay.

Estos datos fueron obtenidos del Sistema Nacional de Información Hídrica (SNIH), bajo la jurisdicción de la Secretaría de Infraestructura y Política Hídrica de la Nación, y de la Autoridad Interjurisdiccional de las Cuencas de los ríos Limay, Neuquén y Negro (AIC). El conjunto de datos contiene registros históricos diarios de caudal promedio medidos en m³/s desde el 31 de marzo de 1921 hasta el 1 de enero de 2021.

En el presente trabajo de tesis se utiliza el término crónica hidrológica o simplemente crónica para hacer referencia a un período específico de tiempo en el que fueron recopilados y registrados dichos datos a lo largo de diferentes estaciones del año. En este caso, cada crónica tiene una duración de 12 meses.

Asimismo, los datos fueron sometidos a un control de calidad que involucró la identificación de datos erróneos o atípicos y la aplicación de técnicas apropiadas de tratamiento de datos faltantes.

Caracterización de los ríos Paraná, Uruguay y Limay

Metodología

Para abordar las metas planteadas relacionadas con el estudio de las series de tiempo de los ríos Paraná, Uruguay y Limay, con el fin de caracterizar los tres ríos, se aplicaron las técnicas metodológicas que se describen a continuación.

En primer lugar, fueron aplicadas técnicas de tratamiento de los datos faltantes así como también un análisis de correlación de los datos. (3) Asimismo, fueron creadas nuevas variables a partir de medidas de estadística básica que permitieran caracterizar el conjunto de datos. 

Finalmente, para el caso en el que se observasen variaciones en la tendencia de las series temporales, fue aplicado el Test estadístico de Chow (4) con el objetivo de comparar dos modelos de regresión lineal estimados en diferentes períodos de tiempo o en diferentes subconjuntos de datos.

Resultados y conclusiones

El análisis exploratorio realizado en este estudio permitió obtener conclusiones específicas para cada uno de los ríos analizados, así como también algunos resultados generales que se presentan a continuación.

En primer lugar, tal como se observa en la Figura 1 para el río Paraná, se observó un cambio en la tendencia de los datos a partir de la década de 1970, especialmente en los valores mínimos y medianos. Esta modificación fue confirmada mediante el test estadístico de Chow. Además, se detectó que los valores máximos del caudal presentan mayor variabilidad a lo largo del tiempo en comparación con los valores mínimos.

Figura 1 – Gráfico de medidas estadísticas descriptivas anuales de las crónicas hidrológicas del período 1904-2020 del caudal del río Paraná, medido en la estación 3805, Corrientes.

En cuanto al comportamiento anual del caudal, tal como se puede observar en la Figura 2, el río Paraná muestra una estación húmeda entre diciembre y mayo, y una estación seca en septiembre. Los picos de caudal máximo suelen darse entre junio y agosto, en coincidencia con eventos del fenómeno El Niño.

Figura 2 – Gráfico acumulado de medidas estadísticas descriptivas mensuales de las crónicas hidrológicas del período 1904-2020 del caudal del río Paraná, medido en la estación 3805, Corrientes.

En segundo lugar, para el río Uruguay, también se observó que los valores máximos abarcan un rango más amplio que los mínimos. Un dato destacado es que, entre 2010 y 2019, el 80% de los valores mínimos superaron los 1.000 m³/s, mientras que en décadas anteriores todos los valores mínimos estaban por debajo de ese umbral.

El ciclo anual del río Uruguay presenta su estación húmeda entre mayo y noviembre, lo que coincide con el período seco del río Paraná. La estación seca, en cambio, se da entre enero y febrero, justamente cuando el Paraná suele tener mayor caudal.

Por último, en el caso del río Limay, los valores máximos también se extienden en un rango amplio, aunque dicha amplitud ha disminuido en los años más recientes. Su ciclo anual indica que el período seco ocurre entre diciembre y abril, mientras que el período húmedo se extiende de junio a noviembre.

Existen ciertas características comunes entre los tres ríos analizados. En todos los casos, los valores máximos de caudal muestran alta variabilidad, incluso cuando la tendencia general puede cambiar con el tiempo. Además, los ciclos anuales son distintos entre los ríos, aunque el Uruguay y el Limay comparten un patrón similar (con estaciones húmedas y secas que coinciden), en contraste con el comportamiento opuesto del río Paraná.

En relación con la correlación entre variables estadísticas, si bien varía de un río a otro, en general se observa una fuerte relación entre la media y la mediana del caudal con los trimestres más húmedos del año así como también una baja correlación entre las variables de estaciones diferentes.

Clusterización

Metodología

Las técnicas utilizadas para lograr el objetivo de agrupar crónicas fueron, en primera instancia, el análisis de componentes principales (5) , cuyo objetivo fue el de simplificar y resumir la información contenida en el conjunto de datos preservando las relaciones esenciales entre las variables para así facilitar la interpretación de los datos. En segundo lugar, se aplicó el método de K-means para agrupar crónicas de acuerdo a características comunes. (6)

Resultados y conclusiones

Los análisis llevados a cabo en la presente sección permitieron obtener conclusiones vinculadas tanto con la creación de las nuevas componentes principales mediante la combinación de variables como con la clusterización de las crónicas hidrológicas de acuerdo a características comunes del comportamiento del caudal.

Tras el análisis de las componentes principales derivadas de los datos de los tres ríos, se ha observado que la primera componente está fuertemente asociada con los valores máximos y con los del segundo y tercer trimestre, coincidiendo con los picos de caudal máximo durante el tercer trimestre en los tres ríos. Esto indica la naturaleza de las crónicas en términos de humedad y sequedad.

Por otro lado, la segunda componente captura la variabilidad entre las estaciones, destacando las diferencias entre las cargas del primer y cuarto trimestre. Asimismo, se encontró una correlación significativa entre las variables anuales, como el máximo, el mínimo y la mediana, y las cargas del segundo y tercer trimestre.

En cuanto a la clusterización de las crónicas utilizando el algoritmo kmeans, se identificaron cuatro clústeres distintivos:

  • Cluster 1: crónicas más húmedas.
  • Cluster 2: crónicas con humedad media, especialmente en el primer trimestre.
  • Cluster 3: crónicas secas.
  • Cluster 4: humedad media, con valores secos al inicio del año y un cuarto trimestre muy húmedo.

La Figura 3 permite representar las crónicas agrupadas en clústeres por color graficadas en un biplot construido a partir de las dos componentes principales.

Figura 3 – Biplot de las dos primeras componentes principales y representación de las crónicas hidrológicas en el mismo. Cada color de las observaciones corresponde a un clúster diferente y las letras identifican al río al que corresponde cada observación.

Finalmente, en cuanto al estudio de los patrones en el comportamiento hidrológico de los tres ríos para un mismo año hidrológico, se arribó a las conclusiones que se presentan a continuación.

En primer lugar, se ha observado un patrón común que indica una tendencia hacia años en los que los tres ríos presentan crónicas secas simultáneamente. Sin embargo, no se han encontrado años en los que los tres ríos tengan crónicas húmedas simultáneamente.

Asimismo, no se ha observado un patrón significativo de compensación entre las cuencas en términos de humedad de las crónicas.

Pronóstico

Metodología

La técnica utilizada para lograr el objetivo de pronosticar crónicas futuras fue el análisis de diferentes métodos de predicción entre los que se encontraron el de K vecinos más cercanos (7), el método de árboles de decisión (8) y la regresión logística (9). 

Asimismo, dichos modelos fueron creados utilizando diferentes conjuntos de datos. El primer grupo de modelos utilizó datos únicamente del primer trimestre del año hidrólógico mientras que el segundo grupo utilizó datos del primer y segundo trimestre y, finalmente, el tercer grupo utilizó el conjunto de datos que tuviera información de los primeros tres trimestres del año.

Por último, se crearon modelos adicionando la información del fenómeno del Niño para su posterior análisis.

Resultados y conclusiones

Después de analizar los resultados de los modelos desarrollados para cada conjunto de datos con el objetivo de pronosticar la crónica a la que pertenece cada año hidrológico, se puede arribar a las conclusiones que se describen a continuación.

En primer lugar, para la información correspondiente a los primeros tres trimestres, se encontró que el método de árboles de decisión proporciona los mejores resultados en términos de su Accuracy que asciende a un valor de 0,60, lo cual indica un desempeño notable. 

Al considerar las variables de los primeros seis meses, se observa una destacable mejoría en el desempeño del modelo de regresión logística. Asimismo, en el caso del análisis de datos de los nueve primeros meses de cada crónica, se logra confirmar que la regresión logística sigue siendo la opción más efectiva. 

Al observar los resultados de los modelos, comparándolos de acuerdo a la cantidad de trimestres de información utilizada, sin distinguir el algoritmo empleado, se puede llegar a algunas conclusiones que permiten interpretar mejor los modelos y que se encuentran en línea con el análisis de componentes principales realizado en la sección anterior.

En primer lugar, los modelos que únicamente utilizan variables del primer trimestre ya permiten obtener resultados muy satisfactorios debido a que es la información del primer trimestre la que define en gran medida a la segunda componente de las dos componentes principales analizadas.

Una vez incorporada la información del segundo trimestre, fue posible observar una leve mejoría aunque no es ésta tan significativa como cuando se adiciona la información del tercer trimestre debido a que es éste en el que cada crónica suele presentar sus valores máximos y, por ende, el trimestre que define a la primera componente. 

Por último, al incorporar las variables relacionadas con el fenómeno del Niño, fue detectado un deterioro en los resultados. Este fenómeno podría atribuirse a diferencias en las características de las crónicas del Niño entre el conjunto de entrenamiento y el conjunto de prueba.

Próximos trabajos

En base a los resultados obtenidos tanto en la posibilidad de agrupar las crónicas como en la confección de los modelos de pronóstico, ambos análisis podrían ser fácilmente replicables en otras cuencas del país. Ello permitiría, por un lado, un uso más eficiente de los recursos hídricos al conocer el comportamiento y las correspondencias o compensaciones temporales entre las cuencas. Por otro lado, con la confección de nuevos modelos de pronóstico que incluyan otras cuencas hidrológicas, se podría trabajar en una mirada anticipatoria y, consecuentemente, también un mejor manejo de los recursos hídricos.

Asimismo, el presente análisis ha abierto también la posibilidad de continuar investigando otras oscilaciones climáticas que puedan estar afectando el comportamiento de las crónicas de los ríos o incluso el mismo efecto del ENSO pero analizando en profundidad el período de tiempo utilizado como entrenamiento del modelo.

Notas al pie

(1) Sillitoe, P. (2021). The Anthroposcene of Weather and Climate: Ethnographic Contributions to the Climate Change Debate. Berghahn Books.
(2) Liu, Y., Gupta, H., Springer, E., y Wagener, T. (2008). Linking science with environmental decision making: Experiences from an integrated modeling approach to supporting sustainable water resources management. Environmental Modelling & Software, 23(7):846–858.
(3) Weisstein, E. W. (2006). Correlation coefficient. https://mathworld. wolfram. com/
(4) Chow, G. C. (1960). Tests of equality between sets of coefficients in two linear regressions. Econometrica: Journal of the Econometric Society, pages 591–605.
(5) Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. Journal of educational psychology, 24(6):417.
(6) Tan, S. y Kumar (2014). Introduction to Data Mining. Pearson, Edinburgh Gate, Harlow, Essex, UK.
(7) Hastie, T., Tibshirani, R., Friedman, J. H., y Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction, volume 2. Springer.
(8) Alpaydin, E. (2020). Introduction to machine learning. MIT press.
(9) James, G., Witten, D., Hastie, T., Tibshirani, R., et al. (2013). An introduction to statistical learning, volume 112. Springer.

 

Acerca de la autora

Luciana Quarracino es Licenciada en Economía (UBA) y Magíster en Explotación de Datos y Descubrimiento del Conocimiento por la misma universidad. Actualmente se desempeña como Analista de Planificación Comercial en AES Argentina Generación, donde participa en el desarrollo de proyecciones energéticas, modelado de escenarios y planificación estratégica del sector eléctrico.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *