Nuevo profesor de Aprendizaje por Refuerzos

César Caiafa es Investigador Independiente en el Instituto Argentino de Radioastronomía (IAR) (CONICET/UNLP/CIC); Profesor Adjunto en la Facultad de Ingeniería, Universidad de Buenos Aires (UBA), e Investigador Visitante del RIKEN Center for Advanced Intelligence Project (AIP), Japón.

En cuanto a su formación es Ingeniero y Doctor en Ingeniería Electrónica de la UBA. Sus intereses de investigación se centran en las aplicaciones de aprendizaje automático, el procesamiento de señales multidimensionales y el modelado en sistemas multiagentes no lineales. Sus principales contribuciones son en las áreas de factorizaciones tensoriales, representaciones sparse y sus aplicaciones en astronomía, biomedicina y neurociencias. 

Recientemente Caiafa fue designado Profesor de la materia Aprendizaje por Refuerzos. En esta entrevista con el Blog Predictivos, nos cuenta sobre las perspectivas y el enfoque que tendrá esta asignatura.

¿Cómo será la materia “Aprendizaje por Refuerzos” que dictarás en el segundo cuatrimestre 2024 de la Maestría?

Es una materia planificada para dictar en 36 horas en total. Si tuviera que resumir de qué trata la materia, se centra en desarrollar algoritmos para que un agente, en la interacción con su ambiente, aprenda a tomar decisiones óptimas. Esto se puede aplicar a una infinidad de problemas: desde robótica y vehículos autónomos que tienen que sensar el ambiente para tomar decisiones hasta juegos de estrategia donde el espacio de búsqueda de decisiones óptimas es inmenso, de hecho el aprendizaje reforzado se hizo muy popular cuando Google DeepMind aplicó estos algoritmos al juego de origen oriental GO en 2015, considerado más complejo aún que el ajedrez, dando origen al software AlphaGO.

La materia buscará, en definitiva, estudiar los principios teóricos de estos algoritmos y mostrar cómo se aplican a casos prácticos.

¿Cómo surge el aprendizaje por refuerzos, involucra temas que ya se estudiaban antes de esta revolución de la ciencia de datos e inteligencia artificial?

Son temas que se empezaron a estudiar hace muchos años, porque vienen de la Ingeniería del Control Automático (de mediados del siglo XX) y se basan en la teoría de probabilidades, aplicada a un ambiente que está compuesto por: estados + acciones + recompensas. Entonces se puede armar un modelo matemático-probabilístico que predice las probabilidades de pasar del estado actual a cualquier otro, dada la acción que el agente ejecuta. A su vez, como resultado de una acción, hay una recompensa, que es un valor positivo, para un buen resultado o negativo para lo contrario. Un ejemplo clásico es el llamado Cartpole, donde el problema consiste en sostener un péndulo invertido en equilibrio moviendo su base. Esto es lo que sucede, por ejemplo, cuando uno intenta sostener una escoba invertida en equilibrio con el dedo índice sosteniendo el extremo. Si la escoba no se cae, la recompensa es positiva y, por lo contrario, si se cae es negativa. Es un claro problema de control que se puede resolver satisfactoriamente aplicando un algoritmo de aprendizaje por refuerzos, simulando el experimento muchas veces, permitiendo que el agente aprenda a aplicar la fuerza necesaria, dependiendo de la posición y velocidad de ese péndulo para mantenerlo en equilibrio.

En base a esa teoría se pueden encontrar cuáles son las decisiones óptimas, llamada política óptima, dado un modelo del mundo. Más precisamente, existe  una ecuación, denominada ecuación de Bellman (desarrollada en los años 1950’s), que establece la condición que tiene que cumplir la política óptima y que dió lugar a los algoritmos de Programación Dinámica. Pero en la práctica uno no tiene un modelo del mundo, tiene que aprender con la experiencia. Sobre eso se avanzó muchísimo en los últimos años, y el gran avance se dio realmente hace unos diez años cuando se empezaron a usar las redes neuronales profundas para modelar estas funciones de los estados (entendiendo que son espacios muy grandes para explorar, por lo que uno debe modelarlos para poder generalizar decisiones óptimas en situaciones no observadas durante el entrenamiento).

Si bien estos algoritmos están inspirados en cómo creemos que nuestro cerebro funciona, donde uno intenta repetir experiencias satisfactorias y evitar aquellas negativas, en el aprendizaje por refuerzos realmente no se usa la experiencia humana para transferirla al agente. En este caso el agente logra aprender por sí solo y los algoritmos logran determinar cómo actuar dado el estado del agente y su entorno.

¿Qué rol juega la “autonomía” de estos agentes basados en aprendizaje por refuerzos?

La idea final es que el agente pueda ser autónomo, ya que una vez que determinó su política óptima (dado el estado, qué acción debe tomar), ya tiene una independencia del accionar humano o por lo menos, es lo que se persigue en general. Por ejemplo, eso es lo que sucede en gran medida hoy con los autos de Tesla en modalidad autónoma (se manejan solos). Y también sucede con toda la robótica actual, sobre todo en ámbitos industriales.

Por último, ¿de qué modo se aplicarán estos temas en el Programa de la materia?

Durante el Programa recorro todos los contenidos, que abarcan desde el momento de tener un modelo claro del mundo, hasta la etapa donde un agente carece de un modelo del mundo y tiene que aprender por sí sólo, interactuando con el ambiente para determinar cuál sería la solución óptima. Y, al final, se llega al modelado y simulación de esos ambientes.

Resalto que se aprende en base a la experiencia porque uno no tiene todos los datos recopilados sino que uno va explorando mientras aprende, y al mismo tiempo se va construyendo un modelo de ese ambiente. Además de la experiencia con ese ambiente real, uno puede simular ese ambiente. Entonces con los datos simulados y los datos medidos el agente va mejorando en su accionar hasta llegar a un comportamiento óptimo

En la parte práctica de la materia habrá mucha programación con Python, utilizando Google Colab y la plataforma Gym, desarrollada por OpenAI para simular ambientes en aprendizaje por refuerzos. En la mayoría de las clases habrá implementación de los algoritmos y, llegando al final de la materia trabajaremos con los algoritmos más modernos basados en redes neuronales, donde veremos problemas del tipo Cartpole, ya mencionado, y otros. De esta manera, el alumno podrá probar, comparar y simular distintos ambientes y aplicar distintos algoritmos. La idea es que resulte interesante y puedan aparecer aportes muy enriquecedores por parte de los alumnos.


Instituto Argentino de Radioastronomía: un proyecto para reconstruir imágenes de microondas

Actualmente el Dr. Ing. Caiafa se desempeña como investigador independiente del Instituto Argentino de Radioastronomía (IAR, CONICET/UNLP/CIC), en diferentes proyectos aplicados a los campos de astronomía, ciencias médicas y neurociencia. Su trabajo se enfoca en el procesamiento de señales y desarrollo de algoritmos de aprendizaje automático.
Uno de los proyectos destacados, en este ámbito, consiste en la resolución de problemas inversos (que parten de los efectos y calculan las causas, a diferencia de los problemas directos) utilizando algoritmos de aprendizaje automático. En particular está investigando sobre cómo reconstruir imágenes para un tomógrafo de microondas, cuya ventaja es que no tiene efectos adversos en pacientes y es menos invasivo (a diferencia del tomógrafo clásico de rayos X).
El dispositivo funciona con antenas de emisión y recepción de ondas electromagnéticas que se mueven alrededor de un objeto realizando mediciones y permitiendo construir imágenes tridimensionales de las partes del cuerpo que se necesiten estudiar (ver Figura 1). El gran desafío en esta tecnología es que, debido a la baja frecuencia de la onda transmisora y el complejo proceso de rebotes (scattering), los métodos de reconstrucción clásicos obtienen imágenes de baja resolución. Actualmente se desarrollan, algoritmos basados en aprendizaje automático que permiten reconstruir imágenes con mayor calidad ya que explotan información a priori sobre las imágenes a reconstruir. Estas técnicas pueden aplicarse a la tomografía de microondas, que es precisamente un área en la que el Dr. Caiafa trabaja actualmente.
Cabe destacar que en los laboratorios del IAR, y en colaboración con el Instituto de Física de Líquidos y Sistemas Biológicos (IFLYSiB-CONICET), se está desarrollando un prototipo de tomografía por microondas, teniendo en cuenta toda la experiencia acumulada de trabajo del personal técnico del IAR en proyectos satelitales y de astronomía involucrando radio-frecuencias. Más allá de que esta es la primera versión del prototipo, el proyecto está aún en una fase de experimentación e investigación dado que aún no está homologada la tomografía de microondas para uso en el ámbito médico.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *