“Hoy tenemos más tiempo para entender cómo se están utilizando los modelos de Machine Learning y poder interpretarlos”

Por Ignacio Uman. Erin LeDell es Chief Machine Learning Scientist en H2O.ai, la compañía que desarrolló la plataforma open source de aprendizaje automático H2O. Referente en aprendizaje automático y estadística computacional; realizó su doctorado sobre la temática en UC Berkeley. Asimismo es fundadora de Women in Machine Learning & Data Science y una de las co-fundadoras de R-Ladies Global.
Luego de haber participando como oradora principal de LatinR  -la conferencia latinoamericana que se desarrolló en Santiago de Chile a fines de septiembre- estuvo de visita en Buenos Aires, donde aprovechó para brindar una serie de meetups sobre Auto Machine Learning escalable. En esta ENTREVISTA con PREDICTIVOS (post Seminario en el Instituto de Cálculo de Exactas-UBA), LeDell abordó diferentes temas de gran interés: desde la formación en ciencia de datos hasta la diversidad e inclusión de mujeres en la disciplina, como así también de qué modo AutoML transforma el trabajo en aprendizaje automático.

 

¿Cómo fue el proceso de pasar de una carrera en matemática a convertirte en científica de datos con un doctorado en bioestadística?

Empecé a interesarme por la computación al finalizar mi formación de grado. Mientras hacía la maestría en matemáticas, decidí comenzar un doctorado en matemáticas pero me di cuenta de que no era lo que realmente quería hacer. La realidad es que cuando terminé mi carrera no sabía programar pero tenía muchas ganas de aprender. Fui aprendiendo sobre la marcha en mi trabajo, sobre todo fui autodidacta y aprendí, sin haberlo tenido como tema en la universidad, cómo programar en Python, PHP y entornos web. También me di cuenta de que debía saber algo de R.

Durante unos 6 años trabajé como ingeniera de software, desarrollando aplicaciones web y bases de datos. La verdad que no había nada de aprendizaje automático en mi trabajo. Pero en algún momento quise cambiar esa rutina de desarrollo de software y empecé a aprender algo de analytics. Me di cuenta que podía combinar temas de matemática y estadística con programación.

Corría el año 2008, momento en el que no había ningún campus de entrenamiento, programa de maestría ni nada parecido. Y entendí que si quería trabajar realmente en aprendizaje automático de alto nivel, podría optar por un doctorado. Como profesional vinculada a las matemáticas, me incliné por la estadística, en lugar de ciencias de la computación, para aplicar a un programa de doctorado en UC Berkeley. Finalmente me aceptaron y cursé de 2011 a 2015. El trabajo se centró en cómo escalar con eficiencia algoritmos a Big Data. Para todo el procesamiento de los datos encontré un primer paquete que resultó demasiado lento, necesitaba una solución más rápida. Fue ahí cuando encontré H2O y combiné su uso tanto con investigación aplicada en el desarrollo de software como con una base teórica del tema. Finalmente, ese valioso aprendizaje del doctorado me llevó a trabajar full time a H2O.ai.

Teniendo en cuenta que en la actualidad hay múltiples maneras de formarse en ciencia de datos y aprendizaje automático, ¿qué diferencias observás en la enseñanza formal de la ciencia de datos en los diferentes niveles, tanto en grado como posgrado o bien como disciplina extra universitaria?

Creo que es importante formarse en cualquier nivel. No tiene sentido hacer toda una carrera de grado que no esté integrada a esta temática. Considero, sin dudas, que los programas de maestría son una de las maneras más convenientes de aprender ciencia de datos, ahora es más sencillo que antes y no hace falta tener un doctorado para convertirse en data scientist. Además según la carrera optada en grado, puede ser más o menos difícil encarar una formación de posgrado en estadística, siempre se necesita algún tipo de preparación previa e ir moldeándose una manera de pensar y encarar los problemas. En mi caso, estoy permanentemente vinculada a actividades de docencia complementarias como seminarios, cursos o meetups o incluso me invitan a dar clases a universidades, por lo que me interesa brindar este enfoque más lógico-estadístico.

Una de las problemáticas a nivel local es cómo poder acercar más mujeres a carreras de ciencia y tecnología y también de qué modo acompañarlas en su desarrollo de carrera profesional. Como cofundadora de R-Ladies a nivel global, ¿qué desafíos considerás que enfrentan hoy instituciones y empresas para promover una mayor diversidad e inclusión especialmente en ciencia de datos?

Por un lado, los problemas en universidades son distintos a los de las empresas. Suele ser más fácil que las mujeres se inserten en un ambiente académico y aunque escapa de nuestro control el hecho de cuántas mujeres se inscriben realmente en este tipo de carreras, hay muchísimos incentivos desde becas de ayuda económica, campus de programación o talleres que pueden ser útiles en distinto modo. Quizás las universidades son más rígidas en las políticas económicas que pueden implementar, a diferencia de una empresa que suele ser más flexible y depende de la cultura, pero el acercamiento a organizaciones –sobre todo por nuestra experiencia en Estados Unidos- como R-Ladies o WiMLDS (Women in Machine Learning & Data Science) ayuda a hacer llegar un mensaje 50/50 que de otro modo no llegaría y que si esas chicas tienen algún interés en la ciencia de datos, vamos a brindarle las posibilidades y el apoyo.

En lo que hace a las empresas, estamos viendo una cuestión más compleja. El desarrollo de tecnología en general está dominado por hombres y suele resaltar a figuras masculinas, especialmente en la cultura de las startup. Al mismo tiempo, si bien las empresas se esfuerzan por conseguir más mujeres programadoras o ingenieras para sus equipos de trabajo, una vez que se logra insertarlas en la organización, en general no se hace prácticamente nada para retenerlas o brindarles más oportunidades de desarrollo. Digo que es una cuestión compleja porque en promedio las mujeres pasan alrededor de 10 años en el entorno tecnológico y el 40% luego emigra de ese entorno, ya que termina renunciando porque no disfruta de estar allí.

Por otro lado, esto que comento es la descripción del problema. ¿Cuál sería una posible solución? Asegurarse que las mujeres tengan un desarrollo de carrera y sean promovidas en su trabajo. Hemos visto casos donde ocupan el 30% del plantel y en su mayoría son juniors, ese sesgo no ayuda para nada a su progreso. Creo que es importante identificar esos perfiles que tienen habilidades de coordinación o liderazgo, no siempre una misma va a querer convencer a otros sobre el valor de su trabajo. Invitar a esas mujeres talentosas a ser protagonistas en puestos de liderazgo y darles impulso, sería fundamental para achicar esta brecha.

AutoML en H2O.ai

¿De qué modo se transforma el aprendizaje automático con el proyecto de Auto Machine Learning, que has comentado en este Seminario al que asistimos en el Instituto de Cálculo?

La plataforma H2O AutoML proporciona una interfaz fácil de usar que automatiza el pre-procesamiento de datos, el  entrenamiento y el ajuste de una gran selección de modelos candidatos y que puede escalar a conjuntos muy grandes. ¿Cómo cambia respecto a lo tradicional? Se puede trabajar con Big Data sin que sea tan caro, usando el propio clúster de la plataforma e implementaciones distribuidas con Random Grid Search, y sin límite de tamaño en el clúster. Uno de los objetivos de la herramienta es que se pueda entrenar el mejor modelo rápidamente y en general el ensamble de modelos es el que gana estas competencias porque tiene mejor performance que los modelos tomados individualmente. El resultado de la ejecución es una “tabla de clasificación” de modelos exportable para su uso en producción, además es Open Source. La propia comunidad de usuarios, a partir de su experiencia de uso y de performance, nos brinda su opinión y contribuciones para poder ir mejorando el software iterativamente (benchmarking).

Por último, ¿por qué una solución automatizada frente a otras posibles?

Hace 5 ó 10 años, saber cómo implementar estos algoritmos y cómo distribuirlos, era un problema difícil y la mayor parte de nuestro tiempo se ocupaba en eso. Ahora es un tipo de solución sencilla y gestionarla resulta una ventaja competitiva. Aunque todavía es importante saber cómo funcionan los algoritmos o qué diferencias hay en los hiper parámetros, los científicos y científicas de datos no necesitan escribir todo el código para entrenar a los algoritmos, si eso se puede hacer en forma automatizada. Como data scientists, hoy tenemos más tiempo y libertad para ocuparnos de una tarea de la que siempre deberíamos habernos ocupado y de la que estamos escuchando mucho más en los últimos 2 años: la “interpretabilidad” de los modelos. Me refiero a entender cómo se están utilizando los modelos, cómo visualizarlos, en qué aplicaciones serán útiles y qué tan bien resuelven cada problema. Nos da la posibilidad de atacar varios problemas a la vez y no sólo uno. Y aunque dejemos de enfocarnos tanto en temas de procesamiento, gestión de memoria o ingeniería de los datos, no por eso dejamos de hacer ciencia de datos. Simplemente me parece positivo que cada especialista se pueda enfocar en lo que más le interesa del trabajo en aprendizaje automático y dejar de hacer todo solo. Si podemos automatizar la solución, sólo es cuestión de hacerlo.

Alcance de R-Ladies en Latinoamérica

Imagen: LatinR 2019

“Me sorprende el alcance que ha tenido la organización, que hace unos 3 años se circunscribía a grupos y meetups en San Francisco y Londres, eso era todo. Hemos encontrado una alta demanda en diferentes países y ciudades, incluso aquí en Argentina y Chile, por estos objetivos de inclusión y diversidad con participación de minorías. Miembros que nos han escuchado antes y quieren sentirse parte de la comunidad y de estas conversaciones. Alrededor del mundo llegamos a 138 capítulos en 44 países, con 40 mil miembros.
Destaco que R-Ladies ha ganado un gran poder de presión para cambiar las cosas y denunciar comportamientos discriminatorios o sexistas en ambientes tanto laborales como académicos. Ejemplo de esto ha sido nuestra iniciativa conjunta frente a los escándalos con la empresa Data Camp o la exigencia de un código de conducta en la conferencia R-Finance.”

Imagen: LatinR 2019

 

 

 

 

Facebooktwitterlinkedin

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *