Modelos de predicción del abandono en la Universidad Nacional de Hurlingham
Por Martín Ariel Pustilnik (Licenciado en Ciencias de la Computación-UBA, Magister en Explotación de Datos y Descubrimiento del Conocimiento-UBA, Investigador y Profesor Adjunto en la Universidad Nacional de Hurlingham).
El presente artículo constituye una síntesis de los principales resultados obtenidos en el marco de la investigación desarrollada para la tesis de la Maestría en Explotación de Datos y Descubrimiento de Conocimiento de la Universidad de Buenos Aires. El objetivo general del trabajo fue desarrollar modelos de detección temprana del abandono universitario basados en Aprendizaje Automático, en el marco del proyecto “Estrechando el contacto entre universidades estudiantes: comunicación ante posibles casos de deserción, propuestas para la inscripción”. Dicho proyecto fue aceptado para su inclusión en el Banco Nacional de Proyectos de Desarrollo Tecnológico y Social (PDTS) del Ministerio de Ciencia, Tecnología e Innovación de la Nación, según Resolución 2021-1010-APN-SACT#MCT de la Secretaría de Articulación Científico-Tecnológica de dicho Ministerio.
Motivación y Problema
Se estima que en el sistema universitario sólo el 28,5% de los estudiantes que ingresan se gradúa en un tiempo teórico de 5 años. En la Tabla 1 se muestran los Nuevos Inscriptos, Egresados y el Porcentaje de graduados en tiempo teórico. Entendemos que el abandono estudiantil es, tal vez, el factor individual más importante que explica estos porcentajes de egreso.
La Universidad Nacional de Hurlingham (UNAHUR) es pública y gratuita, funciona desde 2016 con gran integración con la comunidad y alto interés por la permanencia de sus estudiantes, pero con alta tasa de abandono estudiantil, su matrícula crece aceleradamente y presenta alta incidencia de estudiantes de primera generación de universitarios y de bajos ingresos económicos. Entre las acciones para abordar la prevención del abandono, la UNAHUR ha estado desarrollando modelos de predicción de abandono utilizando técnicas de Machine Learning.
¿Cuáles son los objetivos de la tesis?
- Desarrollar modelos que proporcionen alertas tempranas de abandono en el contexto de la UNAHUR, para poder intervenir y asistir a las personas antes de que abandonen.
- Probar hipótesis para identificar qué variables influyen en el abandono, y así mejorar el modelo.
- Proporcionar recomendaciones sobre variables no relevadas y que deberían ser censadas.
- Generar un reporte de personas en riesgo, indicando además de la probabilidad de abandono, los factores más significativos para cada individuo, permitiéndonos así iniciar la comunicación y explorar los motivos subyacentes sin tener que censar a toda la población estudiantil.
La hipótesis principal del trabajo es: que se puede predecir el abandono actual, basándonos en el comportamiento (abandono) cohortes anteriores. De esta forma se entrenaron los modelos con cohortes de 2020 a 2021 para predecir el abandono de la cohorte 2022. La diferencia entre la predicción y el valor real subyace en las variables no utilizadas en el modelo y la diferencia que tienen las cohortes entre sí.
¿Con qué datos trabajamos?
Estos modelos se basan en los datos del Sistema de Información Universitaria Guaraní (SIU-Guaraní), que tiene más de 10.000 campos y 500 tablas. Por ese motivo se relevó el subconjunto de datos necesarios para generar las variables. También se calcularon variables que no estaban en el SIU, como la distancia y tiempo de viaje en transporte público. Se calcularon a partir de la dirección, para obtener una dirección válida que se pueda procesar en Google Maps® e inferir un tiempo de viaje promedio desde la dirección de la persona hacia la universidad como muestra el esquema de la Figura 1.
Metodología y métricas
Implementamos la metodología CRISP-DM, para las sucesivas mejoras a las variables de cada modelo. Se implementaron modelos en diferentes algoritmos conocidos de aprendizaje supervisado, tales como Árboles de Decisión, Maquinas de Soporte Vectorial y XGBoost.
En todos los modelos se separaron múltiples conjuntos de datos de testeo seleccionados al azar, para medir los resultados de los modelos entrenados. Se utilizaron métricas como Área Bajo la Curva ROC (AUC) y Exactitud Balanceada Óptima (EBO) para comparar el desempeño de cada modelo. Para comparar los resultados se consideraron los valores promedio de cada métrica. Además, generamos un listado con las variables más importantes para los modelos basados en árboles.
Resultados
Primero se comparó el abandono condicional de algunas variables clave, sugeridas en la bibliografía o por actores de UNAHUR, como directores de carrera, entrevistados como parte del trabajo. En la Figura 2 se muestran los alumnos agrupados por cantidad de horas de trabajo por semana al comenzar su cursada. Hay 19.121 alumnos que no trabajan al comenzar la cursada. Como sugiere Fazio (2004), el mayor porcentaje de abandono no se alcanzó entre los alumnos que trabajaban, a menos que lo hagan por más de 35 horas por semana. Para los alumnos que trabajan entre 10 y 35 horas por semana el porcentaje de abandono está en rango del 56,42% al 56,66%.
En la Figura 3 se muestra el abandono por tiempo de viaje calculado en transporte público. Se registró un mayor abandono (64,51%) en los alumnos que tardaban entre 0,1 y 0,3hs (de 6 a 18 minutos) respecto de otros tiempos, inclusive más que los tardaban entre 0,3 y 2hs. El tiempo de viaje fue estimado para transporte público, pudiendo pasar en realidad que los alumnos de distancias más lejanas se trasladen en vehículos personales, pudiendo tener en realidad un tiempo menor al calculado. Los tiempos de viaje mayores a 2 horas se consideraron datos atípicos.
Encontramos que los alumnos con “dominio de email” institucional (@unahur.edu.ar, @inta.gob.ar, etc) abandonan menos (32,08%) que los alumnos con otros dominios de email (63,58%). Una hipótesis es que contar con un mail institucional denota una mayor adaptación a la vida académica (Tinto, 1982) que no tenerlo. La Figura 4 muestra el porcentaje de abandono según el dominio del email. Hasta la actualidad no encontramos modelos que se beneficien de esta variable.
Autores como Di Gresia et al. (2007), Cameron y Taber (2001) afirman que las becas, en especial si están dirigidas a grupos de riesgo, tienen un efecto positivo en la retención. En la Figura 5 se observa que los alumnos que perciben al menos una beca abandonan menos (entre el 50,16% y el 51,17%) que los alumnos que no perciben ninguna (61,15%).
La Figura 6 (izquierda) muestra la cantidad de alumnos que completaron el censo hace una cantidad de meses (eje x). La Figura 38 (derecha) muestra el porcentaje de abandono para cada cantidad censada. A partir de los datos se calculó y graficó una regresión lineal (línea negra) con pendiente positiva, indicando una relación proporcional de abandono respecto de hace cuantos meses completo el censo. Los alumnos que nunca completaron el censo se agrupan al final de la serie. El 71,79% de estos 2.896 alumnos están clasificados como “abandono”. Muchos grupos, como por ejemplo (x = 62 meses) tienen asociados porcentajes altos (porcentaje > 90). Estos datos son atípicos por tener menos de 50 alumnos agrupados en ese rango.
Métricas
En la Tabla 2 se muestra la Matriz de confusión para la exactitud balanceada óptima (EBO), Área bajo la Curva ROC y el resumen de medidas del mejor modelo (XGBoost).
En la Tabla 3 se muestran los resultados más importantes de los tres modelos utilizados.
Se utilizó la métrica Gain provista por XGBoost para calcular la importancia de las variables para los modelos basados en árboles. Gain se define como la ganancia promedio (average Information Gain) obtenida al particionar un atributo. En la Figura 7 se muestran las variables con Gain > 4,5.
Discusión y conclusiones
Se estima que en el Sistema Universitario Argentino sólo el 28,5% de los estudiantes que ingresan se gradúa en un tiempo teórico de 5 años (1), generando cada año el abandono o la extensión de la carrera para más de 400.000 alumnos. Esta situación ocurre en todo el mundo en mayor o menor medida. En este trabajo se usaron modelos de Aprendizaje Automático para testear hipótesis que surgen de la bibliografía o de actores de UNAHUR. La identificación temprana de estudiantes en riesgo de abandono permite desarrollar intervenciones más eficaces, y consideramos que el sistema de recomendación existente (Pustilnik et al., 2022) podría adaptarse para proporcionar orientación a estos estudiantes. En este trabajo, mejoramos el desempeño de un modelo de predicción de abandono en UNAHUR propuesto en Pustilnik y Ndukanma (2023a y 2023b, y mencionado en diferentes medios: Entrevista 2024a, Entrevista 2024b y Entrevista 2025), incorporando variables como “Cantidad de horas de trabajo por semana”, “Cantidad de becas” y “Carrera”. En futuros trabajos esperamos obtener resultados aún mejores si conocemos:
- El modo de traslado real de los alumnos.
- La situación laboral durante la cursada, como sugieren Amago (2008), Antoni et al. (2007) y otros.
- La percepción de becas durante la cursada, como sugieren Cameron y Taber (2001), Di Gresia et al. (2007) y otros.
- El impacto de los programas como “1 estudiante – 1 compañero” que aún no han sido censados.
- El impacto del covid-19 en la tasa de abandono, dado el cambio de cursada virtual y otros factores.
- La asistencia a clase, que durante el covid-19 no se pudo censar
Recomendamos enriquecer el censo anual con preguntas adicionales sobre el modo de transporte, la percepción de becas, si es “primera generación de universitarios en su familia” como sugiere Arias et al. (2015), como cursaron durante el Covid-19, la inscripción en programas de acompañamiento universitario y la situación laboral de los estudiantes durante la cursada.
(1) Estadísticas para el año 2021.
Bibliografía
Amago L. (2008). Desgranamiento en el primer año de la Universidad. La cohorte 2005 en la Universidad Nacional de General Sarmiento. (Tesis inédita de maestría). Universidad Nacional de Luján, Pcia. de Buenos Aires.
Antoni E.J., Pagura J.A., Quaglino M.B. (2007). El rendimiento universitario. Un estudio de posibles factores causales en una facultad de la Universidad Nacional de Rosario. En Porto, A. (Ed). Mecanismos de admisión y rendimiento académico de los estudiantes universitarios. Estudio comparativo para estudiantes de Ciencias Económicas (pp. 177-191). La Plata: Editorial de la Universidad de La Plata.
Arias M., Mihal I., Gorostiaga, J. (2015). El problema de la equidad en las universidades del conurbano bonaerense en Argentina: Un análisis de políticas institucionales para favorecer la retención. Revista mexicana de investigación educativa 51(20), 47–69, https://ri.conicet.gov.ar/handle/11336/51703
Cameron y Taber C. (2001). Estimation of Education Borrowing constraint using Returns of Schoolong. Journal of Political Economy, 2004, vol. 112, n. ° 1.
Departamento de Información Universitaria (2022). Estadísticas Universitarias 2021-2022. República Argentina. https://www.argentina.gob.ar/sites/default/files/sintesis_2021-2022_sistema_universitario_argentino_1.pdf
Di Gresia L., Fazio M. V., Porto A., Ripani L., Sosa Escudero W. (2007). Academic performance of public university students in Argentina. Well-Beingand Social Policy, 3(2), pp. 67-100
Entrevista 2024a. “Modelos de predicción del abandono en UNAHUR y Presupuesto Universitario.” Radio Concepto. (Enlace entrevista).
Entrevista 2024b. “Modelos de predicción del abandono en UNAHUR y Presupuesto Universitario.” Radio 10. (Enlace entrevista).
Entrevista 2025. “Modelos de predicción del abandono en UNAHUR y Presupuesto Universitario.” Radio Concepto. (Enlace entrevista).
Fazio M. V. (2004). Incidencia de las horas trabajadas en el rendimiento académico de estudiantes universitarios argentinos (Tesis inédita de Maestría en Economía). Universidad Nacional de La Plata.
Pustilnik M., Giuliano M., Puricelli F., Lombardi C., González Tulián G., Pagliari F., Saldivia C., Ybarra J., Gaiani M. (2022). Estrechando el contacto entre universidades y estudiantes: comunicación ante posibles casos de abandono, propuestas para la inscripción. XXIV Workshop de Investigadores en Ciencias de la Computación (WICC, Mendoza). pp. 734–738, http://sedici.unlp.edu.ar/handle/10915/145216
Pustilnik M. y Ndukanma G. (2023a). Modelos Para La Predicción del Abandono en la Universidad Nacional de Hurlingham. XVIII Congreso Tecnología en Educación & Educación en Tecnología (TE & ET, Hurlingham). ISBN: 978-987-46875-6-2. http://sedici.unlp.edu.ar/handle/10915/155526
Pustilnik M. y Ndukanma G. (2023b). Ingeniería de atributos para modelos de predicción del abandono universitario en Argentina. XII Congreso Latinoamericano sobre el Abandono en la Educación Superior (CLABES 2023). ISBN: 978-956-6224-39-6 URL: https://clabes.uct.cl/wp-content/uploads/2024/06/Acta-XII-CLABES-Revision-final.pdf
Tinto V. (1982). Limits of theory and practice in student attrition. The Journal of Higher Education 53(6), 687–700, http://www.jstor.org/stable/1981525











