De los datos a las hipótesis: el enfoque bayesiano en ciencia de datos

Franco Marsico es profesor recientemente incorporado a la Maestría en Ciencia de Datos de la UBA, donde dicta la materia “Inferencia Bayesiana en Ciencia de Datos”. Es Licenciado en Ciencias Biológicas (orientación genética) y realizó su doctorado en el Instituto del Cálculo, FCEN-UBA, bajo dirección de la Dra. Inés Caridi y el Dr. Ariel Chernomoretz, ambos físicos de la facultad. Se especializa en genómica estadística, con foco en el desarrollo de métodos para integrar datos complejos y abordar problemas como la inferencia de parentesco, la estructura poblacional y la atribución de fuentes. Su trabajo combina investigación de frontera con aplicaciones concretas en ámbitos como la genómica, la ciencia forense y la salud.

Actualmente dirige una unidad de investigación y desarrollo que presta servicios a organizaciones en contextos científicos aplicados. Es consultor del Health Science Center de la Universidad de Tennessee, EE.UU., y co-desarrollador de Familias, el software de la Universidad de Oslo, de referencia global en genética forense para análisis de parentesco, utilizado por más de 1000 laboratorios en 79 países. Ha publicado trabajos destacados en genética forense, biorepositorios genómicos y búsqueda de personas desaparecidas.

En esta entrevista con Predictivos, Franco Marsico presenta la nueva materia “Inferencia Bayesiana en Ciencia de Datos” y propone un cambio de perspectiva clave: pasar de predecir datos a cuestionar hipótesis. Desde la genética hasta la ciencia forense, explica cómo este enfoque permite interpretar evidencia en contextos complejos y con información limitada.

Contanos un poco sobre tu recorrido y cómo llegás a este cruce entre genética y estadística.

Mi formación de grado es en Biología en la UBA, con orientación en genética. Y eso no es un detalle menor: la genética, históricamente, siempre estuvo muy vinculada a la estadística. Hoy, con la genómica, esa relación es todavía más estrecha, porque trabajamos con volúmenes de datos gigantescos. Para dar una idea, un genoma humano tiene alrededor de 3.200 millones de letras.

Eso nos obliga, desde muy temprano, a incorporar una mirada estadística. En ese sentido, la estadística funciona como nuestro microscopio: es la herramienta que nos permite interpretar, hacer inferencias y entender qué estamos viendo realmente en esos datos.

¿El aprendizaje automático ya formaba parte de ese campo cuando empezaste?

Fue algo que apareció sobre la marcha. En mi último año de la carrera trabajaba en un laboratorio de modelado molecular de biomoléculas, donde analizábamos secuencias para predecir estructuras de proteínas. En ese momento predominaban enfoques más ligados a la simulación física o a la comparación evolutiva entre secuencias.

El aprendizaje automático empezaba a emerger como una alternativa, todavía incipiente. Con el tiempo, esos enfoques crecieron muchísimo y terminaron impulsando avances muy importantes en el área. Me tocó estar justo en ese punto de transición: subirme a este campo cuando estaba cayendo la última generación previa al auge del machine learning.

Sos profesor de la nueva materia de Inferencia Bayesiana en la Maestría. ¿Cuál es la propuesta de la materia?

La propuesta tiene dos dimensiones fuertes: una pedagógica y otra epistemológica. Porque la estadística bayesiana no es simplemente una técnica más dentro del repertorio estadístico, sino una forma distinta de entender qué es la probabilidad.

En el enfoque más clásico, estamos acostumbrados a pensar la probabilidad como algo asociado a la frecuencia de los eventos o a la predicción: dado un modelo, ¿cuál es la probabilidad de observar ciertos datos? El enfoque bayesiano plantea un giro conceptual muy potente: en lugar de preguntarnos por la probabilidad de los datos dado una hipótesis, nos preguntamos por la probabilidad de la hipótesis dado los datos.

Ese cambio no es solo técnico, es una forma distinta de pensar. Lo que se pone en juego ya no son tanto los datos —que son los que son— sino nuestras hipótesis, nuestras interpretaciones del mundo.

En ese proceso entra en juego uno de los aspectos más potentes del enfoque bayesiano: la posibilidad de combinar distintas fuentes de evidencia bajo un mismo marco formal. No se trata solo de datos genéticos, sino también de información no genética —como características físicas o contextuales— e incluso conocimiento experto. Todo eso puede integrarse de manera consistente para evaluar las hipótesis en juego.

Mencionabas antes un contraste interesante con algo tipo Minority Report. ¿Cómo entra ese ejemplo acá?

Claro, es un buen ejemplo para entender el cambio de enfoque. En una lógica más “predictiva”, tipo Minority Report, uno intenta estimar la probabilidad de que ocurra un evento en el futuro: por ejemplo, la probabilidad de que alguien cometa un crimen. Es una probabilidad sobre el dato futuro.

En el enfoque con el que yo trabajo —y particularmente en el ámbito forense— la lógica es exactamente la inversa. Nosotros no trabajamos con eventos futuros sino con hechos ya consumados. La probabilidad de ese hecho es igual a 1.

Entonces, la pregunta cambia completamente: no nos interesa la probabilidad del dato, sino la probabilidad de las hipótesis que explican ese dato. Es decir, dado lo que observamos, ¿qué tan probable es que una hipótesis sea correcta frente a otra?

Ese “dar vuelta” el problema es el corazón del enfoque bayesiano, y es uno de los puntos centrales que trabajamos en la materia.

¿Cómo se traduce todo esto en el dictado concreto de la materia?

La materia tiene un fuerte énfasis en la comprensión conceptual y el componente epistemológico, sin dejar de lado lo técnico. Mi objetivo es que los estudiantes no solo sepan aplicar métodos, sino que entiendan profundamente qué están haciendo cuando modelan.

Trabajamos mucho con modelos generativos. Es decir, partimos de una hipótesis sobre cómo funciona un proceso —puede ser fraude bancario, efectividad de una vacuna, comportamiento de usuarios en marketing— y construimos un modelo que “genere” datos a partir de esa lógica.

Esto implica algo muy potente: obliga a explicitar las reglas del sistema, los supuestos, los mecanismos causales. En lugar de simplemente ajustar un modelo a los datos, lo que hacemos es construir una representación del proceso y después contrastarla con la realidad.

En ese sentido, la materia busca complementar el enfoque más típico de machine learning —más orientado a la predicción— con una búsqueda de entendimiento. En definitiva, es un enfoque más cercano a lo epistemológico, a preguntarnos qué estamos asumiendo y qué significa realmente el modelo que construimos.

¿Y cómo trabajan la complejidad de esos modelos? Porque pueden crecer muchísimo.

Exactamente, ese es uno de los grandes desafíos. Los modelos generativos suelen abrir espacios de posibilidades enormes. Por eso, en la materia trabajamos también con herramientas para explorar esos espacios de manera eficiente.

Las primeras clases las presento bajo la metáfora de “El jardín de senderos que se bifurcan”, un cuento de Borges. La idea es que, frente a un fenómeno, hay múltiples caminos posibles que podrían haber llevado a los datos que observamos.

El problema es que ese espacio es, en muchos casos, inabarcable. Entonces introducimos métodos, como por ejemplo técnicas de Monte Carlo, que permiten recorrer ese espacio de forma guiada, priorizando las regiones más relevantes.

Esto también tiene un valor conceptual: no se trata solo de computar, sino de entender cómo pensamos el problema, qué caminos consideramos plausibles y cuáles descartamos.

Hablemos ahora de tus líneas de investigación en genómica estadística.

Después de mis postdocs en Italia y en Estados Unidos, empecé a enfocarme en un problema central: cómo llevar los marcos teóricos clásicos de la genética a contextos de datos masivos.

Hoy existen bases de datos con cientos de miles de individuos, que combinan información genética con datos clínicos. Esto abre una escala completamente nueva de análisis, pero también pone en tensión muchas herramientas tradicionales.

Mi generación está en un punto bisagra: muchos métodos clásicos —como los enfoques basados en p-valores— empiezan a mostrar limitaciones, no solo técnicas sino también conceptuales.

Software Familias, de la universidad de Oslo. Es el gold-standard en genética forense para parentesco, aplica métodos bayesianos. Mapa de laboratorios actuales que lo usan.

¿Eso se vincula con la crisis de reproducibilidad en ciencia?

Sí, creo que en gran medida. Cuando trabajás con grandes volúmenes de datos, es relativamente fácil encontrar patrones que parecen significativos pero no lo son. Sin un marco conceptual sólido, podés construir prácticamente cualquier narrativa.

Por eso creo que el desafío no es solo computacional. También es epistemológico: necesitamos mejores formas de pensar los datos, no solo mejores herramientas para procesarlos.

¿En qué proyectos principales estás trabajando actualmente?

Estoy desarrollando modelos para reconstruir estructuras de parentesco a gran escala. La idea es: si tengo una base con 100.000 personas, ¿puedo inferir redes de parentesco entre ellas? ¿Y qué me dicen esas redes sobre cómo se organiza la población?

Por ejemplo, si las personas tienden a vivir cerca de familiares, cómo se estructuran las relaciones en entornos urbanos, o qué patrones emergen a gran escala. Para eso combino análisis de datos con modelos generativos que luego contrasto con la evidencia.

Técnica para estudiar la estructura de parentesco en una ciudad del sur de EE. UU., mediante redes, donde se analizó la prevalencia de enfermedades en grupos familiares, separando el impacto ambiental del genético mediante modelado causal. Figura ilustrativa.

También leí que estás involucrado en la temática de pangenomas. ¿De qué se trata?

Es un cambio de paradigma en genómica. Durante muchos años representamos la información genética como diferencias respecto de una referencia estándar. Eso permitió avanzar, pero también introdujo un sesgo estructural importante: asumimos que esa referencia capturaba toda la variabilidad relevante del genoma, cuando en realidad no es así.

El problema es que muchas variantes —sobre todo en poblaciones subrepresentadas— directamente no aparecen en esa referencia. Entonces, todo lo que se construyó a partir de ahí arrastra ese sesgo. Por ejemplo, muchos estudios de asociación gen-enfermedad parten del supuesto de que están observando todas las variantes posibles en el genoma, y eso no es cierto.

Esto implica que una parte del conocimiento acumulado en los últimos años necesita ser revisado. El pangenoma propone justamente eso: construir una nueva forma de representar la información genética, más completa, que no dependa de una única referencia y que permita capturar mejor la diversidad real.

Por último, ¿estás trabajando en este tema en colaboración internacional?

Sí, formo parte de un consorcio internacional de pangenoma humano, que este año va a tener una publicación importante. Es un espacio de trabajo muy intenso, que reúne a más de 100 científicos. Lo interesante es que el propio funcionamiento del consorcio refleja algo del método científico en su forma más exigente: hay un contraste constante entre pares, una dinámica muy crítica donde todos revisan el trabajo de todos. Es un proceso riguroso, a veces demandante, pero extremadamente formativo.

Creo que también es desafiante porque implica cuestionar parte de lo que se construyó en los últimos 20 años. Pero justamente ahí está el valor y es así como realmente avanza la ciencia: revisando lo hecho, ajustando lo necesario y construyendo sobre bases más sólidas.


Artículos destacados 

Biorrepositorio genómico de referencia en EEUU: autor junto a colaboradores de Italia, donde integramos información genética y de salud. Nature Communications. https://www.nature.com/articles/s41467-025-59375-0

Nuevos desafíos éticos y de seguridad en genética forense, enfoques frente a ataques adversariales. Forensic Science International Genetics (principal revista del área). https://www.sciencedirect.com/science/article/abs/pii/S1872497325000055 

Búsqueda de personas desaparecidas mediante técnicas de teoría de la información, Forensic Science International Genetics. https://www.sciencedirect.com/science/article/abs/pii/S187249732400019X

Parentesco a escala poblacional: reconstrucción genealógica. Desarrollamos una técnica para estudiar la estructura de parentesco en una ciudad del sur de EE. UU., mediante redes, y analizamos la prevalencia de enfermedades en grupos familiares, separando el impacto ambiental del genético mediante modelado causal. Artículo bajo revisión. https://www.biorxiv.org/content/10.1101/2025.05.03.652048v4.abstract  

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *