Minería de datos en neurociencias: Relacionando genética y anatomía del cerebro

Por Ing. Guillermo Poblete (Mg. en minería de datos y descubrimiento del conocimiento, UBA. Consultor en ciencia de datos, The Menninger Clinic).

En el campo de estudio de las neurociencias, las patologías psiquiátricas suelen ser estudiadas desde el punto de vista genético y también a partir de estudios por imágenes del cerebro. Pero existen escasos métodos que combinen ambos enfoques para intentar responder a nuevos interrogantes en el área de la salud mental. Junto con el Dr. Ramiro Salas (Baylor College of Medicine, Houston Texas) nos propusimos desarrollar una nueva herramienta destinada a relacionar los resultados obtenidos en ambas áreas de estudio y que ha sido publicada recientemente en Journal of Neuroscience Methods, una prestigiosa revista en métodos aplicados a las Neurociencias[1].

¿Qué es PGL?

Nuestro trabajo, denominado PGL (Process Genes List) y desarrollado en lenguaje R, resultó en un software que posee dos métodos principales. El primero, denominado GetROIs es capaz de recibir una lista de genes relacionados con una patología psiquiátrica y, tras ser procesada por PGL, entrega como resultado una lista de diez regiones del cerebro ordenadas por importancia posiblemente relacionadas con la misma enfermedad. El segundo método, denominado GetGenes, permite el ingreso de una lista de regiones del cerebro de interés y de una lista de genes (ambas de interés para una misma patología psiquiátrica) ofreciendo como resultado una lista ordenada por importancia de aquellos genes posiblemente más relevantes a estudiar para la patología en cuestión, dentro de las regiones del cerebro de interés. En el sitio web www.brainai.science podrán acceder a la versión online de PGL, su código fuente, datos utilizados y resultados obtenidos, así como la forma de contacto con sus desarrolladores.

¿Para qué sirve?

La principal utilidad de integrar ambos campos de las neurociencias, estudio por imágenes y genética, es reducir la complejidad del escenario de estudio. En términos de minería de datos, esto significa reducir la dimensionalidad del conjunto de datos a estudiar, o sea minimizar la cantidad de variables con las cuales trabajar. Utilizando PGL, diversos grupos científicos usan información sobre genética para acotar el problema de estudiar imágenes del cerebro a solo unas pocas regiones entre varios cientos disponibles. Por otro lado, también pueden reducir la cantidad de genes a estudiar, priorizando así a los posiblemente más relevantes.

¿Cómo funciona?

A fin de combinar el estudio anatómico del cerebro con su genética, PGL centra su funcionamiento en la utilización del Allen Human Brain Atlas[2]. Este proyecto realizó el diseccionado, toma de muestras y análisis genético de cada región, de seis cerebros humanos provenientes de donantes sanos sin patologías psiquiátricas reportadas, obteniendo el nivel de expresión génica para cada una de las muestras. Utilizando esta base de datos, nuestra herramienta lleva adelante un proceso de selección de variables a fin identificar las regiones y genes más significativos.

Para identificar regiones del cerebro de interés, implementamos una función denominada GetROIs que se apoya en cuatro métodos distintos: La prueba estadística Wilcoxon, y los algoritmos de clasificación Random Forest, máquinas de vector de soporte y agrupamiento por vecinos más cercanos. La idea tras el uso de múltiples y diversos métodos, es realizar una votación ponderada para determinar las variables (genes y/o regiones del cerebro) más importantes mediante diferentes criterios de búsqueda.

Usando Wilcoxon, evaluamos la diferencia en la distribución de la expresión génica de aquellos genes que forman parte de la hipótesis del investigador, versus el resto de los genes para cada una de las regiones del cerebro presentes en el atlas. Aquellas regiones en las que se encuentre una diferencia (se descarte la hipótesis nula), serán consideradas posibles regiones del cerebro de interés para el investigador. En cuanto a los tres métodos clasificatorios, usando los datos provenientes del atlas, marcamos como positivos aquellos genes presentes en la hipótesis y como negativos al resto. Luego, determinamos cuáles son las mejores variables (regiones del cerebro) para clasificar ambos tipos de genes con dichos métodos.

Para identificar los genes más interesantes, dentro de un grupo mayor de genes hipotéticamente relacionados a una patología psiquiátrica que involucra un conjunto de regiones del cerebro, usamos solo el método Random Forest. Esto se debe a que, usualmente, el investigador ya logró acotar el número de regiones del cerebro a estudiar, usando el método GetROIs junto a estudios estadísticos de imágenes del cerebro sobre sus propios individuos.

Figura 1. Diagrama representativo de las dos funciones principales de PGL, GetROIs y GetGenes

Figura 2. Diagrama de flujo de la función GetROIs para identificar regiones del cerebro de interés

Figura 3. Diagrama de flujo de la función GetGenes para identificar genes de interés

Caso de uso real

Inicialmente, PGL se diseñó para aplicarse en una investigación puntual, destinada a identificar aquellos genes relevantes relacionados con la propensión a cometer intentos de suicidio. Partiendo de un conjunto de 130 genes relevantes, extraídos de un estudio genético GWAS en pacientes bipolares con propensión a suicidio, el trabajo completo se desarrolló de la siguiente manera:

  1. Utilizamos el método GetROIs para identificar aquellas regiones del cerebro posiblemente relacionadas con intentos de suicidio, a partir de los genes extraídos del mencionado estudio.
  2. Analizamos la conectividad funcional en 410 pacientes de The Menninger Clinic, con y sin intentos de suicidio reportados, desde cada región del cerebro identificada (usando el método GetROIs en el paso anterior) hacia el resto de las regiones del cerebro. Complementariamente, agregamos al estudio un conjunto de pequeñas regiones para las cuales (según la bibliografía) hipotetizamos a priori que podrían ser importantes en el estudio de suicidio (Habenula, Ventral tegmental area and substancia nigra compacta, Medial and dorsal raphe y Locus coeruleus). Las conectividades que presentaron valores significativamente altos se dieron entre left subiculum (una de las 10 regiones identificadas por GetROIs) contra right habenula y left habenula.
  3. Usamos el método GetGenes para determinar cuáles de los 130 genes extraídos del estudio GWAS presentan niveles de expresión génica en el subículo, que permita diferenciar dicha región del resto de las regiones presentes en dicho atlas. Obtuvimos así una lista de 10 genes de interés ordenada por importancia.
  4. Por último, analizamos los genes identificados en el paso anterior, genotipando un SNP de cada uno de los diez genes identificados en el paso anterior, entre los mismos pacientes con y sin intentos de suicidio del paso 1, separándolos por su genotipo. Así se determinó que el gen AKAP7 (A kinase anchoring protein 7, un gen importante en la actividad neuronal en corazón y cerebro) interactúa con la conectividad entre left subículum y middle frontal gyrus en dichos pacientes.

Este es un ejemplo claro de la utilidad de PGL, donde partiendo de un conjunto de mas de cien genes, pudimos determinar y luego confirmar empíricamente la importancia de una región del cerebro asociada la relevancia de un gen, para una patología determinada.

En conclusión

PGL es una apuesta no convencional para unir dos campos de las neurociencias, relacionando genética con anatomía del cerebro. Diversos proyectos hacen uso de esta herramienta en la actualidad, lo cual genera nuevas oportunidades para probar su efectividad en un ámbito multidisciplinario. Futuras mejoras incluyen la exploración de diversos métodos de selección de variables, así como la inclusión de mejoras desde el punto de vista estadístico.

Referencias

1] Poblete, G. F., Gosnell, S. N., Meyer, M., Fang, M., Nguyen, T., Patriquin, M. A., … & Salas, R. (2020). Process genes list: an approach to link genetics and human brain imaging. Journal of neuroscience methods, 339, 108695

[2] https://human.brain-map.org/ 

Facebooktwitterlinkedin

Dejá un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *