¿Qué cambios ha traído el aprendizaje profundo a la biología?

La investigación del aprendizaje profundo y sus posibles aplicaciones en biomedicina

El aprendizaje profundo ha tenido éxito en diversas aplicaciones biológicas. En esta sección, revisamos los desafíos y oportunidades del aprendizaje profundo en diversas áreas de investigación y, si es posible, estudios que aplican el aprendizaje profundo a estos problemas (Tabla 1). Primero revisamos áreas importantes del desarrollo de biomarcadores, incluida la genómica, la transcriptómica, la proteómica, la biología estructural y la química. Luego revisamos las perspectivas de descubrimiento y reutilización de fármacos, incluido el uso de datos multiplataforma.

Biomarcadores. Una tarea importante en biomedicina es transformar los datos biológicos en biomarcadores eficaces que reflejen fenotipos y estados físicos (como las enfermedades). Los biomarcadores son importantes para evaluar los resultados de los ensayos clínicos. Identificar biomarcadores sensibles y específicos es un gran desafío en la medicina traslacional moderna. La biología computacional es el desarrollo de biomarcadores. Se puede utilizar prácticamente cualquier fuente de datos, desde la genómica hasta la proteómica; estas se analizan en la siguiente sección.

Genómica. La tecnología de secuenciación de próxima generación (NGS) ha permitido la generación de grandes cantidades de datos genómicos. Gran parte del análisis de estos datos se puede realizar en computadoras utilizando métodos computacionales modernos. Esto incluye la anotación estructural del genoma (incluidas secuencias reguladoras no codificantes, predicciones de sitios de unión a proteínas y sitios de empalme).

Una rama importante de la genómica es la metagenómica, también conocida como genómica ambiental, ecológica o genómica comunitaria. La tecnología NGS revela la diversidad natural de microorganismos no cultivados, que no se había estudiado completamente antes.

Hay varios desafíos bioinformáticos en metagenómica. Un desafío importante es el análisis funcional de los datos de secuencia y el análisis de la diversidad de especies. El uso de redes de creencias profundas y redes neuronales recurrentes ha permitido la clasificación fenotípica de datos metagenómicos de pH y datos del microbioma humano. En comparación con los métodos de referencia, estos métodos no mejoran la precisión de la clasificación tanto como el aprendizaje por refuerzo, pero brindan la capacidad de aprender representaciones jerárquicas de conjuntos de datos.

El aprendizaje profundo también ha logrado cierto éxito en el procesamiento de datos de transcriptomas matriciales de alta dimensión. En otro enfoque, se extrajeron características de expresión genética, así como regiones que no codifican transcripciones, como miARN; esto se logró utilizando redes de creencias profundas y aprendizaje activo, donde se utilizó un extractor de características de aprendizaje profundo para reducir las dimensiones y supera al básico. métodos de selección de características [27]. La aplicación de aprendizaje y clasificación activos mejora la precisión y permite la selección de características relacionadas con el cáncer (clasificación mejorada del cáncer) en lugar de basarse únicamente en perfiles de expresión genética. La selección de características utilizando datos de miARN se logra explotando las relaciones con genes objetivo de subconjuntos de características previamente seleccionados.

En otra aplicación de aprendizaje profundo, Fakoor et al. lo generalizaron con redes de codificadores automáticos y utilizaron la expresión genética de microarrays de diferentes conjuntos de genes obtenidos de diferentes tipos de datos de plataformas de microarrays (familia Affimetrix) y los aplicaron a la clasificación del cáncer [ 28]. Combinaron PCA con aprendizaje de características dispersas no lineales y no supervisados ​​(a través de codificadores automáticos), utilizando la reducción de dimensionalidad para crear características para la clasificación general de datos de microarrays. Los resultados de clasificación de células cancerosas y no cancerosas muestran mejoras importantes, especialmente el uso de ajuste fino supervisado, lo que hace que las características sean menos generales pero logra una mayor precisión de clasificación incluso para datos sin normalización multiplataforma. Las capacidades de generalización global de los codificadores automáticos facilitan la recopilación de datos mediante diferentes tecnologías de microarrays, por lo que los análisis integrales a gran escala de datos de dominio público pueden resultar prometedores.

Aplicaciones de procesamiento de imágenes. La expresión génica también se puede almacenar en forma visual como imágenes, como imágenes de señales fluorescentes de micromatrices o señales fluorescentes o radioactivas de hibridación in situ de ARN. En algunas aplicaciones, las CNN, conocidas por su excelente rendimiento en el procesamiento de imágenes, han demostrado potencial para mejorar el análisis de estas imágenes.

En el análisis de microarrays, detectar señales e identificar puntos fluorescentes puede ser un desafío debido a los cambios en el tamaño, la forma, la ubicación o la intensidad de la señal del punto, y la intensidad de la señal de fluorescencia a menudo corresponde a los niveles de expresión de genes o secuencias.

En una aplicación de técnicas de aprendizaje profundo a este problema, se utilizó una CNN para la segmentación de imágenes de microarrays y mostró una precisión similar al método de referencia, pero el entrenamiento fue más simple y requirió menos recursos computacionales. [29]

Otra oportunidad de aplicar CNN a datos de expresión genética basados ​​en imágenes es la hibridación in situ de ARN, que es una técnica tediosa. Cuando se permite esta manipulación, la expresión genética se puede localizar y visualizar en un grupo de células, una sección de tejido o un organismo completo. Este enfoque facilita estudios longitudinales sólidos y explica los cambios en los patrones de expresión durante el desarrollo. Se utiliza para construir un atlas de Allen detallado del cerebro del ratón en desarrollo, que contiene más de 2000 perfiles de expresión genética, y cada gen se describe en múltiples secciones del cerebro. En el pasado, estas anotaciones manuales consumían mucho tiempo, eran caras y, en ocasiones, eran inexactas. Pero recientemente Zeng et al. utilizaron CNN previamente entrenado para la anotación automática [30]. Para ello, se entrenan modelos de redes neuronales en cerebros en desarrollo en diferentes niveles de imágenes originales de hibridación natural in situ sin información exacta sobre las coordenadas (esta tecnología se utiliza en múltiples se logra una excelente precisión a nivel cerebral);

Editar. Otra área de aplicación del aprendizaje profundo es la costura. El empalme es uno de los principales factores que proporcionan diversidad de proteínas en eucariotas. Además, estudios recientes han demostrado el vínculo entre el “código de empalme” y diversas enfermedades [31]. Sin embargo, la ciencia moderna todavía no comprende completamente los mecanismos que controlan la regulación del empalme. Los conceptos modernos de regulación del empalme incluyen el nivel de transcripción, la presencia de elementos específicos de la secuencia reguladora de la señalización (potenciadores del empalme o silenciadores), la estructura del sitio de empalme y el estado de los factores de empalme (p. ej., la fosforilación de sitios específicos puede alterar la actividad). de factores de empalme). Todos estos factores complican el análisis debido a la gran cantidad de elementos y a las complejas interacciones no lineales entre ellos. El software de predicción de mosaicos existente requiere datos de secuenciación de alto rendimiento como entrada y enfrenta problemas con lecturas sin procesar que son más cortas que las de genes convencionales, altos niveles de duplicación en el genoma y la presencia de pseudogenes. Por lo tanto, los algoritmos de análisis para los mecanismos de unión son muy lentos y requieren recursos informáticos altamente combinados, mientras que el aprendizaje profundo puede proporcionar mejoras en este sentido. En una aplicación de aprendizaje profundo que utiliza cinco conjuntos de datos de secuencias de ARN específicos de tejido, se desarrolló un DNN utilizando variables latentes que son características de las secuencias del genoma y los tipos de tejido y demostró ser eficaz para predecir los exones empalmados de tejido dentro de individuos y entre tejidos. Supera los métodos bayesianos (métrica de código de empalme) en porcentaje de cambio de transcripción para empalme [32].

ARN no codificante El ARN no codificante es otro problema en biología que requiere métodos computacionales complejos como el aprendizaje profundo. Los ARN no codificantes son muy importantes y participan en la regulación de la transcripción, la traducción y la epigenética [33], pero aún son difíciles de distinguir de los ARN codificantes de proteínas. Para los ARN cortos no codificantes, esta tarea se ha resuelto bien, pero sigue siendo bastante desafiante para los lncRNA. Los LncRNA son heterogéneos y pueden contener un supuesto origen de replicación (ORF) y secuencias cortas similares a proteínas. Se desarrolló un nuevo método de aprendizaje profundo, llamado lncRNAMFDL, para identificar lnc-RNA utilizando orf, K bases vecinas, estructura secundaria y secuencia de dominio de codificación predicha. El método utiliza cinco características independientes extraídas de datos de secuencia de Gencode (lncRNA) y Refseq (datos de ARNm que codifican proteínas) y produce una precisión de predicción de 97,1 en el conjunto de datos humanos.

Análisis del locus genético de rasgos de expresión. Finalmente, el análisis del locus de rasgos cuantitativos (QTL) tiene potencial para futuras investigaciones. El análisis QTL identifica loci que contienen polimorfismos responsables de la variación fenotípica en rasgos poligénicos complejos (p. ej., peso corporal, respuesta a fármacos, respuesta inmunitaria). Una de esas "firmas" que exhibe variación genética es la expresión o abundancia de transcripción de cualquier gen determinado en un tejido y/o condición determinada. Un QTL de expresión (eQTL) es un locus de variación genética que afecta la abundancia de la transcripción. El análisis EQTL ha aportado conocimientos sobre la regulación de la expresión genética humana, pero enfrenta muchos desafíos.

Los EQTL que regulan localmente la expresión (cis-eQTL) son relativamente fáciles de identificar con un número limitado de pruebas estadísticas, pero los trans-eQTL que regulan la expresión génica en otras partes del genoma son más difíciles de detectar. Recientemente, se propuso un método de aprendizaje profundo MASSQTL [35] para resolver el problema de predicción de trans-eQTL utilizando varias características biológicas codificadas, como la red de interacción física de proteínas, la anotación de genes, la conservación evolutiva, la información de secuencia local y los datos de diferentes componentes funcionales del Proyecto CODIFICAR. DNN supera a otros modelos de aprendizaje automático al utilizar nueve modelos DNN de los respectivos pliegues de validación cruzada y proporciona un nuevo mecanismo para el marco regulatorio de la expresión genética. El sistema de decodificación profunda también se utilizó para agrupar los vectores de características trans-eQTL, que luego se visualizaron mediante la técnica de reducción de dimensionalidad t-SNE.

Proteómica. En comparación con la transcriptómica, la proteogenómica es un campo de investigación bastante poco desarrollado con menos datos y menos métodos computacionales para el análisis. Incluso si existen mecanismos similares de codificación y transmisión de señales, la falta de datos proteómicos humanos y la dificultad para traducir los resultados de organismos modelo a humanos complica el análisis.

El aprendizaje profundo puede beneficiar a la proteómica de muchas maneras porque algunos métodos no requieren tantos casos de entrenamiento como otros algoritmos de aprendizaje automático. Otras ventajas de los métodos de aprendizaje profundo son que construyen representaciones jerárquicas de datos y aprenden características generales de interacciones complejas, lo que facilita el análisis de redes en proteómica y proteínas. Por ejemplo, utilizando datos de fosforilación, se han utilizado redes bimodales de creencias profundas para predecir las respuestas celulares de células de rata al mismo estímulo [36]. El algoritmo desarrollado logra una precisión considerablemente mayor en comparación con las tuberías tradicionales.

Biología y Química Estructural. La biología estructural incluye análisis del plegamiento de proteínas, dinámica de proteínas, modelado molecular y diseño de fármacos. Las estructuras secundarias y terciarias son características importantes de las moléculas de proteínas y ARN. Para las proteínas, la determinación correcta de la estructura es importante para predecir la función enzimática, la formación de enlaces entre el centro catalítico y el sustrato, la función inmune (unión al antígeno), los factores de transcripción (unión al ADN) y las modificaciones postranscripcionales (unión al ARN). La pérdida de una estructura adecuada provocará una pérdida de función y, en algunos casos, una agregación anormal de proteínas, lo que puede provocar enfermedades neurodegenerativas como el Alzheimer o el Parkinson. [37]

El modelado comparativo basado en la homología de compuestos es un método posible para predecir la estructura secundaria de las proteínas, pero está limitado por el número de compuestos bien anotados. Las predicciones ab initio del aprendizaje automático, por otro lado, se basan en patrones identificados de compuestos con estructuras bien conocidas, pero no son lo suficientemente precisas para usarse en la práctica. Predicción de estructuras mejorada utilizando datos de secuenciación de proteínas utilizando métodos de aprendizaje profundo desde cero [38]. De manera similar, se ha aplicado el aprendizaje profundo para predecir contactos y orientaciones entre elementos de la estructura secundaria y residuos de aminoácidos utilizando datos de bases de datos astrales y un enfoque complejo de tres etapas [39]. El método utilizado es una herramienta eficaz para analizar datos sesgados y muy variables.

La invariancia de las estructuras tridimensionales también es funcionalmente importante. Sin embargo, algunas especies de proteínas no tienen estructuras únicas para participar en procesos biológicos básicos, como el control del ciclo celular, la regulación de la expresión genética y la señalización molecular. Además, estudios recientes han demostrado la importancia de algunas proteínas desordenadas [37]; muchas proteínas oncogénicas tienen dominios no estructurados y la agregación anormal de proteínas mal plegadas contribuye al desarrollo de enfermedades [40]. Estas proteínas sin una estructura tridimensional fija se denominan proteínas intrínsecamente desordenadas (IDP), mientras que los dominios sin una estructura constante se denominan regiones intrínsecamente desordenadas (IDR).

Muchos parámetros distinguen IDP/IDR de las proteínas estructuradas, lo que dificulta el proceso de predicción. Este problema se puede resolver mediante el uso de algoritmos de aprendizaje profundo, que pueden tener en cuenta varias características. En 2013, Eickholt y Cheng publicaron el índice de predicción de aprendizaje profundo basado en secuencias DNdisorder, que mejoró la predicción de proteínas desordenadas en relación con el índice de predicción avanzado [41].

Más tarde, en 2015, Wang et al. propusieron un nuevo método, DeepCNF, que puede predecir con precisión múltiples parámetros, como IDP o proteínas con IDR, utilizando datos experimentales de la Evaluación crítica de la predicción de la estructura de proteínas (CASP9 y CASP10). El algoritmo DeepCNF supera las métricas de predicción ab initio únicas de referencia [42] mediante el uso de muchas funciones.

Otra clase importante de proteínas son las proteínas de unión a ARN que se unen a ARN monocatenario o bicatenario. Estas proteínas participan en diversas modificaciones postranscripcionales del ARN: empalme, edición, regulación traduccional (síntesis de proteínas) y poliadenilación. Las moléculas de ARN forman diferentes tipos de brazos y bucles, que son necesarios para identificar y formar estructuras secundarias y terciarias que conectan el ARN y las proteínas. Las estructuras secundaria y terciaria del ARN son predecibles y se han utilizado para modelar preferencias estructurales y predecir sitios de unión para RBP mediante la aplicación de redes de creencias profundas [43]. El marco de aprendizaje profundo se validó en un conjunto de datos CLIP-seq (secuenciación de alto rendimiento por inmunoprecipitación reticulada) real para mostrar la capacidad de extraer características ocultas de secuencias sin procesar y distribuciones estructurales y predecir con precisión los sitios de las RBP.

Descubrimiento y reutilización de fármacos. La biología y la bioquímica farmacéutica computacional se utilizan ampliamente en casi todas las etapas del descubrimiento, desarrollo y reutilización de fármacos. En las últimas décadas, diferentes grupos de investigación y empresas han desarrollado una gran cantidad de métodos computacionales para realizar simulaciones in silico del descubrimiento de fármacos y la extensión de objetivos en todo el mundo para reducir el tiempo y el consumo de recursos. Si bien existen muchos métodos [44], ninguno es óptimo (por ejemplo, la incapacidad de realizar una evaluación del rendimiento o la restricción por clase de proteína). Algunas investigaciones ahora sugieren que el aprendizaje profundo es un enfoque importante a considerar (Tabla 1).

Una de las tareas importantes en el descubrimiento de fármacos es predecir las interacciones entre fármacos y objetivos. Las dianas (proteínas) suelen tener uno o más sitios de unión para sustratos o moléculas reguladoras que pueden usarse para construir modelos predictivos. Sin embargo, la inclusión de otros componentes proteicos puede sesgar el análisis. Wang et al. utilizaron la capacidad de una red neuronal de entrada por pares (Pairwise Input Neural Network) para aceptar dos vectores con características obtenidas de la secuencia de proteínas y la distribución objetivo para calcular las interacciones objetivo-ligando [45]. Esta ventaja de las redes neuronales es más precisa que otros métodos representativos para predecir las interacciones objetivo-ligando.

El descubrimiento y la evaluación de fármacos son costosos, requieren mucho tiempo y son riesgosos; los métodos computacionales y varios algoritmos predictivos ayudan a reducir el riesgo y ahorrar recursos. Un riesgo potencial es la toxicidad; por ejemplo, la hepatotoxicidad (toxicidad hepática) es una razón común para la interrupción del fármaco. Predecir la hepatotoxicidad mediante métodos computacionales puede ayudar a evitar fármacos potencialmente hepatotóxicos. Mediante el aprendizaje profundo, la toxicidad de compuestos con estructuras químicas originales se puede determinar de manera efectiva sin la necesidad de procesos de codificación complejos [46]. Propiedades como la epoxidación, que implica una alta reactividad y posible toxicidad, también se pueden predecir utilizando CNN; esto lo lograron por primera vez Hughes et al. Los datos de las moléculas epoxidadas y las moléculas de hidróxido se utilizaron como controles negativos utilizando el formato de especificación de entrada de línea de entrada molecular simplificada (SMILES) [47].

Datos multiplataforma (multiómicas). La capacidad de utilizar datos multiplataforma es una de las principales ventajas de los algoritmos de aprendizaje profundo. Debido a que los sistemas biológicos son complejos y tienen muchos elementos interconectados, la integración a nivel de sistemas de datos genómicos, epigenómicos y transcriptómicos es clave para extraer los resultados más válidos y biológicamente significativos. El proceso de integración no carece de importancia computacional, pero el beneficio es una mayor especificidad y sensibilidad de los biomarcadores en comparación con los enfoques de fuente única.

Una de las principales áreas de la biología computacional que requiere el análisis de datos combinatorios es la epigenética computacional. El análisis combinado del genoma, el transcriptoma, las firmas de metiloma y las modificaciones de histonas proporciona predicciones epigenómicas precisas.

Algunos investigadores han desarrollado métodos de aprendizaje profundo que se pueden utilizar para analizar datos de múltiples fuentes (Tabla 1). Tools.genes.toronto.edu/deepbind/, es un método basado en aprendizaje profundo desarrollado por Alipanahi et al. para calcular la capacidad de las secuencias de nucleótidos para unirse a factores de transcripción y proteínas de unión a ARN en diversas enfermedades y para caracterizar el efecto único de un punto. mutaciones en las propiedades de unión.

El software DeepBind está inspirado en las CNN y no tiene en cuenta la tecnología; en cambio, es compatible con formas de datos cualitativamente diferentes, desde microarrays hasta secuencias. Las implementaciones de CPU también permiten a los usuarios paralelizar procesos informáticos [48]. En otra aplicación basada en CNN, Zhou y Troyanskaya diseñaron el marco DeepSEA para predecir características de la cromatina y evaluar variantes de secuencia asociadas a enfermedades. A diferencia de otros métodos computacionales, su algoritmo puede capturar información de secuencia contextual a gran escala para cada sitio de unión para la anotación de variantes de secuencia de novo [49]. Se desarrolló un proceso de CNN similar para revelar el impacto de la variación de secuencia en la regulación de la cromatina y se entrenó y probó con datos de DNase-seq (secuenciación de DNase I) [50]. Un software de aprendizaje profundo llamado Bassed superó a los métodos de referencia, logrando un AUC promedio de 0,892 en todos los conjuntos de datos. Finalmente, con el desarrollo de modelos de selección profunda de características, se utilizó el aprendizaje profundo para identificar potenciadores y promotores activos. Este modelo explota la capacidad de las DNN para modelar interacciones no lineales complejas y aprender características generalizadas avanzadas [51]. El modelo selecciona características de datos multiplataforma y las clasifica según su importancia. En estas aplicaciones, los métodos de aprendizaje profundo son un predictor más sensible y potente de las propiedades de la cromatina y son clave para el desarrollo de biomarcadores complejos.

El cáncer es un término colectivo para un grupo heterogéneo de enfermedades, algunas de las cuales son causadas por mutaciones genéticas, por lo que clasificar los cánceres utilizando datos multiplataforma puede revelar la patología subyacente. Liang et al. desarrollaron un modelo de red de creencias profundas con datos multiplataforma para agrupar a pacientes con cáncer [52]. Las máquinas de Boltzmann restringidas se utilizan para codificar características definidas por cada patrón de entrada. Una ventaja de este enfoque es que las redes de creencias profundas no requieren datos distribuidos normalmente, ya que ni otros algoritmos de agrupamiento ni datos genéticos (biológicos) están distribuidos normalmente.

Finalmente, desde una perspectiva de procesamiento del lenguaje natural, el aprendizaje profundo es útil para explorar grandes cantidades de datos no estructurados (publicaciones de investigación y patentes) y estructurados (gráficos de anotaciones de conocimiento como Gene Ontology [53] o Chembl[54). ]), probar la racionalidad de la hipótesis. Juntas, estas bases de datos forman un gran conjunto de datos multiplataforma que es más rico y completo cuando se combinan.

En resumen, la magnitud de los datos biológicos modernos es demasiado grande y compleja para un análisis centrado en el ser humano. El aprendizaje automático, especialmente el aprendizaje profundo combinado con la experiencia humana, es la única forma de integrar completamente múltiples bases de datos multiplataforma de gran tamaño. El aprendizaje profundo permite a los humanos hacer cosas que antes eran inimaginables: reconocimiento de imágenes de millones de entradas, reconocimiento de voz cercano a las capacidades humanas y automatización del habla. Aunque el aprendizaje profundo, especialmente el aprendizaje profundo no supervisado, está todavía en su infancia, especialmente para aplicaciones biológicas, la investigación inicial lo respalda como un enfoque prometedor para superar algunos problemas con los datos biológicos y para brindar nuevos conocimientos sobre los mecanismos y modalidades de millones de procesos indirectos e indirectos. enfermedades interconectadas, aunque sin limitaciones ni desafíos en su implementación.