1. Programación
Linux: puede usar el editor (por ejemplo, VIM) y Shell Script (por ejemplo, bash); recomiendo "Cocina privada de Linux de Brother Niao: aprendizaje básico"
Python/Perl: "Introducción a la programación en Python (3.ª edición)", Perl recomienda Little Camel
R/MATLAB: "Lenguaje R en acción"
Si estás trabajando en una base de datos o un servidor, se recomienda aprender PHP, MySQL y JavaScript
2. Cursos
Bioinformática: Introducción y métodos de bioinformática (un curso impartido por el profesor Gao Ge de la Universidad de Pekín). , la explicación es clara y lógica, de fácil a profundo), MOOC.
Porque la bioinformática tiene muchas ramas, como analizar datos genómicos y proteómicos y dar explicaciones biológicas en términos de algoritmos de investigación, como el uso de varios principios de aprendizaje automático para resolver problemas biológicos (para la anotación de secuencias genéticas originales); , como la anotación de TSS, sitios de empalme, promotores, potenciadores, nucleosomas posicionados y otras regiones funcionales mediante el análisis de RNA-seq, microarrays, ChIP-seq y otros datos, distinguen diferentes tipos de enfermedades o moléculas de enfermedades. Biomarcadores; , como términos de ontología genética y análisis de redes reguladoras de interacción genética, como el uso de conocimientos estadísticos para mejorar los algoritmos de software bioinformático existentes, etc. Puede continuar complementando sus conocimientos en función de lo que quiera hacer en el futuro. Por ejemplo, consulte el curso de máquinas en Coursera impartido por Andrew Ng de la Universidad de Stanford, consulte los principios de estadística, etc.
3. Literatura y ejercicios prácticos
Si eres una empresa de biotecnología que se dedica a la genómica
3.1 Proceso de análisis de datos de ARN
RNA-seq : Puede repetir el análisis del análisis de expresión de transcripción y genes diferenciales de experimentos de RNA-seq con TopHat y Cufflinks en el artículo. Por supuesto, después de comenzar, puede obtener más información sobre el software relacionado, como STAR, feature counts, Gfold. EdgeR, DESeq2,
DESeq, etc.
Encontrar lncRNA: lncRNA desregulados recurrentemente en el carcinoma hepatocelular. Este artículo contiene el proceso de cómo encontrar nuevo lncRNA. Puede repetirlo de acuerdo con el método proporcionado en el artículo.
3.2 Proceso de análisis de datos de ADN
Conjunto de pruebas de proceso de GATK
Si quieres analizar la correlación entre variante y enfermedad, eQTL, etc., puedes aprenda sobre STATA
3.3
Para combinar el aprendizaje automático y la genómica, puede consultar la siguiente literatura:
DeepVariant: desarrollado por Google Deep Mind, utilizando la red de redes neuronales convolucionales, CNN) detecta mutaciones de base única (SNP) y pequeñas inserciones y eliminaciones (Indels) en el genoma, con mayor precisión que el software GATK existente.
DeepWAS: selecciona un conjunto de SNP basados en unidades funcionales. En comparación con el análisis de asociación del genoma (GWAS) existente para detectar la relación entre un SNP en el genoma y la enfermedad, DeepWAS puede analizar la patogenia de forma más exhaustiva. Para las mutaciones genéticas, también es más sencillo encontrar mutaciones genéticas en las regiones reguladoras.
DeepSEA: Predicción de variantes funcionales en regiones no codificantes del genoma humano.
DeepBind: Predice las características de secuencia de las proteínas de unión a ADN y ARN e identifica mutaciones genéticas dañinas.
DeepCpG: a nivel epigenético, se utiliza un algoritmo de red neuronal profunda para desarrollar secuencias de ADN y datos de modificación de metilación incompleta a través de secuenciación unicelular para predecir si el nivel celular se produce metilación y supera al software existente.