Introducción al transcriptoma (7): análisis de expresión diferencial

Los datos originales del recuento de HTSeq de las tres muestras se pueden encontrar en mi GitHub, pero como se mencionó anteriormente, el error de Jimmy nos permitió analizar solo 3 muestras de humanos, y la otra muestra debe obtenerse de Se adquiere otra muestra de un lote de datos (preste atención al efecto del lote), por lo que no hay garantía de que cada grupo tenga dos duplicados.

Siempre he creído en las palabras "No estás solo". Definitivamente no soy el único que se encuentra con esta situación, así que encontré varias soluciones.

Los métodos anteriores lo harán Se presentará más adelante, pero nuestro DESeq2 debe tener problemas duplicados que deben resolverse con urgencia. No tengo más remedio que inventarlos yo mismo. Aunque estamos editando, todavía necesitamos tener un patrón determinado y no podemos copiarlo directamente. Debemos tener en cuenta que las lecturas de secuenciación de alto rendimiento se ajustan a la distribución de Poisson de forma predeterminada. Lo inventé así.

Esta es solo una forma de llenar los vacíos. Para obtener mejores métodos de simulación de datos, debe consultar más literatura profesional. Espero compensar esta parte en mi vida.

Esta parte del contenido se vio por primera vez en la Sección 8.5.3 de Análisis de datos de RNA-Seq. Al principio no la entendí en absoluto, pero después de estudiar bioestadística, creo que es necesario comprenderla. Todo el análisis diferencial de expresión génica. La clave de los paquetes R.

Básicamente, las clases de estadística presentarán cómo usar la prueba t para comparar la diferencia entre dos muestras y luego usarán el análisis de varianza para determinar si hay una diferencia entre las muestras cuando hay muchas muestras. Por supuesto, la muestra proviene de una población distribuida normalmente, o se realiza un muestreo aleatorio e independiente en grandes cantidades.

Para el análisis de expresión diferencial de chips de genes, dado que generalmente se cree que los datos obedecen a una distribución normal, el análisis de expresión diferencial no es más que aplicar la prueba t de suma o análisis de varianza a cada gen. Las búsquedas de alto rendimiento de muchos genes a la vez, por lo que es necesario corregir varias pruebas para controlar los falsos positivos. Actualmente, limma es el análisis de chips genéticos más utilizado.

Sin embargo, generalmente se cree que el recuento de lecturas de la secuenciación de alto rendimiento (HTS) obedece a la distribución de Poisson (por supuesto, hay otras opiniones diferentes) y es imposible utilizar directamente la prueba t y la varianza. análisis de distribución normal. Por supuesto, podemos utilizar el método de prueba no paramétrico de forma sencilla y tosca, pero el poder estadístico no es suficiente y la estimación del valor p corregido del resultado no puede encontrar un solo gen diferencial. El jefe gastó mucho dinero, pero resultó que no había un gen diferencial y fue un resultado negativo, por lo que se desperdiciaron miles de dólares. No debe estar contento. Por lo tanto, todavía tenemos que utilizar el método de prueba paramétrico, por lo que tenemos que hablar sobre la relación entre el análisis de varianza y los modelos lineales.

La regresión lineal y el análisis de varianza son dos conjuntos de métodos desarrollados durante el mismo período. En mi curso de estadística de campo de pregrado, introduje el uso del análisis de varianza (ANOVA) para analizar las diferencias de rendimiento después de diferentes tratamientos con fertilizantes. El diseño experimental es el siguiente

Este es el análisis de un solo factor más simple. varianza. Cada resultado puede considerarse como yij = ai + u + eij, donde u es la media general, ai es la diferencia de cada tratamiento y eij es el error aleatorio.

Nota: El nombre de Análisis de Varianza (ANAOVA) suena como si fuera una prueba de varianza, pero en realidad se utiliza para determinar si las diferencias entre muestras realmente existen. Para ello, es necesario demostrar que. las variaciones dentro de diferentes tratamientos son significativas es mayor que la variación entre diferentes tratamientos.

La regresión lineal se utiliza generalmente para predecir variables de respuesta cuantitativas utilizando variables predictoras cuantitativas. Por ejemplo, modelar la relación entre peso y altura:

Por supuesto, la regresión lineal también se puede utilizar para procesar factores nominales u ordinales (es decir, variables discretas) como variables predictivas. gráfico, es la siguiente situación.

Si necesitamos encontrar los cambios genéticos entre el grupo de control y el grupo de control después de diferentes tratamientos a través de un experimento, entonces la expresión genética se puede escribir simplemente como, y = a + b · tratamiento + e. En comparación con la fórmula anterior yij = ai + u + eij, encontrará que la fórmula es muy consistente. Esto se debe a que tanto los modelos lineales como el ANOVA son formas especiales de modelos lineales generalizados (GLM) con predictores distribuidos normalmente. El propio GLM puede manejar el modelado de cualquier tipo de variables siempre que utilice funciones de conexión adecuadas.

Actualmente se cree que la diferencia entre los recuentos de lectura se ajusta a la distribución binomial negativa, también llamada distribución gamma-Possion. Entonces la pregunta es, ¿cómo utilizar GLM o LM para analizar la diferencia entre dos piezas procesadas? De hecho, se puede explicar simplemente por la pendiente de la línea de ajuste en la figura anterior. Si hay diferencias entre diferentes tratamientos, entonces la pendiente de la línea de ajuste no debe ser cero, es decir, paralela al eje X. Pero esta es una forma fácil de entender (aunque es posible que no la entiendas), pero en realidad es más complicada y tiene más factores a considerar.

Nota 1 La distribución bidireccional negativa tiene dos parámetros, la media y la dispersión. La dispersión describe el grado en que la varianza se desvía de la media. La distribución de Poisson puede considerarse como una distribución negativa de dos vías con un valor discreto de 1, es decir, una situación en la que la media es igual a la varianza (media=varianza).

Nota 2 Esta parte implica muchos conocimientos estadísticos. Si no la comprende, utilice Wikipedia para comprobarla una por una.

Después de hablar sobre modelos lineales y análisis de varianza, la siguiente matriz de diseño es fácil de entender. En realidad, se utiliza para indicar a diferentes funciones de análisis de diferencias cómo tratar las variables. Por ejemplo, si queremos estudiar el cambio entre KD y control, la matriz de diseño es

Luego, la matriz de contraste le dice a la función de análisis de diferencias cómo comparar qué factor. Aquí está la comparación de expresiones. diferentes tratamientos.Cambios de cantidad.

De hecho, hay muchas formas de estandarizar el recuento de lecturas. Las más utilizadas son FPKM y RPKM, aunque en realidad son incorrectas: FPKM/RPKM es incorrecta.

Recomiendo leer Comparación de los métodos de normalización para el análisis diferencial de datos de RNA-Seq de alto rendimiento de Illumina para comprender las diferencias entre los diferentes métodos de normalización.

Algunos métodos requieren datos sin procesar, mientras que otros requieren ciertos tipos de datos estandarizados. Recuerde distinguirlos.

En cuanto al análisis DESeq2 de genes expresados ​​diferencialmente, en realidad está estandarizado por sesgo de posición. La función calcNormFactors de edgeR utiliza el algoritmo TMM para normalizar DGEList

Tenga en cuenta que la mayoría de los análisis de datos de mRNA-Seq se pueden normalizar utilizando TMM, pero hay excepciones, como RNA-Seq unicelular (Lun, Bach y Marioni 2016), y existe una expresión diferencial global. Más de la mitad de los genes en el genoma se expresan diferencialmente, así que trate de evitarlo (D. Wu et al. 2013); de lo contrario, deberá utilizar una referencia interna para la estandarización (. Risso et al. 2014).

Paso 4: Matriz de diseño experimental (Matriz de diseño), similar a los parámetros de diseño en DESeq2. El modelo lineal y el análisis de expresión diferencial de edgeR requieren la definición de una matriz de diseño experimental.

Es muy sencillo encontrar que es 1vs0

Paso 5: Estimar el valor discreto (Dispersión). Como se mencionó anteriormente, la distribución binomial negativa (binomial negativa, NB) requiere dos parámetros: valor medio y discreto. edgeR estima una dispersión empírica moderada por Bayes para cada gen, una dispersión común (la media de la dispersión empírica moderada por Bayes de todos los genes) y un valor discreto de tendencia

que puede ajustarse aún más al modelo NB mediante cuasi-verosimilitud (QL) para explicar las variaciones genéticas específicas causadas por la biología y la tecnología (Lund et al. 2012; Lun, Chen y Smyth 2016

Nota 1 El paso de estimar valores discretos en realidad tiene muchos). estimación*Funciones de visualización. Cuando no existe una matriz de diseño experimental (matriz de diseño), estimaDisp es equivalente a estimarCommonDisp y estimaTagwiseDisp. Cuando se proporciona una matriz de diseño experimental, estimaDisp es equivalente a estimarGLMCommonDisp, estimarGLMTrendedDisp y estimarGLMTagwiseDisp. Entre ellos, etiqueta es sinónimo de gen.

Nota 2 De hecho, los pasos tercero, cuarto y quinto aquí corresponden a los dos pasos incluidos en DESeq de DESeq2, estandarización y estimación de valores discretos.

Paso 6: Prueba de expresión diferencial (1). Este paso construye principalmente una matriz de comparación, similar al parámetro de contraste de la función de resultados en DESeq2.

La razón por la que se usa glmQLFTest aquí en lugar de glmLRT es porque glmQLTFit se usó para el ajuste anteriormente, por lo que es necesario usar QL F-test para las pruebas. Si anteriormente se usaba glmFit, el correspondiente es glmLRT. El autor afirma que la prueba QL F es más estricta. La corrección de pruebas múltiples también utiliza el método BH.

El siguiente paso es extraer genes significativamente diferentes para realizar análisis posteriores y hacer algunas imágenes para verlos.

Paso 6: Prueba de expresión diferencial (2). Los genes con diferencias significativas encontradas anteriormente no tienen en cuenta el valor del efecto, es decir, el número específico de veces que se ha producido el cambio. También podemos encontrar genes con cambios de expresión relativamente grandes y la función correspondiente es glmTreat.

Después de ser bautizado por los dos métodos anteriores, básicamente conocerá la rutina. Primero la resumiré brevemente y luego continuaré presentando el voom del paquete limma.

Limma se utilizó originalmente para procesar datos de chips de expresión genética, pero se dice que es el líder en este campo :sunglasses:. Si observa detenidamente la interfaz de importación de edgeR, encontrará que algunas funciones de edgeR dependen del paquete limma. Limma utiliza el modelo empírico bayesiano para que los resultados sean más sólidos.

Al procesar datos de RNA-Seq, el recuento de lecturas sin procesar se convierte primero en log2 recuentos por millón (logCPM) y luego se modela la relación media-varianza.

Hay dos métodos de modelado:

Preprocesamiento de datos: Limma usa el objeto DGEList de edgeR y los métodos de filtrado son consistentes y corresponden al primer, segundo y tercer paso de edgeR

Diferencial análisis de expresión: use “limma-trend”

Análisis de expresión diferencial: use “limma-voom”

Si analiza datos de chips genéticos, debe leer atentamente el paquete LIMMA.

Básicamente, para cada paquete, extraje varios genes importantes para comparar, necesito usar un diagrama de Venn, pero no quiero :stuck_out_tongue: quiero usar UpSetR

<. p> Siento que el resultado de limma es un poco extraño, tendré que preocuparme por eso por el resto de mi vida.

Vale, me perdí esta parte

[1] Comparación de los métodos de normalización para el análisis diferencial de datos de RNA-Seq de alto rendimiento de Illumina

[ 2] https://www.bioconductor.org/help/workflows/rnaseqGene/

[3] https://www.bioconductor.org/help/workflows/RnaSeqGeneEdgeRQL/

[ 4] https://www.bioconductor.org/help/workflows/RNAseq123/