El estándar de oro para el análisis diferencial del transcriptoma: práctica de Limma-voom

Limma-voom es poderoso en tres aspectos:

Tenga en cuenta que calcNormFactors aquí no está estandarizado, solo calcula un parámetro para la normalización posterior

Luego extraiga la muestra información (nombre de la muestra) basada en el nombre de la columna

Vea que las muestras están clasificadas según dos factores (cepa C/I5/I8, tiempo 6/9) y cuatro réplicas biológicas Escrito al final C /I5/I8 | 6/9 | 1/2/3/4

Luego integre estas dos partes en la información del grupo

Por supuesto, también puede ingresarla manualmente o impórtalo desde otros archivos, pero debes prestar atención a una cosa: los metadatos de este grupo deben corresponder al orden de recuentos listado.

Cuando existen múltiples factores experimentales al mismo tiempo, el análisis MDS (escalado multidimensional) debe realizar, es decir, "Transformación de escalamiento multidimensional".

Antes del análisis de diferencias formal, nos ayuda a juzgar las muestras de diferencias potenciales. El resultado será que todas las muestras se dividen en varias dimensiones. Las muestras de la primera dimensión representan la diferencia más grande.

Primero, se convierten los recuentos originales. en log2 CPM (recuentos por millón de lecturas), donde por millón de lecturas se especifica en función de los factores normativos calculados previamente por calcNormFactors

Luego se realizó un modelo lineal basado en el log2CPM de cada gen; se calcularon los residuos;

p>

Luego se utilizó el nivel de expresión promedio (línea roja) para ajustar sqrt (desviación estándar residual

La curva suave finalmente obtenida puede ser); se utiliza para obtener el peso de cada gen y muestra

/articles/10.1186/gb-2014-15-2-r29

La imagen de arriba funciona mejor si se parece a la siguiente. : significa que es necesario volver a filtrar los datos

Comparación entre grupos:

Por ejemplo, comparar 6 y 9 horas de cepa I5

Estimar la comparación de cada gen entre grupos:

Luego use Bayes empírico (reduce los errores estándar que son mucho más grandes o más pequeños que los de otros genes hacia el error estándar promedio)

/doi/10.2202/ 1544-6115.1027

Los genes con las diferencias más significativas en el pasado Se puede observar que el nivel de expresión del gen AT5G37260 es el más alto en el tiempo9 (aproximadamente 8 veces mayor que el del tiempo6), y el nivel de expresión de AT2G29500 es el más bajo, que es menor que el del tiempo6 (aproximadamente 1/32)

Entonces, ¿cuántos genes diferenciales hay?

Si usa logFC=2, Pvalue=0.05 como umbral para el filtrado

Solo necesita modificar makeContrasts

Lo anterior usa un grupo de factor único para Construya la matriz del modelo Si hay múltiples factores que influyen, puede usar los nuevos factores (guarde el paso anterior de combinar factores en grupos) para construir un nuevo modelo matricial.

Si queremos comparar las diferencias entre ellos. cepa I5 y cepa C en el tiempo6, puedes:

Puedes ver que los resultados son los mismos que los obtenidos antes de usar el grupo de un solo factor

Sin embargo, este método es poderoso cuando analizando efectos cruzados al mismo tiempo:

Por ejemplo, queremos ver la diferencia entre el tiempo9 y la cepa I5

A veces, RNA-Seq necesita considerar el impacto del efecto del lote

Al construir un modelo, debes agregar un lote al final, dejando todo lo demás sin cambios.

O debes considerar la influencia de otros factores. Por ejemplo, hay una continuidad. tasa variable aquí, que puede ser la influencia del pH, la luz, etc. en los materiales de investigación

p>

Se puede ver que el valor de la tasa no puede ser la causa de los genes diferenciales, sino la aún se puede explorar la correlación entre la tasa y los genes

La pendiente en el gráfico es el valor logFC, o puede

Digamos que por unidad de aumento en la tasa, el cambio en la expresión genética log2 CPM. La pendiente aquí es -0,096, lo que significa: por cada unidad de aumento en la tasa, hay una disminución de -0,096 log2CPM en la expresión genética o por cada unidad de aumento en la tasa, hay una disminución del 6,9% en CPM (2^0,096 = 1,069); )