La normalización se utiliza para posibilitar comparaciones entre muestras y corregir errores sistemáticos. Por ejemplo, la cantidad de carga de la muestra A es el doble que la de la muestra B. Al final, se concluye que todas las proteínas en la muestra A son el doble que las de la muestra B. Esto obviamente es incorrecto. Este fenómeno también existe en la secuenciación de genes, como las diferencias en la profundidad de la secuenciación. Los paquetes R de uso común, como edgeR, también tienen diferentes métodos de normalización.
El método más simple y crudo es asumir que la mayoría de las proteínas no han cambiado y solo unas pocas han cambiado. Siempre que cada muestra se divida por la suma de la abundancia de todas sus proteínas, el error puede ser. corregido. Pero, obviamente, existen desventajas obvias si algunas proteínas son extremadamente abundantes y uno mismo cambia la suma de abundancias, no se puede corregir correctamente. De la siguiente manera
Por lo tanto, no es aconsejable utilizar la suma de abundancias como Normalización. Por tanto, también existen otros métodos para corregir el problema tomando una parte de la muestra para representar a la población. Por ejemplo, tomar la mediana, tomar muestras entre un cuarto y tres cuartos para eliminar valores extremos, etc.
El siguiente artículo es de Nature: La proteogenómica conecta las mutaciones somáticas con la señalización en el cáncer de mama
Primero, el autor filtró las muestras. La referencia es una muestra mixta, porque tanto los marcadores TMT como iTRAQ solo pueden etiquetar muestras limitadas y se necesita una muestra mixta como referencia para permitir la comparación entre diferentes lotes. Veamos el logaritmo de la relación de cada muestra con la referencia en la figura siguiente. La mayoría de los resultados son distribuciones unimodales (derecha) en línea con las expectativas, con distribuciones gaussianas (normales) centradas en 0 (1 veces) y algunas muestras. son obviamente bimodales (izquierda).
El autor utilizó el modelo de mezcla gaussiana doble mclust del paquete R para la agrupación, y 77 muestras con medias más pequeñas pasaron el control de calidad.
Lo que realmente es práctico es una variante del método de puntuación z, (media x)/desviación estándar. La diferencia es que aquí no se utiliza la desviación estándar de la muestra total.
Primero, supongamos que solo una parte de la proteína en la muestra ha cambiado y la otra parte no ha cambiado. El motivo del doble pico es la contaminación, etc., y las proteínas que no se han elevado. o regulados a la baja tienen desviaciones estándar más pequeñas.
Para normalizar la muestra de inyección y los errores del sistema mencionados anteriormente, se adopta el siguiente método, utilizando el paquete mixtools.
Estimar la media con un modelo unimodal
Estimar dos desviaciones estándar con un modelo bimodal
Estandarizar usando la desviación estándar más pequeña
Corrección Frontal
Si hay algún error, corríjalo
Referencias para otros métodos Una evaluación sistemática de los métodos de normalización en proteómica cuantitativa sin etiquetas