Conceptos básicos del análisis de datos proteómicos (1)

Republicado desde /news/238.html

Formato de datos de espectrometría de masas

En otras palabras, la espectrometría de masas de proteínas ha formado una estructura y formato de datos fijos más de hace diez años. Los formatos de búsqueda de bases de datos comúnmente utilizados ahora, como mgf de Mascot, se han arreglado básicamente desde hace diez años.

Hasta ahora, los formatos de datos en el mundo de la espectrometría de masas tienen varias categorías diferentes debido a los diferentes instrumentos:

el formato de archivo sin formato de Thermo Company, que es actualmente el formato One más utilizado<. /p>

Formato WIFF de la empresa AB,

yep/.fid de Bruker

Carpeta de Waters

Carpeta de Agilent

Notas

MALDI MS actualmente se usa cada vez menos y básicamente no se usa para investigaciones de escopeta o de alto rendimiento.

Las extensiones de estos formatos de datos son algo diferentes, y el contenido contenido en los datos originales también es diferente. La información importante que se incluye se analizará en detalle más adelante.

Control de calidad de los informes de resultados

El análisis de los datos tiene como objetivo final la obtención de un resultado creíble. Por lo tanto, antes de hablar sobre los principios de análisis específicos, primero debemos hablar sobre los requisitos de control de calidad para el informe de resultados cuando realizamos un experimento cualitativo y cuantitativo de proteínas de alto rendimiento, así como sobre la identificación de búsqueda en la biblioteca y el análisis cuantitativo.

En primer lugar, después de terminar el experimento y obtener los datos fuera de línea, la mayoría de nuestros amigos colocarán los datos en varios programas de búsqueda de bases de datos, como Mascot o Thermo's Proteome Discoverer, e importarán los datos originales. establezca algunos parámetros de búsqueda y podrá obtener los resultados.

Sin embargo, como diseño de plan experimental riguroso, durante el proceso de análisis, es necesario realizar un control de calidad temprano de sus propios datos, lo que puede ayudar a todos a juzgar la confiabilidad de los resultados del análisis de datos. Por tanto, el control de calidad básico puede ayudarnos a predecir los resultados experimentales.

Pone un ejemplo.

Cuando abrimos los datos de cierre de un experimento, podemos predecir si nuestra muestra está contaminada por PEG procedente de plásticos poliméricos, si hay proteínas en abundancia ultra alta o si ha sido contaminada gravemente por sal. . tipo de contaminación. Todos estos datos se pueden ver en una vista visual de los datos sin procesar.

Los diferentes programas de espectrometría de masas abren datos sin procesar de diferentes maneras, pero toda esta información es visible. Además, cuando la diferencia en el número de proteínas buscadas entre dos experimentos es relativamente grande, el motivo también se puede juzgar a partir del gráfico TIC. Además, también se puede juzgar la eficacia de la separación y si se produce una interrupción de la pulverización.

Para los resultados de identificación de proteínas, o la mayoría de algoritmos de búsqueda en bases de datos, se requiere control FDR de los resultados, control de péptidos únicos, etc. Si queremos publicar estos datos, la mayoría de las revistas también requerirán esta información de control de calidad.

Entonces, la pregunta es, ¿por qué imponer tal requisito?

De hecho, una vez realizado el control de calidad, podemos ver un ratio de identificación global. Por ejemplo, para experimentos cuantitativos convencionales, el iTRAQ es el más utilizado.

Pone un ejemplo.

Suponiendo que el número total de proteínas es solo 2446, que es relativamente pequeño, y el número total de espectros es 530.000, entonces su tasa de identificación de espectro es del 32% en las condiciones actuales (algunos software de control de calidad La identificación La tasa del espectro se puede informar directamente, como Scaffold). Podemos juzgar que no hay problemas importantes en el experimento actual. La baja tasa de identificación se debe principalmente a la presencia de proteínas de alta abundancia, y esto se puede ver en. detalle más adelante.

Para experimentos cuantitativos, ya sea que usemos SILAC, iTRAQ o Label Free, necesitamos controlar la precisión de los resultados cuantitativos (los detalles se explicarán en cursos posteriores). En términos generales, necesitamos utilizar el software y los métodos estadísticos correspondientes para el control de calidad.

Después de estos pasos de juicio, se puede obtener un resultado preliminar, como por ejemplo si el número de espectros es similar a los resultados anteriores, cuál es la precisión de la masa y la tasa de identificación, y la presencia o ausencia de alta -Abundancia de proteínas, si está contaminada, cuál es la eficiencia de separación, si la cuantificación es precisa, si la eficiencia del etiquetado es correcta, etc., se puede obtener toda esta información. De esta forma, finalmente podremos obtener una identificación proteómica o un resultado cuantitativo preciso y fiable para su posterior análisis.

Entonces, ¿cómo realizar un control de calidad preliminar viendo los datos sin procesar?

En primer lugar, partimos de los datos originales. Podemos ver la siguiente figura (tomando como ejemplo el escaneo dependiente de datos de adquisición dependiente), que es un diagrama TIC obtenido de una separación LC. del cromatograma, en el que la recolección de señales se realiza en el espectrómetro de masas. En realidad, escanea las señales que ingresan gradualmente al espectrómetro de masas mediante la pulverización del cromatograma una por una, y luego selecciona picos de alta intensidad para la fragmentación secundaria.

Para obtener una introducción detallada a la separación por LC y el gráfico TIC, consulte el contenido de la clase anterior:

Notas de la conferencia: El principio y el uso de la espectrometría de masas de proteínas (4)

La siguiente imagen es un momento del diagrama de flujo de iones cromatográfico. La abscisa es la relación masa-carga y la ordenada es la intensidad de la señal. Hay algunas señales que ingresan al cromatograma en este momento. La intensidad de señal más alta es el péptido con una relación masa-carga de 477,31. También se pueden ver otros péptidos.

Este es el resultado más intuitivo que podemos ver cuando abrimos los datos offline del espectro de masas. Lo que debemos entender es que este es solo un momento determinado, una exploración determinada de todos nuestros resultados. No está claro si esta exploración puede reflejar la calidad del resultado completo, por lo que debemos ampliarla aún más en el futuro.

Para la espectrometría de masas, uno de los picos relativamente fuertes, como 477, se seleccionará automáticamente en este paso y realizará una exclusión dinámica, que también es un parámetro importante de la adquisición dependiente de datos. . Es decir, en unos pocos segundos, si un pico tan fuerte sigue apareciendo repetidamente, entonces no realizaremos la fragmentación de MS2 en el proceso de escaneo posterior.

Por ejemplo, como se muestra en la figura, 477.31, al registrar con nuestro instrumento espectrómetro de masas, descubrimos que había sido sometido a fragmentación secundaria antes, por lo que podemos elegir otro pico más débil. Por ejemplo, 552.80, realice una fragmentación secundaria en él.

Echemos otro vistazo a los picos del espectro secundario, como se muestra a continuación, que consiste en dividir nuestra información peptídica de longitud completa que ingresa al espectro de masas para obtener los iones B/Y correspondientes, como se muestra a continuación, que Lo discutiremos más adelante. Se explicará en detalle.

Principio de funcionamiento del modo DDA

La siguiente figura es un diagrama esquemático del principio de la espectrometría de masas Thermo (proporcionada por los ingenieros de Thermo). Este es el diagrama esquemático de QE. Primero realizamos un escaneo masivo de escaneo completo en el rango verde y luego determinamos la intensidad de la señal del ion seleccionado actualmente y si ha sido escaneado en las últimas docenas de segundos.

Si no, en el siguiente ciclo escanearemos los diez picos más fuertes que no se han escaneado en los 30 segundos anteriores (suponiendo que la velocidad actual del instrumento pueda alcanzar 10 MS). Al realizar la fragmentación secundaria, el espectrómetro de masas fragmentará secuencialmente los fragmentos de péptidos en el aerosol empujado por el cromatógrafo.

Este es el principio básico del modelo DDA. Nuestros datos también se registran según dicho proceso.

Si amplía el proceso de escaneo en dos dimensiones, puede obtener la siguiente imagen. Se ve muy similar a la imagen de electroforesis en gel bidimensional, ¿verdad? La abscisa es la relación masa-carga y la ordenada es el tiempo de retención. La abscisa en la imagen de ahora es el tiempo de retención y la ordenada es la intensidad (tabla de separación LC). Información sobre la relación carga-precio.

Sabemos que hay información sobre la relación masa-carga al ingresar al escaneo completo de MS. En pocas palabras, la imagen de arriba es una combinación de la información de las dos imágenes de ahora, y luego se unen todos los momentos de todos los datos de desembarco. Debido a la limitación de dimensiones, la información de intensidad de la señal no se puede mostrar. ya no.

Sin embargo, en esta figura, la profundidad del color se utiliza para representar el tiempo de retención. Los colores más oscuros son los péptidos con señales relativamente más fuertes.

Cada segmento de línea pequeño en la figura representa un segmento de péptido. La longitud del segmento de línea pequeño corresponde al tiempo de retención del segmento de péptido, más la información de la relación masa-carga en la abscisa. puedo ver El efecto de la separación en este experimento, si hay PEG, sal u otra contaminación, si hay alguna interrupción de la pulverización, etc., se puede comprender aproximadamente en esta imagen.

Por lo tanto, este gráfico nos resulta de gran utilidad para realizar el control de calidad de los datos. Diferentes software e instrumentos tienen diferentes formas de proporcionar este gráfico. La imagen utilizada en este ejemplo se obtuvo mediante el software Peaks.

Podemos seleccionar la parte que nos interesa en la imagen de arriba, dibujar un cuadro pequeño, abrir y ampliar el contenido del cuadro y obtener el resultado de los datos que almacenamos en la imagen de abajo. Esto es lo que vemos cuando abrimos nuestros datos en Qual Browser.

De hecho, esta es la información relevante que se utiliza para convertir nuestro diagrama de simulación en una señal de datos y almacenarla en nuestro archivo Raw, o extraerla en un archivo MGF.

Contiene principalmente dos categorías de información: información MS1 ​​y MS2, es decir, masa de escaneo completa e información de fragmentación secundaria. Las fórmulas estructurales de estos dos tipos de información son exactamente las mismas, incluida la relación masa-núcleo, el valor de intensidad y la intensidad relativa de la señal.

Por ejemplo, la intensidad de señal relativa del pico 794,03 es 100, es decir, en este espectro, este es el pico más fuerte y la intensidad de la señal es 3558210,8. Entonces, para nuestra búsqueda de espectro de masas, es necesario utilizar tanto la información primaria como la secundaria. La información primaria es la más importante, es decir, la parte MS1 en la figura, que es la información clave para búsquedas posteriores en la biblioteca. La información de intensidad del espectro secundario generalmente se usa para la cuantificación, lo que significa que si no está realizando SILAC o una cuantificación sin etiquetas, esta información no es la más importante.

Además, la exactitud de la información de la primera columna también es muy importante. Por ejemplo, en el cuadro rojo de la imagen, la información que podemos obtener es que la intensidad de 794,03 y 794,36 es aproximadamente 1,5 veces diferente, y la intensidad máxima posterior es aproximadamente 2 veces diferente. Miremos la masa a carga. proporción de los cuatro datos en el cuadro rojo. No hay diferencia. Grande, nuestro instrumento de espectrometría de masas juzgará que estos cuatro picos son muy consistentes con la distribución de isótopos de un péptido (las características de la segmentación de isótopos del péptido serán explicado más adelante).

Volviendo a esta imagen, 794.03 debería ser un segmento peptídico, y los tres datos siguientes son el mismo segmento peptídico. Este es el principio de nuestra identificación de precursores. A veces, el espectrómetro de masas identifica el error, pensando que es más probable que 793,69 en la línea sobre el cuadro rojo sea un isótopo. Esto requiere que lo corrijamos nosotros mismos.

Cuando el espectrómetro de masas recoja señales, nos dirá que 794.03 es un ion precursor o un pico de un péptido por lo que, durante la fragmentación posterior de MS2, se seleccionará dicho pico, y en masa. espectrometría, configuraremos la ventana correspondiente para romperla. Porque simplemente configurar una ventana muy pequeña puede no ser suficiente señal. Diseñaremos una ventana de, por ejemplo, más o menos 1,5 Dalton, recopilaremos todas estas señales y realizaremos una fragmentación secundaria para obtener señales secundarias.

En la espectrometría de masas de alta resolución actual, la señal secundaria también contiene información isotópica, por lo que el software de análisis de datos necesita procesar esta información de forma eficaz.

Como puede ver, en este ejemplo, el software registra 794.03, pero en realidad podemos observarlo a simple vista. La diferencia entre 793.69 y 794.03 es solo 0.33 ~ 0.34, que también es una diferencia entre. isótopos de tres cargas (1 dividido por 0,33 es 3, que es como se calcula Z en la relación masa-carga). La diferencia entre las dos intensidades de 2,71 millones y 3,55 millones no es muy grande. Juzgaremos que es más probable que 793,69 sea un pico de isótopo cero (cómo juzgarlo se explicará más adelante).

Cuando realizamos la extracción y recopilación de datos posteriores, utilizamos esta información para su análisis. Los datos de espectrometría de masas primaria que registramos y la lista correspondiente de espectrometría de masas secundaria, los más importantes de los cuales son m/z e intensidad. En los datos de espectrometría de masas primaria, la intensidad no se utiliza para calificar la identificación de proteínas, sino en la masa secundaria. datos de espectrometría Los valores de fuerza se utilizarán para la puntuación.