Manejo de valores faltantes en proteómica

A menudo existen valores faltantes en los datos de proteómica, especialmente para la proteómica cuantitativa sin etiquetas (DDA o DIA), hay un número considerable de valores faltantes. Primero, hablemos del mecanismo de generación de valores perdidos:

Missing Completely At Random (MCAR) significa que los datos faltantes no dependen de sí mismos ni de otras variables, y son completamente aleatorios (como la perturbación del espectrómetro de masas). ). MCAR es completamente aleatorio, por lo que su impacto en todos sus datos no tiene preferencia y presenta una distribución uniforme.

Missing At Random (MAR) significa que los datos faltantes no son completamente aleatorios. Los datos faltantes dependen de otras variables observadas. Por ejemplo, es más probable que las colecciones con gradientes de tiempo más largos tengan valores faltantes. En este momento, si controlamos la variable tiempo, los datos faltantes se vuelven completamente aleatorios. Por lo tanto, algunas personas piensan que no hay diferencia entre MCAR y MAR, o que MCAR es un caso especial de MAR (doi:10.1186/1471-2105-13-S16-S5)

Falta no aleatoria (MNAR, Missing Not At Random), lo que significa que los datos faltantes dependen de la propia variable observada. Por ejemplo, durante la detección por espectrometría de masas, si el contenido de ciertos péptidos está por debajo del límite de detección del instrumento, es probable que se pierda la información cuantitativa de estos péptidos.

Es difícil discernir la causa exacta de los valores faltantes. Generalmente, por defecto, los valores faltantes pertenecen al tipo de mecanismo MCAR o MAR, a menos que haya evidencia suficiente para indicar que son valores faltantes del tipo de mecanismo MNAR.

DDA sin etiqueta generalmente tiene más valores faltantes, entre un 10% y un 50%. Los criterios de filtrado son variables. Por ejemplo, si hay tres duplicados en una proteína y 2 tienen valores, se recomienda conservarlos. Si 1 tiene un valor, si es más estricto, considere filtrar.

No se recomienda rellenar con valores medios, medianos o mínimos.

Métodos de uso común: KNN, Sequential KNN, MI, RandomForest, Impseq, etc. Todos los métodos se completan en función de los datos existentes. Entre ellos, KNN, s-KNN, etc. se basan en el supuesto de expresión genética local, mientras que Impseq se basa en el supuesto de expresión genética global. NAguideR puede evaluar comparativamente 23 métodos de llenado de valores faltantes y ayudarnos a elegir el mejor entre ellos.