Eliminar atributos únicos
Los atributos únicos suelen ser algunos atributos de identificación, que no pueden describir el patrón de distribución de la muestra en sí. Simplemente elimine estos atributos.
Manejo de valores faltantes
Hay tres formas de lidiar con valores faltantes: usar directamente las características de valores faltantes; eliminar características con valores faltantes (cuando atributos con valores faltantes; contiene una gran cantidad de valores faltantes pero este método funciona cuando solo hay unos pocos valores faltantes completos);
Métodos comunes de finalización de valores faltantes: interpolación media, interpolación media homogénea, predicción de modelado, mapeo de alta dimensión, interpolación múltiple, estimación de máxima verosimilitud, detección comprimida y finalización de matriz.
(1) Interpolación promedio
Si la distancia del atributo de muestra es medible, el valor promedio del valor efectivo del atributo se utiliza para interpolar el valor faltante;
Si la distancia no es medible, los valores faltantes se interpolan utilizando el patrón de los valores válidos del atributo. ¿Cuál es el impacto del sesgo de datos si se utiliza la interpolación modal?
(2) Interpolación media similar
Primero clasifique las muestras y luego use el valor promedio de las muestras de este tipo para interpolar los valores faltantes.
(3) Modelado y predicción
Tomando los atributos faltantes como objetivo de predicción, el conjunto de datos se divide en dos categorías según si el conjunto de datos contiene valores faltantes de Atributos específicos, utilizando algoritmos de aprendizaje automático existentes, predicen los valores faltantes en el conjunto de datos que se va a predecir.
El defecto fundamental de este método es que si otros atributos no están relacionados con el atributo faltante, entonces el resultado de la predicción no tiene sentido, pero si el resultado de la predicción es bastante preciso, significa que el atributo faltante no lo está; necesario incluirlo en el conjunto de datos. En términos generales, en algún punto intermedio.
(4) Mapeo de alta dimensión
Los atributos se asignan a un espacio de alta dimensión mediante tecnología de codificación con un solo clic. Los valores de atributos que incluyen K rangos de valores discretos se extienden a valores de atributos K 1. Si falta el valor del atributo, el valor del atributo K 1 extendido se establecerá en 1.
Este método es el más preciso, retiene toda la información y no añade ninguna información adicional. Si todas las variables se tratan de esta manera durante el preprocesamiento, la dimensionalidad de los datos aumentará considerablemente. La ventaja de esto es que retiene completamente toda la información de los datos originales, independientemente de los valores faltantes. La desventaja es que la cantidad de cálculo aumenta considerablemente y el efecto solo es bueno cuando el tamaño de la muestra es grande;
(5) Interpolación múltiple
La interpolación múltiple considera que los valores a interpolar son aleatorios. En operaciones reales, normalmente es necesario estimar el valor que se va a interpolar y agregar diferentes ruidos para formar múltiples conjuntos de valores de interpolación opcionales. La interpolación más adecuada se selecciona en función de algunos criterios de selección.
(6) Detección comprimida y finalización de matriz
(7) Interpolación manual
El proceso de interpolación solo utiliza nuestros valores estimados subjetivos para complementar los valores desconocidos , no Debe ser completamente consistente con hechos objetivos. En muchos casos, es mejor interpolar manualmente los valores faltantes según su comprensión del dominio.