Métodos de preprocesamiento de datos

1. Método de reducción basado en la teoría de conjuntos aproximados

La teoría de conjuntos aproximados es una herramienta matemática para estudiar conocimientos imprecisos e inciertos. En la actualidad, ha recibido una amplia atención por parte de KDD. El uso de la teoría de conjuntos aproximados para procesar datos es un método muy eficaz para simplificar la dimensión de datos. Los datos que procesamos generalmente tienen problemas de ambigüedad informativa (Vaguedad). Hay tres tipos de ambigüedad: ambigüedad en la terminología, como la altura; incertidumbre en los datos, como la causada por el ruido; incertidumbre en el conocimiento mismo, como la dependencia entre las reglas de pre y post procesamiento no es completamente confiable. En KDD, el procesamiento de datos inciertos y la interferencia de ruido es un método aproximado

2. Método de concentración de datos basado en un árbol conceptual

En la base de datos, se pueden utilizar muchos atributos para la clasificación de datos. cada valor de atributo y concepto puede formar una estructura jerárquica según diferentes niveles de abstracción. Esta estructura jerárquica de conceptos generalmente se denomina árbol de conceptos. Los árboles de conceptos generalmente los proporcionan expertos en el campo, que organizan los conceptos en cada nivel de lo general a lo específico.

3. Pensamiento de la teoría de la información y descubrimiento del conocimiento universal

El conocimiento de características y el conocimiento de clasificación son las dos formas principales de conocimiento universal, y sus algoritmos se pueden dividir básicamente en dos categorías: cubo de datos. Métodos y métodos inductivos orientados a propiedades.

Los métodos de inducción ordinarios orientados a atributos tienen un cierto grado de ceguera en la selección de atributos inductivos. Durante el proceso de inducción, cuando hay múltiples atributos inducibles para la selección, generalmente se selecciona uno al azar. De hecho, el conocimiento resultante obtenido mediante diferentes órdenes de inducción de atributos puede ser diferente. Según el concepto de máxima entropía en la teoría de la información, se debe seleccionar un orden de inducción con una mínima pérdida de información.

4. Método de selección de atributos basado en análisis estadístico

Podemos utilizar algunos algoritmos en el análisis estadístico para seleccionar atributos de características, como análisis de componentes principales, análisis de regresión por pasos, comunes* ** Análisis de modelos factoriales, etc. La característica común de estos métodos es que se utiliza una pequeña cantidad de tuplas de características para describir la base de conocimiento original de alta dimensión.

5. Algoritmo genético [GA, Genetic Algo}thrn})

El algoritmo genético es un algoritmo de búsqueda aleatoria global basado en la evolución biológica y la genética molecular. La idea básica del algoritmo genético es codificar las posibles soluciones al problema de una determinada forma para formar un cromosoma. Se seleccionan aleatoriamente N cromosomas para formar la población inicial. Luego se calcula el valor de aptitud para cada cromosoma de acuerdo con la función de evaluación predeterminada. Se seleccionan cromosomas con altos valores de aptitud para la replicación y se utilizan operaciones genéticas (selección, cruce, mutación) para generar un nuevo grupo de cromosomas que sean más adecuados para el medio ambiente y formen una nueva población. De esta forma, las generaciones continúan reproduciéndose y evolucionando, y finalmente convergen hacia un individuo más adecuado al entorno, obteniendo así la solución óptima al problema. La clave para la aplicación del algoritmo genético es el establecimiento de la función de aptitud y la descripción de los cromosomas. En aplicaciones prácticas, generalmente se usa en combinación con métodos de redes neuronales. Los algoritmos genéticos se utilizan para buscar combinaciones de variables más importantes.