¿Cuál es la diferencia entre clasificación y agrupamiento en minería de datos?

La clasificación es una tarea muy importante en la minería de datos. Usando técnicas de clasificación, podemos extraer funciones o modelos (también llamados clasificadores) que describen clases de datos del conjunto de datos y atribuyen cada objeto del conjunto de datos a una clase de objeto conocida. Desde la perspectiva del aprendizaje automático, la tecnología de clasificación es un tipo de aprendizaje guiado, es decir, el objeto de datos de cada muestra de entrenamiento ya tiene un identificador de clase y, a través del aprendizaje, se puede obtener el conocimiento que expresa la correspondencia entre el objeto de datos y el identificador de clase. formarse. En este sentido, el objetivo de la minería de datos es clasificar los datos de origen basándose en el conocimiento de clase formado por datos de muestra y luego predecir la clasificación de datos futuros. La clasificación tiene una amplia gama de aplicaciones, como diagnóstico médico, calificación crediticia de tarjetas de crédito y reconocimiento de patrones de imágenes.

A diferencia de la tecnología de clasificación, la agrupación en clústeres es un tipo de aprendizaje no supervisado en el aprendizaje automático. En otras palabras, el clustering es un método de agrupamiento de información basado en el principio de similitud de información sin conocer de antemano las clases a clasificar. El propósito de la agrupación es hacer que las diferencias entre objetos que pertenecen a la misma categoría sean lo más pequeñas posible y las diferencias entre objetos en diferentes categorías lo más grandes posible. Entonces, el significado de agrupar es organizar el contenido observado en una estructura jerárquica y organizar cosas similares juntas. A través de la agrupación, se pueden identificar regiones densas y dispersas, descubriendo así patrones de distribución global y relaciones interesantes entre los atributos de los datos.

El análisis de clusters de datos es un campo en auge. La tecnología de agrupación se basa principalmente en métodos estadísticos, aprendizaje automático, redes neuronales y otros métodos. Las técnicas de agrupación típicas son métodos de agrupación basados ​​en distancias geométricas, como la distancia euclidiana, la distancia de Mahatma y la distancia de Minkowski. El análisis de conglomerados se utiliza ampliamente en negocios, biología, geografía, servicios de redes y otros campos.