El clustering se refiere al proceso de descubrir las razones de la agregación entre cosas a través de algún tipo de análisis de cluster sin "etiquetar" de antemano.
La diferencia entre clustering y clasificación
Categorización o Clasificación es etiquetar objetos según un determinado estándar, para luego clasificarlos según la etiqueta. En pocas palabras, la agrupación se refiere al proceso de descubrir las razones de la agrupación entre cosas mediante algún tipo de análisis de agrupaciones sin "etiquetado" previo.
La diferencia es que las categorías se definen de antemano y el número de categorías permanece sin cambios. El clasificador debe entrenarse mediante un corpus de entrenamiento de clasificación etiquetado manualmente, que pertenece a la categoría de aprendizaje guiado. La agrupación no tiene categorías predeterminadas y el número de categorías es incierto.
La agrupación no requiere anotaciones manuales ni clasificadores previamente entrenados, y las categorías se generan automáticamente durante el proceso de agrupación. La clasificación es adecuada para ocasiones en las que se han determinado las categorías o sistemas de clasificación, como clasificar libros según la Clasificación del Atlas Nacional;
La agrupación es adecuada para ocasiones en las que no existe un sistema de clasificación y el número de categorías es incierto y generalmente se utiliza como interfaz de algunas aplicaciones, como resumen de múltiples documentos, agrupación posterior de resultados de motores de búsqueda (metabúsqueda), etc.
El propósito de la clasificación es aprender una función de clasificación o un modelo de clasificación (también llamado clasificador) que pueda asignar elementos de datos en la base de datos a una determinada clase en una categoría determinada. Para construir un clasificador, se requiere como entrada un conjunto de datos de muestra de entrenamiento.
El conjunto de entrenamiento consta de un conjunto de registros o tuplas de la base de datos. Cada tupla es un vector de características compuesto por valores de campos relacionados (también llamados atributos o características). Además, la muestra de entrenamiento también tiene una etiqueta de categoría. . La forma de una muestra específica se puede expresar como: (v1, v2,...,vn;c);
Donde vi representa el valor del campo y c representa la categoría. Los métodos de construcción de clasificadores incluyen métodos estadísticos, métodos de aprendizaje automático, métodos de redes neuronales, etc.
La agrupación se refiere a reunir muestras sin categorías en diferentes grupos según el principio de "los pájaros del mismo plumaje se juntan". Dicho conjunto de objetos de datos se denomina grupo, y para cada uno de esos grupos se realiza el proceso de ". describiendo.
Su propósito es que las muestras pertenecientes a un mismo cluster sean similares entre sí, mientras que las muestras de diferentes clusters sean lo suficientemente diferentes. A diferencia de las reglas de clasificación, no sabemos en cuántos grupos se dividirán y qué tipo de grupos antes de la agrupación, ni sabemos qué reglas de distinción espacial se utilizan para definir los grupos.
El propósito es descubrir relaciones funcionales entre atributos de entidades espaciales, y el conocimiento extraído se representa mediante ecuaciones matemáticas con nombres de atributos como variables.
La tecnología de agrupación está en auge y abarca campos como la minería de datos, las estadísticas, el aprendizaje automático, la tecnología de bases de datos espaciales, la biología y el análisis de agrupación se ha convertido en un aspecto muy importante en el campo de la investigación de minería de datos. temas de investigación.
Los algoritmos de agrupamiento comunes incluyen: algoritmo de agrupamiento de K-medias, algoritmo de agrupamiento de punto central K, CLARANS, BIRCH, CLIQUE, DBSCAN, etc.