Texto | Suhen
Fuente | Zhihu
Este artículo se centra en los principios de los algoritmos de agrupamiento, los procesos de aplicación, las técnicas de uso, los métodos de evaluación y los casos de aplicación. . Para obtener detalles específicos del algoritmo, consulte la información relevante. El principal uso de la agrupación es la segmentación de clientes.
1. Clasificación VS agrupación
La clasificación es "aprendizaje supervisado" y usted sabe de antemano qué categorías se pueden dividir.
El clustering es "aprendizaje no supervisado" y no se sabe de antemano en qué categorías se dividirá.
Por ejemplo, manzanas, plátanos, kiwis, móviles y teléfonos.
Según diferentes características, nuestro cluster se dividirá en manzanas, plátanos y kiwis como frutas, y teléfonos móviles y teléfonos como productos digitales.
En términos de clasificación, cuando juzgamos "fresa", la clasificamos como una "fruta".
Entonces, la explicación popular es: la clasificación es aprender la capacidad de juzgar datos del conjunto de entrenamiento y luego hacer juicios de clasificación sobre datos desconocidos; la agrupación es clasificar cosas similares en una categoría, y no es así; requiere Aprender de los datos de entrenamiento.
Explicación académica: La clasificación se refiere a analizar un grupo de objetos en la base de datos para encontrar sus atributos únicos. Luego se dividen en diferentes categorías según el modelo de clasificación. La clasificación de datos primero construye un modelo de clasificación basado en los datos de entrenamiento y luego describe los datos de prueba en la base de datos de clasificación de acuerdo con estas clasificaciones o genera una descripción más apropiada.
Agrupar significa que los datos de la base de datos se pueden dividir en una serie de subconjuntos significativos, es decir, clases. La distancia entre individuos de la misma categoría es pequeña, mientras que la distancia entre individuos de diferentes categorías es mayor. El análisis de conglomerados a menudo se denomina "aprendizaje no supervisado".
2. Aplicaciones habituales del clustering
Nuestras aplicaciones prácticas incluyen:
Marketing: Segmentación de clientes
Seguros: búsqueda de grupos de clientes con altas reclamaciones de seguros de automóviles
planificación urbana: buscando el mismo tipo de propiedades
Por ejemplo, cuando haces análisis de compradores y vendedores, definitivamente escucharás el concepto de segmentación de clientes. utilizar estándares para clasificar a los clientes de alto valor, clientes de valor general y usuarios potenciales, etc., y proporcionar diferentes planes de marketing para clientes de diferentes valores.
También hay compañías de seguros, aquellos clientes con altos reclamos; compañías de seguros El tema más cuidadoso es que afecta la rentabilidad de las compañías de seguros;
Además, cuando se hacen bienes raíces, las áreas inmobiliarias calientes y las áreas inmobiliarias frías se agrupan en función de la ubicación, el precio, las instalaciones circundantes, etc. área.
3.k-means
(1) Supongamos K clústeres (2) Objetivo: encontrar clústeres compactos
a. p>b. Asignar datos al clúster más cercano
c. Repetir el cálculo de los clústeres
d.repetir hasta la convergencia
Ventajas: óptimo local
Desventajas: Problemas con clusters no convexos
¿Dónde K=?
Klt;=tamaño de muestra
Depende de la distribución de datos y la resolución deseada
AIC, DIC
La agrupación jerárquica evita esta pregunta
4. ¿Evaluar la robustez del clustering?
¿Cómo está el clustering? ¿Está sobreagregado?
Muchas veces depende de qué hacer después de la agregación.
5.caso
caso 1: gráfico de nubes de agrupación de vendedores
Autor: Su Hen autoriza la reimpresión
Enlace original: /dataman / 20397891