Análisis de conglomerados: k-medias y agrupamiento jerárquico

Aunque a mí personalmente no me gusta que las personas se dividan en círculos, porque esto conduciría a discriminación, prejuicio, exclusión y contradicción, pero "los pájaros del mismo plumaje se juntan, las personas se dividen en grupos" es de hecho un objetivo. realidad: esto contiene la idea de análisis de conglomerados.

Los algoritmos de aprendizaje automático mencionados anteriormente son principalmente clasificación y regresión. Los escenarios de aplicación de estos dos tipos son muy claros, cuál es la predicción de variables categóricas o variables numéricas. El análisis de conglomerados es un método para agrupar muestras que son más similares y tienen diferencias más pequeñas en una categoría (conglomerado) en función de la distancia o similitud (cercanía) entre las muestras. Finalmente, se forman múltiples conglomerados, de modo que las muestras dentro del mismo conglomerado sean. Las muestras tienen una gran similitud y grandes diferencias entre los diferentes grupos.

Algunas personas no entienden la diferencia entre clasificación y agrupación. De hecho, esto es muy simple: la clasificación es una variable que se sabe que tiene varias situaciones específicas y predice qué situación será la agrupación; Es tratar de combinar variables similares, se agrupan muestras y se separan muestras diferentes. Por ejemplo, si juzga si una persona es un niño o una niña, esto es una clasificación, deje que los hombres estén en fila y las mujeres en fila, lo cual es agrupamiento.

Existen muchos algoritmos de análisis de conglomerados, los más clásicos son k-means y el método de agrupamiento jerárquico.

La k de k-means es el número de clústeres finalmente reunidos, que debes especificar de antemano. k-means es bastante simple entre los algoritmos comunes de aprendizaje automático. El proceso básico es el siguiente:

El proceso de agrupación de k-means se demuestra a continuación:

Análisis de conglomerados de k-means. Aunque el principio es simple, las deficiencias también son obvias:

Vale la pena mencionar que hay muchas formas de calcular la distancia y no necesariamente es necesario realizar una normalización cartesiana antes de calcular la distancia;

Aunque el principio de k-means es muy simple, el principio del método de agrupamiento jerárquico es aún más simple. Su proceso básico es el siguiente:

La agrupación jerárquica no especifica el número específico de grupos, solo se centra en la distancia entre los grupos y eventualmente formará un diagrama de árbol.

A través de este diagrama de árbol, no importa en cuántos grupos quieras dividir, puedes dibujarlos rápidamente.

A continuación se toman detalles de las células cancerosas como ejemplo para demostrar el proceso de K-medias y agrupamiento jerárquico.

Se puede ver que elegir diferentes indicadores de distancia dará como resultado diferentes efectos de agrupamiento final. Entre ellas, la distancia más larga y la distancia promedio de clase se utilizan con mayor frecuencia porque el gráfico genealógico producido es más equilibrado.

Una línea roja en la imagen divide los conglomerados en 4 categorías. Es fácil ver qué muestras pertenecen a qué conglomerado.

Los anteriores son los resultados del método de agrupamiento jerárquico, pero si se utiliza el agrupamiento de k-medias, es probable que los resultados sean diferentes.