Cabe señalar que la mayoría de los métodos de agrupación se basan en matrices de correlación, lo que también muestra que elegir un coeficiente de correlación adecuado es muy importante.
Como se muestra en la figura, necesitamos identificar diferentes tipos de métodos de agrupación y sus condiciones de aplicación.
La agrupación de agregación simplemente conectada también se denomina agrupación de vecinos más cercanos. La base de este método es la distancia por pares más corta. La primera lista conectada de cada objeto o grupo se convierte en el enlace principal y el árbol de expansión mínimo.
La base para permitir que un objeto o grupo se agregue con otro grupo es el par de distancia más lejano.
Una sola conexión significa que un objeto se puede agregar fácilmente a un grupo, ya que una sola conexión es suficiente para provocar la fusión. Por lo tanto, la agrupación de enlace único también se denomina método del amigo más cercano. Aunque los grupos de clasificación resultantes no están claros, los gradientes son fácilmente identificables. Por el contrario, existen claras diferencias entre las clases producidas por la agrupación totalmente conectada. La agrupación totalmente vinculada tiende a producir muchos pequeños grupos independientes y es más adecuada para encontrar e identificar distribuciones discontinuas de datos.
La agrupación por aglomeración promedio es un método de agrupación basado en la disimilitud promedio de objetos o centros de agrupación. Hay cuatro tipos de esta agrupación y se diferencian en cómo se calculan las posiciones del grupo y si el número de objetos se incluye como peso al calcular la fusión.
El método más famoso es el método UPGMA. Un objeto se agrega a un grupo según la distancia promedio entre el objeto y cada miembro del grupo.
Cabe señalar que UPGMC y WPGMC a veces provocan volteos de árboles, lo que dificulta la interpretación de los resultados de la clasificación.
Este es un método de agrupación basado en el criterio del modelo lineal de mínimos cuadrados. La agrupación se basa en la suma más pequeña de cuadrados dentro del grupo (es decir, la varianza del análisis de varianza).
Cabe recordar que el análisis de conglomerados es un análisis exploratorio y no una prueba estadística. Los factores que afectan los resultados de agrupación incluyen el método de agrupación y el coeficiente de correlación utilizado para el análisis de agrupaciones.
Para dos objetos cualesquiera que hayan completado la agrupación jerárquica, subirán desde un objeto en el árbol de agrupación y bajarán hasta el nodo que devuelve otro objeto, e inevitablemente llegarán al segundo objeto. El nivel en el que se encuentra el nodo de intersección es la distancia homotipo entre los dos objetos.
Para describir la correlación entre la matriz de distancias y la matriz isofenotípica obtenida mediante diferentes métodos de agrupamiento, se puede trazar el Shepard de la distancia original versus la distancia isofenotípica.
Figura.
La suma de los cuadrados de la diferencia entre la distancia original y la distancia de isotipo.
Para interpretar y comparar los resultados de la agrupación, normalmente es necesario encontrar agrupaciones interpretables, lo que significa decidir a qué nivel se debe cortar el árbol de agrupación.
El valor del nivel de fusión del árbol de agrupación es el valor de disimilitud en el punto de fusión de las dos ramas del árbol de agrupación.
Utilice la función cutree() para establecer el número de grupos de clasificación y utilice tablas de contingencia para comparar las diferencias de clasificación.
El ancho del contorno es una medida que describe el grado en que un objeto pertenece a su grupo. Es una comparación de la distancia promedio entre un objeto y otros objetos del grupo y la distancia promedio entre el objeto y. todos los objetos en el grupo más cercano.
Referencia:
¿Cuáles son los algoritmos de clustering comúnmente utilizados? Introducción detallada a seis algoritmos de agrupamiento
Aprendizaje no supervisado: agrupamiento
Enciclopedia ||Algoritmos de agrupamiento
Análisis de cluster