El análisis de conglomerados, también conocido como análisis de grupos, es un método de análisis estadístico para estudiar la clasificación (muestra o indicador) y un algoritmo importante para la extracción de datos. El siguiente es un artículo sobre algoritmos de agrupamiento que comparto con ustedes. Bienvenido a leer.
1. Introducción
El algoritmo de análisis de conglomerados consiste en asignar n vectores en el espacio M-dimensional R y asignar cada vector a uno de los k conglomerados, de modo que cada uno La distancia entre a vector y su centro de grupo es el más pequeño. La agrupación puede entenderse como: la correlación intraclase es lo más grande posible y la correlación entre clases es lo más pequeña posible. Como problema de aprendizaje no supervisado, el problema de agrupamiento tiene como objetivo obtener algunas reglas de datos intrínsecas dividiendo la colección de objetos original en grupos o conglomerados similares. La idea básica del análisis de conglomerados es utilizar valores estadísticos multivariados para determinar cuantitativamente la relación entre ellos, considerar la conexión y el papel principal entre múltiples factores del objeto y dividirlos en diferentes categorías según la diferencia de proximidad entre Las categorías hacen que la clasificación sea más objetiva y práctica, y pueden reflejar la conexión inherente e inevitable de las cosas. En otras palabras, el análisis de conglomerados considera el objeto de investigación como muchos puntos en un espacio multidimensional y lo divide razonablemente en varias categorías. Por lo tanto, es un método que puede reflejar objetivamente la similitud entre dominios variables. la relación de combinación interna entre estas variables o regiones. El sistema de áreas de extracción de sal es un sistema complejo de múltiples capas que involucra muchos factores confusos e inciertos. La clasificación económica de las áreas mineras de sal en la ciudad de Pingdingshan se basa en todas las áreas mineras de sal en la ciudad de Pingdingshan como objeto de investigación, con cada área minera de sal como unidad básica, con la economía como centro y la estrategia de desarrollo y el diseño racional como los objetivos para clasificar los tipos económicos. Sus principios básicos son: coherencia relativa en el desarrollo y utilización de los recursos de las minas de sal en la ciudad de Pingdingshan; coherencia en las condiciones naturales, económicas y sociales y mantenimiento de una estabilidad relativa en determinadas unidades administrativas regionales; Las divisiones administrativas actuales del área de la mina de sal de Pingdingshan no pueden reflejar las similitudes entre las áreas de la mina de sal. Es necesario clasificar aquellas áreas de mineral de hierro con condiciones económicas reales similares mediante análisis de agrupamiento difuso, analizar y descubrir las diferencias en cada área minera y prescribir el medicamento adecuado para proporcionar una base para formular contramedidas de desarrollo.
En segundo lugar, establecer un sistema de índice
1. Al determinar el índice de clasificación para dividir zonas económicas, se deben considerar varios factores de índice. Es necesario no sólo dar prioridad a las reservas de recursos de sal gema, sino también dar la debida consideración a la calidad de la sal gema, la etapa de exploración y el desarrollo y la utilización; es necesario tener indicadores directos e indirectos; sólo el estado actual del desarrollo del área minera, sino también el proceso y desarrollo de la zona minera. Con referencia a información relevante y opiniones de expertos, se determinaron los indicadores de zonificación económica del área de la mina de sal de Pingdingshan. Como se muestra en la Tabla 1. La tabla enumera los indicadores específicos y los datos originales de cada indicador (los datos provienen de la Tabla breve de reservas de recursos minerales de la provincia de Henan de 2006). Tabla 1 Sistema de indicadores de zonificación económica del área de extracción de sal y datos de indicadores Nota: N en la tabla indica datos faltantes, las etapas de exploración 1, 2 y 3 respectivamente indican exploración preliminar, investigación detallada e investigación detallada, y el estado de utilización 1 ~ 7 indica respectivamente que no es adecuado para trabajos posteriores en el futuro cercano, disponible para trabajos posteriores, difícil de usar en el futuro cercano, recomendado para su uso en el futuro cercano, planificación para su uso en el futuro cercano, áreas de minería de infraestructura, etc.
2. Transformar los datos del indicador Dado que diferentes variables tienen diferentes dimensiones y diferentes órdenes de magnitud, es necesario transformar los datos para hacer cada variable más comparable. Actualmente, existen tres métodos de procesamiento de datos: estandarización, estandarización de rango y normalización. Para comparar los valores del mismo índice entre ciudades de manera más intuitiva, adoptamos el método de transformación normalizada. La fórmula de cálculo es: Para facilitar la descripción, se realizan los siguientes ajustes: Sea Xi (i=1, 2, 3,..., 21) el valor del I-ésimo índice de evaluación en la capa del indicador específico, Pi ( i=1, 2, 3,…, 21) para. (1) Para indicadores superiores ①Xi≥Xmax, entonces pi = 1; ②Xi≤Xmin, entonces pi = 0; ③Xmin lt; ①2Xi≤Xmin, Pi = 1;
Tercero, análisis de conglomerados
1 paso (etapa) de agrupamiento. El orden de agrupación está representado por 1 ~ 3.
2. Combinación de clústeres. Se refiere a un caso que se fusiona en un paso determinado, como la fusión de la sección de la mina de sal de Tianzhuang del condado de Yexian en el primer paso y la sección de la mina de sal de Mazhuang del condado de Yexian en el segundo paso. se utiliza para representar la nueva categoría generada después de la fusión.
3. De acuerdo con el principio básico del análisis de conglomerados, primero se fusionan los casos con el mayor grado de intimidad, es decir, los casos con el coeficiente de similitud más cercano a 1. Por lo tanto, los coeficientes de esta columna corresponden a los pasos de agrupación de la primera columna y los valores de los coeficientes están ordenados de pequeño a grande.
4. La primera aparición de la nueva clase (StageClusterFirstAppears). Si uno de los dos elementos fusionados correspondientes a cada paso de agrupación es una clase recién generada (es decir, una clase fusionada de dos o más casos), la columna correspondiente muestra en qué paso se generó por primera vez la nueva clase. Por ejemplo, en el tercer paso, el valor que se muestra en la primera columna de esta columna es 1, lo que significa que el primero de los dos elementos que se fusionarán es la nueva clase generada la primera vez en el primer paso. Si el valor es o, significa que el elemento correspondiente sigue siendo un caso (no una clase nueva).
5. La siguiente etapa de la nueva lección. Esto significa que las nuevas clases generadas en el paso correspondiente se fusionarán con otros casos o nuevas clases en el primer paso. Si el valor en la primera fila es 11, significa que la nueva clase generada por la agrupación en el primer paso se fusionará con otros casos o nuevas clases en el paso 11.
6. Diagrama de análisis Dendrograma utilizando vínculo promedio (entre grupos) El dendrograma de agrupamiento jerárquico (método: vínculo promedio entre grupos) muestra claramente todo el proceso de agrupamiento. Ajusta proporcionalmente la distancia real de 0 a 25 y conecta casos con naturaleza similar o nuevas categorías conectándolos paso a paso hasta que ya no estén en la misma categoría. En la regla de distancia en la parte superior de la figura, seleccione un valor de distancia para una clasificación según sea necesario (grueso o subdividido) y luego dibuje una cruz en la regla vertical. La línea vertical se cruzará con la línea horizontal y luego la intersección. El punto es el número de categorías de la clasificación y la línea horizontal que se cruza. Los casos correspondientes se agrupan en una categoría. Por ejemplo, si el valor de la escala es 5, se clasifica en tres categorías: la sección de sal de Tianzhuang y la sección de sal de Mazhuang en el condado de Ye están en una categoría, la sección de sal de Louzhuang y la sección de sal de Wulibao en el condado de Ye están en una categoría, y la sección de sal de Yaozhai La mía en el condado de Ye es una categoría A. Si el valor de la escala es 10, se divide en dos categorías: Sección de sal de Tianzhuang y Sección de sal de Mazhuang en el condado de Yexian, y Sección de sal de Louzhuang, Sección de sal de Wulibao y Sección de sal de Yaozhai en el condado de Yexian.
Cuatro. Conclusión
Es apropiado dividir las cinco áreas mineras de sal en Pingdingshan en varias zonas económicas. Más no es mejor, ni menos es mejor. El propósito de dividir las zonas económicas es orientar las actividades económicas en función de las diferentes características de los recursos y las condiciones de exploración y desarrollo de cada zona económica de las minas de sal, de modo que las actividades económicas de las personas estén más en consonancia con las realidades locales. propias ventajas para lograr el objetivo de invertir menos personas y aumentar el número de personas y crear buenos beneficios económicos y sociales. Si hay demasiadas divisiones, se perderá el significado de división. Si hay muy pocas divisiones, será difícil brindar una orientación específica. Con base en los resultados del análisis de conglomerados anteriores, se pueden extraer tres opciones. Hay dos opciones que son más adecuadas y se pueden elegir. Opción 1: (Cuando la escala es 5, se puede dividir en tres categorías). La sección de sal de Tianzhuang y la sección de sal de Mazhuang en el condado de Ye pertenecen a la misma categoría, la sección de sal de Louzhuang y la sección de sal de Wulibao en el condado de Ye pertenecen a la misma categoría, y la mina de sal de Yaozhai en el condado de Ye pertenece a la misma categoría. A partir del análisis de conglomerados, podemos ver el primer esquema del mapa de clasificación del área de la mina de sal de Pingdingshan. Opción 2: (Cuando la escala es 10, se puede dividir en dos tipos). La sección de sal de Tianzhuang y la sección de sal de Mazhuang en el condado de Ye son un tipo, y la mina de sal de Louzhuang, la mina de sal de Wulibao y la mina de sal de Yaozhai en el condado de Ye son un tipo. A partir del análisis de conglomerados, podemos ver el segundo plano del mapa de clasificación del área de la mina de sal de Pingdingshan. El principio del análisis de dos grupos del esquema de clasificación del área de extracción de sal de Pingdingshan es agregar áreas mineras con calidad de mineral, reservas de recursos, etapa de exploración y estado de utilización similares, y los resultados del análisis son intuitivos y obvios. De acuerdo con las divisiones administrativas reales de la ciudad de Pingdingshan y las características de las empresas mineras, la división de las áreas de mineral de hierro se ajusta para integrar más estrechamente la teoría y la práctica y guiar mejor la práctica.
1. La sección de sal de Tianzhuang en el condado de Yexian y la sección de sal de Mazhuang en el condado de Yexian pertenecen a la misma categoría. Pertenecen a la misma escala de depósito, reservas de recursos similares, etapas de exploración y desarrollo similares y similares. niveles de utilización, por lo que pueden clasificarse en una categoría.
2. La mina de sal de Louzhuang en el condado de Ye y la mina de sal de Wulipu en el condado de Ye pertenecen a la misma categoría y pertenecen a la misma etapa de exploración y desarrollo.
3. La mina de sal Yaozhai en el condado de Ye pertenece a la primera categoría, con grandes reservas y alta ley de sal. Su plan de exploración y extracción es diferente de las otras dos categorías. En general, la aplicación del análisis de conglomerados es básicamente exitosa y la mayoría de las clasificaciones son realistas. Con base en la discusión anterior, la división de las áreas de extracción de sal se muestra en la siguiente tabla: Por supuesto, el análisis de conglomerados tiene sus ventajas y desventajas: (1) Ventajas: la ventaja del modelo de análisis de conglomerados es que es intuitivo y simple. . (2) Desventajas: cuando el tamaño de la muestra es grande, es difícil obtener conclusiones agrupadas. Debido a que el coeficiente de similitud es un indicador que refleja la conexión interna entre los sujetos, en la práctica a veces, aunque existe una estrecha conexión entre ellos a partir de los datos informados por los sujetos, no existe una conexión interna entre las cosas. En este momento, obviamente es inapropiado obtener los resultados del análisis de conglomerados basándose en la distancia o el coeficiente de similitud, y el modelo de análisis de conglomerados en sí no puede identificar este error.
;