Método de análisis de conglomerados

El análisis de conglomerados, también conocido como análisis de grupos o análisis de puntos, es un método cuantitativo para estudiar problemas de clasificación de cosas con múltiples elementos. Su principio básico es utilizar métodos matemáticos para determinar cuantitativamente la estrecha relación entre muestras de acuerdo con ciertos indicadores de similitud o diferencia basados ​​en los atributos de la muestra misma, y ​​agrupar las muestras según el grado de estrecha relación (Xu Jianhua, 1994). .

El método de análisis de conglomerados, aplicado a las aguas subterráneas, consiste en agrupar de manera integral los valores de monitoreo de varios indicadores de la muestra bajo las limitaciones de varios indicadores y estándares de nivel de calidad para determinar el nivel de calidad del agua subterránea. . Los métodos comunes de análisis de agrupamiento incluyen agrupamiento sistemático, agrupamiento difuso y agrupamiento gris.

(1) Método de agrupamiento del sistema

Los pasos principales del método de agrupamiento del sistema son: estandarización de datos, cálculo de estadísticas de similitud y agrupamiento.

1. Estandarización de datos

En el análisis de conglomerados, la selección de elementos de agrupamiento es muy importante, ya que afecta directamente a la precisión y confiabilidad de los resultados de la clasificación. En la investigación de la calidad del agua subterránea, los objetos que se van a agrupar suelen estar compuestos de múltiples elementos. Los datos de diferentes características pueden variar significativamente, lo que puede tener un impacto en los resultados de la clasificación. Por lo tanto, una vez determinados los objetos de los elementos de clasificación, antes de realizar el análisis de conglomerados, primero se deben estandarizar los datos de los elementos de agrupación.

Supongamos que los puntos de análisis de calidad del agua (G) considerados se consideran objetos agrupados (hay m), representados por i (i=1, 2,...,m los factores principales); Los indicadores que afectan la calidad del agua se consideran indicadores agrupados (hay n) y están representados por j (j=1, 2,...,n), y los datos de sus elementos correspondientes se pueden dar en la Tabla 4-3. En el análisis de conglomerados, existen muchos métodos para estandarizar los datos de los elementos del conglomerado, y generalmente se utilizan el método de desviación estándar y el método de rango.

Tabla 4-3 Agrupación de objetos y datos de características

Estandarizar la variable j-ésima significa transformar xij en x′ij.

(1) Estandarización de la suma

Investigación sobre la teoría y el método de evaluación de la sostenibilidad de la función del agua subterránea regional

Los nuevos datos x′ij obtenidos mediante este método de estandarización satisfacen

Investigación sobre la teoría y el método de evaluación de la sostenibilidad de la función de las aguas subterráneas regionales

(2) Estandarización de la desviación estándar

Investigación sobre la teoría y el método de evaluación de la sostenibilidad de función regional del agua subterránea

p>

En la fórmula:

Los nuevos datos x′ij obtenidos mediante este método de estandarización tienen un valor promedio de 0 y una desviación estándar de 1. , es decir,

Investigación sobre la teoría y el método de evaluación de la sostenibilidad de la función del agua subterránea regional

(3) Estandarización del rango

Investigación sobre la teoría y el método de la sostenibilidad evaluación de la función del agua subterránea regional

En los nuevos datos obtenidos después de esta estandarización, el valor máximo de cada elemento es 1, el valor mínimo es 0 y los valores restantes están dentro del intervalo cerrado de [0 , 1].

En la fórmula anterior: xij es el valor medido de la variable j; xj es la media muestral de la variable j;

2. Estadísticas de similitud

El método de agrupamiento del sistema requiere un índice numérico que pueda reflejar el grado de similitud entre muestras, y es necesario encontrar estadísticas que puedan medir la relación de similitud. Esta es la clave del método de agrupamiento sistemático.

Las estadísticas de similitud generalmente se calculan utilizando coeficientes de distancia y coeficientes de similitud. El coeficiente de distancia trata la muestra como un punto en un espacio multidimensional y utiliza la distancia entre puntos para representar la estrecha relación entre los objetos de investigación. Cuanto menor es la distancia, más cercana es la relación. El valor del coeficiente de similitud indica el grado de similitud entre muestras y variables.

(1) Coeficiente de distancia

A menudo se utiliza la distancia absoluta euclidiana, donde la distancia dij entre la muestra i y la muestra j es

Sostenibilidad de la función regional del agua subterránea Investigación sobre teoría y métodos de evaluación

Cuanto más pequeño sea dij, más similares serán las muestras i y j.

(2) Coeficiente de similitud

Los coeficientes de similitud comunes incluyen el coseno de ángulo y el coeficiente de correlación. La fórmula de cálculo es

1) coseno de ángulo

Investigación sobre la teoría y método de evaluación de la sostenibilidad de la función del agua subterránea regional

En la ecuación (4-20): -1≤cosθij≤1.

2) Coeficiente de correlación

Investigación sobre la teoría y el método de evaluación de la sostenibilidad de la función del agua subterránea regional

En la fórmula: dij es el valor euclidiano de la muestra i y muestra j Obtenga la distancia; cosθij es el coeficiente de similitud entre la muestra i y la muestra j; rij es el coeficiente de correlación entre la muestra i y la muestra jik es el valor medido o el valor estandarizado del k-ésimo factor de la muestra i; el valor del k-ésimo factor de la muestra j o el valor estandarizado es el valor medio del k-ésimo factor de la muestra i, es el valor medio del k-ésimo factor de la muestra j, n es el número de muestras; es el número de factores (variables).

3. Agrupación

Después de seleccionar las estadísticas de similitud, se forma una matriz de coeficientes de distancia o similitud (n × n) en función de los resultados del cálculo, y luego se calcula n utilizando un determinado Método Las muestras se combinan en unidades de clasificación de diferentes niveles y las clases se fusionan, es decir, las muestras más similares se agrupan en un grupo y luego las muestras subsimilares se clasifican en grupos con niveles de clasificación más altos. La agrupación incluye principalmente el método de agrupación directa y el método de agrupación a distancia (método de agrupación de distancia más corta y método de agrupación de distancia más larga).

(1) Método de agrupación directa

El método de agrupación directa es un método de agrupación simple que obtiene el resultado fusionando una sola vez en función de la estructura de la matriz de coeficientes de distancia o similitud. Primero trata cada objeto de clasificación como una categoría por separado y luego selecciona un par de objetos de clasificación en secuencia de acuerdo con el principio de distancia mínima o coeficiente de similitud máximo y los fusiona en una nueva clase. Si un par de objetos clasificados pertenecen a dos categorías que han sido clasificadas, las dos categorías se fusionan en una sola categoría. Para cada combinación, se tachan las filas con las mismas columnas y orden de columnas que el objeto. Después de n-1 veces, todos los objetos clasificados se clasifican en una categoría y, finalmente, se realiza un análisis genealógico de conglomerados de acuerdo con el orden de fusión.

(2) Método de agrupación por distancia

El método de agrupación por distancia incluye el método de agrupación por distancia más corta y el método de agrupación por distancia más larga. El método de agrupación de distancia más corta tiene compresión espacial, mientras que el método de agrupación de distancia más larga tiene expansión espacial. El cálculo de la distancia entre estos dos métodos de agrupación se puede expresar mediante una fórmula unificada:

Estudio sobre la teoría y el método de evaluación de la sostenibilidad de la función del agua subterránea regional

Cuando γ=- Cuando 0,5, ecuación (4-22) calcula la distancia más corta entre clases cuando γ=0.5, la ecuación (4-22) calcula la distancia más lejana entre clases;

El método de distancia más corta y más lejana es encontrar dpq=min(dij) o dpq=max(dij) en los elementos fuera de la diagonal de la matriz de distancias n×n original y combinar el objeto de clasificación Gp. y Gq se fusiona en una nueva categoría Gr, y luego se calcula según la fórmula:

dpq=min (dpk, dqk) (k≠ p, q) (4-23)

dpq=max (dpk, dqk) (k≠ p, q) (4-24)

Calcule la distancia entre las categorías originales y las nuevas categorías, para obtener una nueva (n- 1) ordenar la matriz de distancias; luego seleccionar el dij más pequeño o más grande de la nueva matriz de distancias, fusionar Gi y Gj en nuevas categorías y luego calcular la distancia entre cada categoría y la nueva categoría hasta que cada objeto clasificado se clasifique en una categoría; Finalmente, todo el proceso de agrupación se integra para crear un pedigrí de agrupación de distancia más corta o de mayor distancia (Figura 4-1).

Figura 4-1 Diagrama genealógico de agrupamiento de la evaluación de la calidad del agua subterránea

(2) Método de agrupamiento difuso

El método de agrupamiento difuso es un descendiente de los métodos de agrupamiento ordinarios Una extensión , que se forma introduciendo conceptos difusos en los métodos de agrupación. Los pasos principales de este método para evaluar la calidad del agua subterránea incluyen tres aspectos: estandarización, calibración y agrupamiento de datos (Fu Yanpeng et al., 1987).

1. Estandarización de datos

Durante el proceso de agrupación, dado que los valores absolutos de cada variable en estudio son diferentes, el uso directo de los datos originales para el cálculo resaltará las variables con mayor tamaño. valores absolutos y reducir el efecto de las variables con valores absolutos pequeños. Especialmente en el análisis de agrupamiento difuso, las operaciones difusas requieren que los datos se compriman entre [0, 1]. Por lo tanto, la tarea principal del cálculo de agrupamiento difuso es resolver el problema de la estandarización de datos. Para conocer el método de estandarización de datos, consulte método de análisis de conglomerados sistemático.

2. Calibración y agrupamiento

La llamada calibración consiste en calcular el coeficiente de similitud rij entre los objetos clasificados, determinando así la relación de similitud difusa Rij en el conjunto de dominios U. El cálculo del coeficiente de similitud es el mismo que el método de análisis de conglomerados del sistema.

La agrupación consiste en interceptar la matriz de relaciones difusas Rij establecida con diferentes niveles de confianza λ (λ∈ [0, 1]) y luego obtener diferentes clasificaciones.

Existen muchos métodos de agrupación, que incluyen principalmente la agrupación basada en relaciones de equivalencia difusa y la agrupación basada en árboles máximos.

(1) Método de relación de equivalencia difusa

La llamada relación de equivalencia difusa se refiere a reflexividad (rii=1), simetría (rij=rji) y transitividad. La relación difusa de ( R·R·R).

La idea básica del método de análisis de agrupamiento difuso basado en relaciones de equivalencia difusa es: dado que la relación de equivalencia difusa R es un subconjunto difuso del producto directo U×U del conjunto de dominios U y él mismo, por lo tanto, R se puede descomponer cuando R se intercepta utilizando el nivel λ, el subconjunto ordinario interceptado Rλ de U × U es una relación equivalente ordinaria en U, es decir, se obtienen los elementos del objeto clasificado en U. Cuando λ disminuye de 1 a 0, la clasificación resultante cambia de fina a gruesa y se fusiona gradualmente, formando así un pedigrí de agrupamiento dinámico (Xu Jianhua, 1994). Los pasos específicos para este tipo de análisis son los siguientes.

El primer paso: establecimiento de una relación de similitud difusa, es decir, cálculo de estadísticas de similitud entre varios objetos clasificados.

El segundo paso: transformar la relación de similitud difusa R en una relación de equivalencia difusa R′. Las relaciones de equivalencia difusa requieren reflexividad, simetría y transitividad. En términos generales, las relaciones de similitud difusa satisfacen la reflexividad y la simetría, pero no la transitividad. Por lo tanto, es necesario utilizar la propiedad de cierre transitivo para transformar la relación de similitud difusa en una relación de equivalencia difusa. El método de transformación consiste en multiplicar la relación de similitud R por sí misma, es decir,

R2=R·R

R4=R2·R2

Calcular en de esta manera hasta que: R2k =Rk·Rk=Rk, entonces R′=Rk es una relación equivalente difusa.

Paso 3: Agrupación en diferentes niveles de corte.

(2) Método de agrupamiento de árbol máximo

La idea básica del método de análisis de agrupamiento difuso basado en el árbol máximo es: el árbol máximo es un gráfico conectado que no contiene bucles (Figura 4-2); seleccione el nivel λ para interceptar las ramas, corte las ramas con pesos inferiores a λ y forme varios subárboles aislados. Cada subárbol es una colección de clases. Los pasos específicos para este tipo de análisis son los siguientes.

Figura 4-2 Diagrama de árbol de soporte de agrupamiento máximo

El primer paso: calcular la estadística de similitud difusa rij entre los objetos clasificados y construir el árbol máximo.

Tomando todos los objetos clasificados como vértices, cuando rij entre dos puntos no es igual a 0, los dos puntos se pueden conectar mediante troncos de árbol. Esta conexión se realiza en orden de rij de mayor a menor. formando el árbol más grande.

Paso 2: Análisis de conglomerados en función del árbol máximo.

Elija un determinado valor de λ como conjunto de corte y corte los troncos del árbol que sean más pequeños que el valor de λ, de modo que los nodos conectados formen una categoría, es decir, un subárbol. va de 1 a 0, el resultado La clasificación cambia de fina a gruesa y los objetos de clasificación representados por cada nodo se fusionan gradualmente, formando así un diagrama genealógico de agrupamiento dinámico.

Entre los métodos de agrupación, el método de agrupación difusa tiene un mayor avance que el método de agrupación ordinario, simplificando el proceso de operación y haciendo que el método de agrupación sea más fácil de dominar.

(3) Método de agrupación gris

La agrupación gris se basa en el número de blanqueamiento de diferentes indicadores de agrupación y resume los objetos agrupados de acuerdo con varias categorías grises para juzgar en qué categoría se encuentra este objeto de agrupación. pertenece a.

La agrupación gris se utiliza en la evaluación de la calidad del agua subterránea. Toma los puntos de análisis de la calidad del agua bajo consideración como objetos de agrupación, representados por i (i=1, 2,...,n); los indicadores de agrupamiento, representados por j (j=1, 2,..., m), y los niveles de calidad del agua se consideran números grises de agrupamiento (categorías grises), representados por k (k=1, 2, 3), es decir , primer nivel, hay tres categorías grises: Nivel 2 y Nivel 3 (Luo Dinggui et al., 1995).

Los pasos principales de la agrupación de grises: determinar el número de blanqueamiento de la agrupación, determinar cada función de blanqueamiento de grises fjk, encontrar el peso de agrupación calibrado ηjk, encontrar el coeficiente de agrupación y determinar la clasificación de objetos de agrupación de acuerdo con el principio máximo.

1. Determinar el número de blanqueamiento por agrupamiento

Cuando los números de blanqueamiento de cada categoría de canas son muy diferentes en cantidad, se debe realizar un blanqueamiento para asegurar la comparabilidad y equivalencia entre los Indicadores. Tratamiento adimensional de los números. Es decir, se da el número de blanqueamiento que posee el j-ésimo indicador de agrupamiento en el i-ésimo objeto de agrupamiento, i=1, 2,...,n j=1, 2,...,m;

2. Determinar cada función de blanqueamiento de canas.

Establecer un intervalo de nivel que satisfaga cada indicador y sea el valor máximo de la función de blanqueamiento (igual a 1). más pequeña es la función de blanqueamiento (tiende a ser). La función de utilidad fij(x) en 0).

Según el valor de monitoreo Cki, el valor correspondiente de la función de blanqueamiento fjk (Cik) se puede analizar en el gráfico (Figura 4-3), j=1, 2,...,m;

3. Encuentre el peso de agrupamiento calibrado

De acuerdo con la ecuación (4-25), calcule la matriz (n×m) del peso de agrupamiento ηjk.

Investigación sobre la teoría y el método de evaluación de la sostenibilidad de la función del agua subterránea regional

En la fórmula: ηjk es el peso del indicador j en la k-ésima categoría gris λjk es el umbral de la; Función blanqueadora (depende de la concentración estándar).

Figura 4-3 Gráfico de la función de blanqueamiento

Nota: Figura 4-3 La función de blanqueamiento f (x) ∈ [0, 1] tiene las siguientes características: ① Parte superior plana, Indica el grado óptimo de esta cantidad. El valor de esta parte es el valor óptimo, es decir, el coeficiente (peso) es 1, f(x)=max=1 (valor máximo), x∈[x2, x3]. ②La función de blanqueamiento cambia monótonamente. La parte izquierda f (x) = L (x) aumenta monótonamente, x∈ (x1, x2], que se llama función de rama izquierda de blanqueamiento; la parte derecha f (x) = R (x). ) , monótonamente decreciente, x∈[x3, x4), se denomina función de rama derecha del blanqueamiento. ③Las funciones de las ramas izquierda y derecha de la función blanqueadora son simétricas. ④La función blanqueadora, por simplicidad, es generalmente una línea recta. ⑤El punto de partida y el punto final de la función de blanqueamiento generalmente los determinan los humanos según la experiencia.

4. Encuentre el coeficiente de agrupamiento

σik=∑fjk(dij)ηjk (4-26)

Donde: σik es el i-ésimo grupo. coeficiente del objeto perteneciente a la k-ésima clase gris, i=1, 2,..., k=1, 2, 3;

5. Determinar la clasificación de objetos de agrupamiento según el principio de máximo.

Construya una matriz de vectores de agrupamiento usando σik. El que tiene el vector de fila más grande determina que k muestras pertenecen al nivel. correspondiente al nivel j.

El uso del método de agrupación gris para evaluar la calidad del agua subterránea puede evitar en gran medida la "distorsión y falla" causadas por factores humanos.

El método de agrupación es relativamente complejo de calcular, pero los resultados del cálculo tienen una correspondencia obvia con los niveles estándar de calidad del agua subterránea, que pueden reflejar de manera más completa el estado de la calidad del agua subterránea. También es un método importante para niveles superiores. investigación cuantitativa sobre la calidad del agua subterránea.