Notas sobre modelado matemático: análisis de relevancia de Gray de modelos de evaluación

Este artículo presentará brevemente el análisis de correlación gris. El análisis relacional de Gray tiene dos funciones principales. El primero es analizar el sistema y determinar la importancia de los factores que afectan el desarrollo del sistema. La segunda función es evaluar integralmente el problema y dar una clasificación de los objetos o soluciones de investigación.

Sin embargo, aquí sólo puedo dar una breve introducción. Los principios más profundos pueden requerir mi estudio especial para expresarlos con claridad. Sin embargo, no es difícil de aplicar. Si algunos principios no se entienden claramente, no debería afectar su uso. Piense en ello como si estuviera aprendiendo un nuevo método.

De hecho, el aprendizaje posterior, como análisis de regresión múltiple, investigación de operaciones relacionada, análisis de series de tiempo, varios modelos de predicción, clasificación de agrupaciones, etc. , que implica muchas derivaciones matemáticas difíciles. Incluso cuando entiendo y aprendo algo por mí mismo, me lleva más tiempo expresarlo de forma sencilla y sencilla. Entonces, cuando escribo notas de estudio ahora, solo puedo explicar brevemente el principio y luego hablar sobre la estúpida aplicación. Cuando tenga una comprensión más profunda, volveré atrás y actualizaré los artículos que no estén escritos en profundidad o con claridad.

Bien, volvamos al tema, hablemos del análisis de correlación gris~

“Durante el proceso de desarrollo del sistema, si las tendencias de los dos factores son consistentes, es decir, el grado de cambio sincrónico es alto, entonces se dice que dos factores están altamente correlacionados; de lo contrario, es menor. Por lo tanto, el método de análisis de correlación gris es un método para medir el grado de correlación entre factores en función del grado de similitud o. disimilitud en las tendencias de desarrollo entre factores, es decir, "grado de correlación gris".

El contenido anterior está tomado de Baidu, que probablemente sea el caso. El desarrollo del sistema a menudo se ve afectado por muchos factores. , cuáles son los factores principales y cuáles son los factores secundarios; qué factores tienen un impacto grande y cuáles tienen un efecto pequeño; cuáles tienen un efecto promotor y cuáles tienen un efecto inhibidor. El análisis y el análisis de varianza se utilizan comúnmente en estadística matemática y análisis de componentes principales para explorar este problema. Sin embargo, los métodos anteriores tienen algunas desventajas, por ejemplo, estos métodos requieren una gran cantidad de datos y, a veces, los resultados no tienen sentido; se requiere que las muestras obedezcan a distribuciones especiales, o los resultados cuantitativos son inconsistentes con el análisis cualitativo. El análisis puede manejar mejor este problema.

El análisis de correlación de grises no tiene requisitos sobre el número de muestras y la regularidad de las mismas. (Por supuesto, el tamaño de la muestra no puede ser demasiado pequeño, solo dos o tres muestras), y los resultados cuantitativos no son los mismos que los cualitativos. La idea básica del análisis de correlación de grises es básicamente la misma. si las formas geométricas de series de curvas están estrechamente relacionadas. Cuanto más cercanas estén las formas de las curvas, mayor será la correlación entre las series correspondientes.

Bien, una traducción simple del principio anterior es estudiar la similitud geométrica. de curvas compuestas por dos o más secuencias (las secuencias pueden entenderse como factores o indicadores en el sistema). Cuanto más similares son, mayor es su relación cambiante. Cuanto más cercana es, mayor es el grado de correlación. estudia la correlación casi desde la perspectiva de datos puros. Si la forma de las curvas de dos indicadores no relacionados es muy similar, entonces el análisis de correlación gris considerará que los dos indicadores están altamente correlacionados. datos o sistemas generales, es razonable utilizar la forma de la curva para medir el grado de correlación.

Primero introduzcamos la primera aplicación, que también es su aplicación básica. El análisis consiste en clasificar los factores que afectan el desarrollo del sistema según su importancia o influencia. En el análisis de correlación gris, cuanto mayor es el grado de correlación entre cada factor y todo el sistema, mayor es el impacto de los factores correspondientes en el desarrollo de. En cuanto al grado de correlación, es el grado de aproximación de la forma de la curva mencionada anteriormente. Bueno, de hecho, el análisis de correlación gris se puede entender vagamente, pero se siente un poco poco confiable. Tomemos un ejemplo directo para ilustrar. el método de aplicación del análisis de correlación gris. (El principio ya se ha explicado).

La siguiente tabla muestra las estadísticas del PIB de una determinada región (unidad: millones de yuanes). ¿PIB total de esta región en 2018?

No, este es un problema típico de análisis de sistemas para encontrar el factor que tiene el mayor impacto en el desarrollo del PIB. Entonces, ¿qué debemos hacer? Piénselo, el principio del análisis relacional gris es que para comparar la similitud de las formas geométricas de una serie de curvas, por supuesto, primero se debe dibujar la serie de curvas. Bueno, el primer paso es dibujar la curva de secuencia.

Lo que hay que tener en cuenta aquí es que si desea estudiar la correlación entre varios factores y el sistema en su conjunto, debe encontrar un indicador que pueda representar el desarrollo general del sistema. es el PIB. De manera similar, si desea reflejar el grado de desarrollo educativo, puede utilizar el número promedio de años de educación que ha recibido un ciudadano; si desea reflejar la seguridad social, puede utilizar la incidencia de casos penales; El nivel de salud nacional, puede utilizar el número de registros hospitalarios. En cualquier caso, siempre es necesario encontrar un indicador que describa el desarrollo general del sistema.

Al menos, mirando la forma de la curva, creo que la industria primaria tiene el menor impacto en el PIB. El PIB sigue subiendo y la forma de la curva de la industria primaria es casi plana. Si se observa únicamente la similitud, parece que la segunda industria, es decir, la curva gris, es la más similar a la curva del PIB. Sin embargo, la imagen se dibuja solo para brindar una sensación y un análisis intuitivos, y aún es necesario calcular la aproximación de la forma de la curva.

El segundo paso es determinar el orden de análisis. Las secuencias de análisis se pueden dividir en dos categorías. Una categoría se llama secuencia principal, que es una secuencia de datos que refleja las características de comportamiento generales o el desarrollo del sistema. Puede entenderse como la variable dependiente en el análisis de regresión, que es la columna del PIB. El otro tipo se llama subsecuencia, que es una secuencia de datos compuesta de factores que afectan el desarrollo del sistema. Puede entenderse como una variable independiente en el análisis de regresión. Aquí están los datos del PIB de la industria primaria, la industria secundaria y la industria terciaria respectivamente.

El tercer paso es el preprocesamiento de datos. Hablamos de mucho preprocesamiento, como normalización, normalización, normalización, etc. El propósito del preprocesamiento aquí es eliminar la influencia de las dimensiones, reducir el rango de datos y facilitar los cálculos. Éste suele ser el papel de la estandarización de datos. Existen muchos métodos de estandarización de datos, como la estandarización, que es los datos originales menos la media dividida por la varianza, que se usa a menudo para variables aleatorias; otro ejemplo es la estandarización. Ambos métodos han sido mencionados antes.

Entonces aquí, el método de normalización que utilizamos es dividir cada elemento por el valor promedio del indicador correspondiente, es decir. Bien, mostremos los datos procesados. Simplemente use Excel para procesarlo, lo cual es más conveniente.

El cuarto paso es calcular la correlación entre cada elemento de la subsecuencia procesada y el elemento correspondiente de la secuencia principal. Recuerde, la secuencia principal es y la subsecuencia es... Primero calculamos la diferencia mínima entre las secuencias de madre e hijo, y luego calculamos la diferencia máxima entre las secuencias de madre e hijo. El cálculo es el siguiente.

Bueno, puedes encontrar que el elemento más pequeño en la tabla anterior es el elemento más grande en la tabla anterior. Luego podemos calcular la correlación entre cada elemento de la subsecuencia y el elemento correspondiente en la secuencia principal.

En el análisis de correlación de grises, a menudo se toma la definición de dónde está el coeficiente de resolución, generalmente ubicado entre . ¿En cuanto a por qué se utiliza dicha fórmula para definir el grado de correlación entre un elemento de la subsecuencia y el elemento correspondiente de la secuencia principal? No lo sé... bueno, descúbrelo tú mismo. Si lo sabes, por favor deja un mensaje y házmelo saber. ¡Gracias a todos!

El quinto paso es calcular la correlación entre cada secuencia, es decir, la correlación entre el índice y el sistema en su conjunto. Lo definimos y utilizamos para expresar la relevancia de un indicador para el desarrollo general del sistema.

Bien, este es en realidad el cuarto paso, que consiste en obtener el grado de correlación entre cada elemento del indicador y el elemento correspondiente en la secuencia principal. Al promediarlos, se puede ver qué tan relevante es el indicador para el sistema en su conjunto. Si puede aceptar la fórmula anterior para calcular la correlación, entonces aceptar la correlación promedio no debería ser demasiado difícil.

La imagen de arriba es el resultado final del cálculo de este problema. El cálculo demuestra que cuando el coeficiente de resolución es 0,5, la industria terciaria tiene el mayor impacto en el PIB. No parece coincidir con esa foto... Después de todo, intuitivamente a partir de la imagen, la forma de la curva de la industria secundaria debería ser la más cercana a la forma de la curva del PIB, y el resultado es la industria terciaria. Bien, probemos con otro.

Después de algunas operaciones, la industria terciaria tiene el mayor impacto en el PIB. Pero la misma frase es la más utilizada en la práctica.

Si se quiere forzar una explicación, es probable que la tasa de crecimiento del PIB fluctúe. Las pendientes de cada polilínea son diferentes de 2002 a 2005, mientras que la industria secundaria básicamente corre en línea recta de 2002 a 2005. 2005. En cambio, el crecimiento y los cambios en la industria terciaria se parecen más a cambios en el PIB... bueno, es obligado explicarlo.

La imagen de arriba muestra el incremento anual... Bueno, parece que el gris y el azul son similares, pero el incremento del 2003 al 2005, es decir, la industria terciaria y la industria terciaria en los cuatro años. de 2002 a 2005 el crecimiento del PIB es relativamente similar.

La industria secundaria sólo es similar durante uno o dos años, por lo que, en general, la industria terciaria puede tener un mayor impacto en el PIB.

Vale, se acabó la explicación forzada.

Finalmente, hay dos preguntas sobre el análisis de sistemas.

Bien, el análisis del sistema termina aquí.

El núcleo del análisis de correlación gris en la evaluación integral es determinar el peso de cada indicador a través de la correlación de cada indicador y luego sumar los pesos para calificar.

O estos veinte ríos. Para evaluar la calidad del agua, ¿cómo se debe realizar el análisis de correlación de grises?

El primer paso es reenviar todas las métricas. El procesamiento directo, ya sabes lo que es, consiste en convertir todos los indicadores muy pequeños, intermedios y de intervalo en indicadores más grandes. Es decir, cuanto mayor sea el valor de los datos, mayor será la puntuación final.

El segundo paso es normalizar la matriz directa. La estandarización aquí es la misma que la estandarización del análisis del sistema anterior. Es decir, cada elemento se divide por el valor promedio del indicador correspondiente para limitar el rango de datos y eliminar la influencia dimensional. La matriz procesada en los dos pasos anteriores se registra como

Paso 3, tomar un valor máximo de cada fila de la matriz preprocesada normalizada como secuencia principal. Bien, esto es a lo que debe prestar atención cuando utilice el análisis de correlación de grises para una evaluación integral, que consiste en construir artificialmente dicha secuencia principal.

El cuarto paso, de acuerdo con el método anterior, calcula el grado de correlación de grises entre cada indicador y la secuencia principal, registrado como.

El quinto paso es calcular el peso de cada indicador. El peso de cada indicador. Es decir, la proporción de correlación con respecto a la suma total de la correlación general.

En el sexto paso obtenemos la puntuación de cada objeto de evaluación. Para el objeto de evaluación, su puntuación. Aquí, está la matriz de normalización directa mencionada anteriormente. Cada indicador es un indicador de valor máximo. Cuanto mayor sea el valor, mayor será la puntuación, eliminando la influencia de las dimensiones. Por lo tanto, utilizamos directamente los elementos en como la puntuación de cada objeto de evaluación bajo cada indicador y luego realizamos una suma ponderada de las puntuaciones de cada indicador. El peso es el peso que obtenemos usando la correlación gris anterior. Así de simple obtuvimos el puntaje final.

El séptimo paso es normalizar las puntuaciones. Esto pone todas las puntuaciones entre 0-1. La ventaja de la normalización es que la puntuación en este momento se puede interpretar como el porcentaje del objeto de investigación correspondiente en el objeto de investigación general, es decir, la posición. Sobre el tema de la calidad del agua, es decir, dónde la calidad del agua de un río se encuentra entre todos los ríos. Bueno, para decirlo de manera más simple, es similar a "tu puntuación ha superado el xx% de tus compañeros de clase". Para eso está la normalización.

La siguiente figura muestra la evaluación de la calidad del agua, así como los resultados del método TOPSIS y el análisis de correlación gris.

Como puedes ver, los dos métodos son diferentes en la clasificación final de esta pregunta. El método para elegir el primer lugar es diferente y el orden de las partes intermedias también es diferente, pero en general es relativamente similar. Hhh, es mejor utilizar otro proceso de jerarquía analítica para promediar las puntuaciones normalizadas obtenidas por los tres métodos como base para la clasificación final. Bueno, mira este modelo. ¿De repente se vuelve complicado?

Bien, eso es todo por este artículo. De hecho, todavía quedan algunas cuestiones desconcertantes que no se han resuelto.

Los dos últimos parecen explicarse con fuerza, porque consideramos la matriz normalizada y estandarizada como una matriz de puntuación, por lo que tomamos el valor máximo de cada fila para construir la secuencia de puntuación óptima del sistema, cada una A. plan equivale a un desarrollo del sistema. Después de calcular la correlación, podemos ver el grado de influencia de los indicadores en la secuencia óptima del sistema. Cuanto mayor es la influencia, más peso le damos... bueno, para explicar.

Para las tres preguntas anteriores, si alguien tiene mejores ideas, espero que pueda dejar un mensaje y contármelo. ¡Ahora estoy aquí para agradecerte! Si lo entiendo gradualmente en el futuro, lo actualizaré en el artículo. (Sin embargo, es posible que la cuenta oficial de WeChat no esté actualizada en Zhihu y ambos).

Hay mucho que puedo compartir sobre el análisis de correlación gris. Si desea obtener más información, puede leer "La teoría del sistema gris y su aplicación", Liu Sifeng está esperando. Bueno, los sistemas grises también tienen aplicaciones como predicción del sistema gris, modelo de combinación gris, toma de decisiones gris, evaluación de agrupamiento gris, etc. Sólo echa un vistazo.

En los últimos dos días, Zhihu me recomendó algunas preguntas y respuestas relacionadas con el modelado matemático. Una de ellas es un libro relacionado con el modelado matemático. Busqué la versión electrónica del libro recomendado por Gao Zan. Si es necesario, puede responder al "Libro de modelado matemático" en el fondo de la cuenta oficial de WeChat "I am Chen".

Supera

/javascript" src="/style/tongji.js">