La importancia del análisis de conglomerados Análisis de conglomerados
En la investigación económica y sociológica, el análisis de conglomerados es un método de análisis estadístico multivariado comúnmente utilizado. Es un método que combina una gran cantidad de factores complejos y. Datos y variables multidimensionales. Métodos para realizar análisis de grupo.
Por ejemplo, recopile 100 millones de muestras de usuarios de WeChat, sus variables características son diferentes, como edad, ingresos, personalidad, educación, ocupación, intereses, hábitos de vida, etc., y realice una transformación cuantitativa preliminar como entrada. .Variables para análisis hipotéticos.
Entonces, entre estos 100 millones de muestras, ¿quién puede considerarse la clase media y quién puede considerarse la juventud artística?
Se puede establecer un índice de clasificación de la juventud literaria y artística, para luego analizar el grado de proximidad o similitud entre cada individuo de la muestra, y agruparlos para establecer una función de correlación.
A partir del concepto intuitivo y sencillo de agrupación, también se pueden realizar agrupaciones estadísticas objetivas para datos de gran tamaño.
Aquí se utilizará el método de análisis de conglomerados. El primer paso es medir las diferencias o similitudes entre los individuos de la muestra.
Aquí se introduce el concepto de geometría espacial, es decir, cada muestra se trata como un punto y se distribuye en un espacio n-dimensional. Cada dimensión es edad, ingresos, personalidad, etc.
Si cuanto más cercanas están dos variables, lo definimos como más similares o cercanos son los dos puntos. Aquí usamos el concepto de "distancia" para definir.
Si la variable es una variable numérica, no una variable de función. Luego puede utilizar los siguientes espacios y distancias para cuantificar la cercanía entre muestras.
Distancia euclidiana en el espacio euclidiano. Distancia Euclidiana en el Espacio Euclidiano.
Se define como la raíz cuadrada de la suma de los cuadrados de las diferencias individuales de las variables.
Distancia Euclidiana al Cuadrado
Se define como la suma de los cuadrados de las diferencias individuales de variables, es decir, la suma de los cuadrados de la distancia euclidiana.
Distancia de Chebychev
se define como el valor absoluto máximo de la diferencia variable
Distancia de bloque
se define como La suma de las valores absolutos de las diferencias de variables
La distancia de Minkowski
se define como la p-ésima raíz de la suma de las p-ésimas potencias de los valores absolutos de la variable diferencias
Distancia coseno del ángulo Distancia coseno
se define como la suma de los cuadrados de los productos de las variables, dividida por (la suma de los cuadrados de cada variable sola, y luego multiplicado)
Si la variable es una variable discreta de recuento, entonces la distancia debe definirse con el siguiente método
Distancia chi-cuadrado Medida de distancia chi-cuadrado
La distancia entre las variables x e y se define como la variable x El cuadrado de la diferencia entre la i-ésima variable y el valor esperado (aquí también llamado frecuencia esperada, como el número promedio de veces que una persona va a una cafetería por día) se divide por el valor esperado y luego se resume y calcula, más la i-ésima variable y el valor esperado de la variable y (esto también se convierte en la frecuencia esperada, como el número promedio de veces que una persona va a una cafetería por día), dividido por el valor esperado y luego resumido. Luego saca la raíz cuadrada.
Phi-Cuadrado Medida de Distancia
La diferencia con la distancia chi-cuadrado es que se divide por la frecuencia total n antes de la última raíz cuadrada. Es decir, se suma la consideración matemática de la frecuencia total.
Si la variable es un valor binomial, es decir, 0 o 1, sí o no, sí o no elección, entonces la distancia se puede definir de la siguiente manera
Coincidencia simple Coeficiente
Combine las dos variables de selección en una matriz, luego sume las frecuencias de una variable que sea 0 y la otra variable que sea 1, como numerador, y divida por el denominador. El denominador es la suma de todas las frecuencias de la matriz.
La diferencia entre el coeficiente de Jaccard
y el coeficiente de emparejamiento simple es que al denominador se le resta la frecuencia de ambas variables siendo 0, es decir, la influencia de los datos que son 0 en el mismo tiempo se elimina.
Después de tener la distancia, el siguiente paso es dividir los grupos, o pequeñas esferas en el espacio, en pequeños conjuntos
Hay n individuos de muestra en cada grupo o pequeño conjunto, y se pueden dividir según diferentes según el principio de agrupación óptima. Por ejemplo, métodos como el principio de distancia del vecino más cercano, el principio de distancia de cadena promedio dentro del grupo, la distancia centroide y el método de distancia de suma de cuadrados de desviación racionalizan y optimizan la agrupación.
Para decirlo en sentido figurado, consiste en utilizar científica y racionalmente métodos estadísticos para dividir a los jóvenes literarios reales en un grupo, a los jóvenes pseudoliterarios en un grupo y a los jóvenes literarios alternativos en un grupo. . .
Si se aplica al campo de la economía, se pueden clasificar y estratificar 100 países según el índice de desarrollo, índice de apertura, etc. Según el análisis de conglomerados del gráfico de grava, se pueden dividir los niveles y estos países dividirse en 3 grupos, 4 o más grupos.
La herramienta de agrupación se puede implementar utilizando el módulo de análisis de conglomerados de un software de análisis estadístico como SPSS.
El análisis de conglomerados viene aquí primero, y ampliamos aún más los conceptos de espacio y distancia.
En matemáticas, conceptos como espacio y distancia se han abstraído aún más en la aplicación y la investigación.
Lo que comúnmente entendemos o entendemos intuitivamente es el espacio euclidiano, es decir, el espacio euclidiano. El más común es el espacio euclidiano tridimensional. Es decir, los tres ejes de XYZ son perpendiculares entre sí y todos los puntos se pueden colocar en tres puntos mediante la relación de mapeo correspondiente de los tres ejes. La distancia en el espacio euclidiano es la distancia real entre dos puntos.
Ampliación adicional, después de abstraer el espacio tridimensional, podemos realizar un espacio de 4 dimensiones, 5 dimensiones o incluso n dimensiones, es decir, hay n sistemas de coordenadas mutuamente perpendiculares, y cada punto se puede mapear en n ejes. Para el posicionamiento de n puntos, la distancia entre dos puntos en este espacio se define como la suma de los cuadrados de las diferencias mapeadas en las i-ésimas coordenadas de los dos puntos y luego la raíz cuadrada. Ése es el concepto de distancia espacial euclidiana que mencionamos anteriormente.
La distancia de Minkowski es una generalización adicional de la distancia del espacio euclidiano. Si p se establece en 2, es la distancia euclidiana. Si p se establece en infinito, es la distancia de Chebyshev.
Del proceso de promoción de definiciones matemáticas anterior, podemos ver que el concepto de espacio numérico tiene diferentes definiciones basadas en la extensión y promoción del espacio euclidiano, que se pueden aplicar en ocasiones y escenarios apropiados.
El concepto de espacio vectorial formado por la distancia basado en las ocho leyes de la estructura lineal es una abstracción adicional, y en este espacio, la distancia desde cada punto hasta el origen del eje de coordenadas del espacio se define como norma. Si un espacio vectorial tiene una norma definida, entonces este espacio se convierte en un espacio vectorial normado.
Luego, más abstracto:
¿Espacio normativo + estructura lineal?> Espacio normativo lineal
Si se agrega el concepto de operación del producto interno al espacio normativo lineal, es decir, si la suma de los productos de los vectores en el espacio mapeado en n dimensiones está relacionada con el ángulo entre los vectores, entonces este espacio se llama espacio de producto interno.
Si en este espacio producto interno, las operaciones límite de todas las operaciones todavía están dentro de este espacio, es decir, convergen, entonces este espacio se define como Espacio de Hilbert.
Si se basa en un espacio lineal normado + convergencia (integridad), entonces este espacio se llama Espacio de Banach.
Volviendo al análisis de conglomerados, abstraemos aún más el concepto de agrupamiento.
Si las funciones o vectores están agrupados, entonces el concepto de distancia entre funciones o vectores, entonces se pueden realizar más análisis. a través del concepto anterior de normas, y el concepto de espacio lineal normado nos proporciona herramientas para la exploración de agrupaciones y agrupaciones de puntos y conjuntos más abstractos.
El análisis de conglomerados o algoritmos de agrupamiento se utilizan ampliamente en campos de la inteligencia artificial como el aprendizaje automático y la minería de datos. Una de sus características clave es clasificar estadísticamente de forma automática grandes cantidades de datos a través de máquinas u ordenadores sin participación manual.
Con respecto a los problemas de agrupamiento del espacio de Hilbert y el espacio de Banach, puede continuar leyendo la literatura relevante.
Lectura en profundidad:
Para los siguientes documentos, puede registrar una cuenta a través del correo electrónico de la universidad y leer los artículos públicos.
Agrupación a través del espacio de Hilbert
Agrupación en espacios de Banach