¿Cuáles son los métodos de análisis de correlación?

Al realizar análisis de datos, para refinar opiniones, el análisis de correlación es esencial y un paso particularmente importante. Sin embargo, los métodos de análisis de correlación varían para diferentes tipos de datos. Este artículo resume principalmente varios métodos de análisis de correlación según diferentes tipos de datos.

El análisis de correlación se refiere al análisis de dos o más elementos variables correlacionados. La correlación no es igual a la causalidad.

1. Correlación entre variables discretas y discretas

1. Prueba de chi-cuadrado

La prueba de chi-cuadrado es un método ampliamente utilizado para contar datos. métodos. Pertenece a la categoría de pruebas no paramétricas, que comparan principalmente dos o más tasas de muestreo (relación de composición) y el análisis de correlación de dos variables categóricas. La idea básica es comparar el grado de concordancia entre la frecuencia teórica y la frecuencia real o la bondad de ajuste.

Su aplicación en la inferencia estadística de datos clasificados incluye: prueba de chi-cuadrado para comparar dos tasas o proporciones de dos constituyentes; prueba de chi-cuadrado para comparar múltiples tasas o proporciones de múltiples constituyentes, y datos de clasificación, análisis relacionados, etc. .

(1) Suponga que no existe correlación entre múltiples variables

(2) Calcule el valor teórico de cada situación en función del supuesto y en función de la diferencia entre el valor teórico y el valor real, Calcule el valor de chi-cuadrado y los grados de libertad

df=(C-1)(R-1)

(3) Consulte la tabla de chi-cuadrado y encuentre el valor p

Cuanto mayor sea el valor de chi-cuadrado y menor el valor de P, mayor será la posibilidad de que las variables estén relacionadas. Cuando Plt;=0.05, se rechaza la hipótesis nula y las variables. se consideran relacionados.

2. Ganancia de información y tasa de ganancia de información

Antes de introducir la ganancia de información, primero introduzcamos dos conceptos básicos: entropía de información y entropía condicional.

La entropía de la información es el grado de incertidumbre de una variable aleatoria.

La entropía condicional es la incertidumbre de las variables aleatorias bajo una condición.

(1) Ganancia de información: entropía - entropía condicional

El grado en que se reduce la incertidumbre de la información bajo una condición.

Ganancia (Y, X) = H (Y) - H (Y | Cuanto mayor es la ganancia de información, mayor es la correlación entre las dos variables.

(2) Tasa de ganancia de información

Supongamos que una determinada variable tiene una gran cantidad de valores diferentes, como ID. Después de introducir ID, la impureza de cada nodo secundario es 0. entonces se maximiza la reducción de ganancia de información. Por tanto, cuando el número de valores de diferentes variables es muy diferente, introducir variables con muchos valores dará como resultado una mayor ganancia de información. Por tanto, se utiliza la tasa de ganancia de información, teniendo en cuenta la influencia del número de sucursales.

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

2. Correlación entre variables continuas y continuas

1. Covarianza

La covarianza expresa la relación de cambio cooperativo entre dos variables aleatorias. Si dos variables no están correlacionadas, la covarianza es 0.

Cov(X, Y)=E{[X-E(X)], [Y-E(Y)]}

Cuando cov(X, Y)gt 0, significa; X e Y están correlacionados positivamente;

Cuando cov(X, Y)lt;0, indica que X e Y están correlacionados negativamente;

Cuando cov(X, Y)= 0, Demuestre que X e Y no están relacionados.

La covarianza solo puede realizar análisis de correlación en dos conjuntos de datos. Cuando hay más de dos conjuntos de datos, es necesario utilizar una matriz de covarianza.

La covarianza mide la correlación entre variables numéricamente, siendo los valores positivos una correlación positiva y los valores negativos una correlación negativa. Pero no se puede medir la cercanía de la correlación. Cuando nos enfrentamos a múltiples variables, no podemos utilizar la covarianza para explicar qué dos conjuntos de datos tienen la mayor correlación. Para medir y comparar la fuerza de una correlación, es necesario utilizar el siguiente método: el coeficiente de correlación.

2. Coeficiente de correlación lineal

También llamado coeficiente de correlación de Pearson, mide principalmente el grado de correlación lineal entre dos variables.

r=cov(X,Y)/(D(X)D(Y))

El coeficiente de correlación es la covarianza dividida por la desviación estándar de dos variables aleatorias. La magnitud del coeficiente de correlación varía entre -1 y 1. Ya no habrá casos en los que los valores numéricos se disparen debido a cambios en las unidades de medida.

El coeficiente de correlación lineal debe basarse en la relación lineal entre la variable dependiente y la variable independiente; de ​​lo contrario, el coeficiente de correlación lineal no tiene sentido.

3. Correlación entre variables continuas y discretas

1. Discretización de variables continuas

Discretizar las variables continuas y luego utilizar el método de análisis de correlación de variables discretas y discretas. para analizar la correlación.

2. Diagrama de caja

Utilice el método de dibujar un diagrama de caja para ver los diferentes valores de variables discretas, la media, la varianza y la distribución de valores de variables continuas.

Si la variable discreta toma valores diferentes y el diagrama de caja correspondiente de la variable continua no es muy diferente, significa que la variable discreta que toma valores diferentes tiene poco impacto en la variable continua y la correlación. no es alta; por el contrario, correlación alta.