Fórmula de prueba de independencia

La fórmula de la prueba de independencia es la siguiente:

Kappa = (número de muestras clasificadas correctamente - número de muestras clasificadas aleatoriamente)/(número total de muestras - número de muestras clasificadas aleatoriamente)

La prueba de independencia consiste en determinar dos Un método estadístico para determinar si las variables categóricas son independientes. Específicamente, se utiliza para probar si existe una asociación entre dos variables categóricas.

A partir de los conceptos de probabilidad condicional y probabilidad marginal, se deriva la fórmula de la prueba de independencia. Supongamos que hay dos variables categóricas x e y, donde x tiene m valores posibles e y tiene n valores posibles.

Dado el valor de ¿Existe correlación entre X e Y?

Específicamente, si existe una correlación entre X e Y, entonces dado el valor de X, la probabilidad condicional de que Y tome un cierto valor debería ser diferente de la probabilidad marginal de Y..

Esto significa que cuando X toma un cierto valor, la probabilidad de que Y tome un cierto valor es mayor o menor que la probabilidad de que Y tome el mismo valor cuando X toma otros valores. Entonces podemos probar la correlación entre X e Y comparando la probabilidad condicional de Y y la probabilidad marginal de Y bajo diferentes valores de X.

Entre ellos, el número de muestras clasificadas correctamente se refiere al número de muestras que clasifican correctamente los valores X e Y, el número de muestras clasificadas aleatoriamente se refiere al número de muestras que clasifican aleatoriamente los valores X e Y ​​en el mismo grupo, y el número total de muestras se refiere a todas El número total de muestras. Kappa varía de -1 a 1, donde 1 representa una correlación positiva perfecta, -1 representa una correlación negativa perfecta y 0 representa ninguna correlación.

En aplicaciones prácticas, podemos determinar si existe una correlación entre X e Y calculando el valor Kappa. Si el valor de Kappa obviamente no es igual a 0, entonces podemos pensar que existe una correlación entre xey; si el valor de Kappa es cercano a 0, entonces podemos pensar que no existe correlación entre xey;

En resumen, la prueba de independencia es un método estadístico importante para determinar si dos variables categóricas son independientes. Su fórmula se deriva de los conceptos de probabilidad condicional y probabilidad marginal, y puede usarse para determinar la correlación entre variables. En aplicaciones prácticas, para obtener resultados más precisos, se debe prestar atención a la distribución de los datos y al tamaño de la muestra.