Descripción general de los métodos de cálculo de distancias

Al realizar la clasificación, a menudo es necesario estimar medidas de similitud entre diferentes muestras. En este momento, el método habitual es calcular la "distancia" entre muestras. El método utilizado para calcular la distancia es muy particular e incluso está relacionado con la exactitud de la clasificación.

El propósito de este artículo es resumir las medidas de similitud más utilizadas.

La distancia euclidiana es el método de cálculo de distancia más fácil de entender. Se deriva de la fórmula de distancia entre dos puntos en el espacio euclidiano. \

(1) La distancia euclidiana entre dos puntos a (x1, y1) y b (x 2, y 2) en el plano bidimensional;

(2) Tres -dimensional La distancia euclidiana entre dos puntos a(x 1, y 1, z 1) y b(x 2, y 2, z 2) en el espacio:

(3) Dos vectores N-dimensionales A La distancia euclidiana entre (X11, Imagina que tienes que conducir de una intersección de Manhattan a otra. ¿La distancia de conducción entre dos puntos es una línea recta? Obviamente no, a menos que puedas atravesar el edificio. La distancia de conducción real es esta "distancia de Manhattan". Este es también el origen del nombre distancia de Manhattan, también conocida como distancia de manzana.

(1) La distancia de Manhattan entre dos puntos A (X1, Y1) y b (x2, y2) en el plano bidimensional.

(2) Distancia de Manhattan entre dos vectores N-dimensionales A (X11, ¿Alguna vez has jugado al ajedrez? El rey puede moverse a cualquiera de las ocho casillas adyacentes en un solo movimiento. Entonces, ¿cuántos pasos debe dar el rey desde la cuadrícula (x1, y1) hasta la cuadrícula (x2, y2)? Intenta caminar por tu cuenta. Encontrará que el número mínimo de pasos es siempre Max (|x2-x1|, |y2-y1|). Existe un método de medición de distancia similar llamado distancia de Chebyshev.

(1) Distancia de Chebyshev entre dos puntos a (x1, y1) y b (x2, y2) en el plano bidimensional.

(2) Distancia de Chebyshev entre dos vectores N-dimensionales A (X11, X12,..., X1N) y b (x21, x22,..., x2n)

¿No ves que estas dos fórmulas son equivalentes? Consejo: Intente hacer zoom y pellizcar para demostrarlo.

La distancia de Min no es una distancia, sino la definición de un conjunto de distancias.

(1) Definición de distancia mínima

La distancia entre dos variables N-dimensionales A (x11, x12,..., x1n) y b (x21, x22,.. ., x2n) La distancia de Minkowski se define como:

donde p es un parámetro variable.

Cuando p=1, es la distancia de Manhattan.

Cuando p=2, es la distancia euclidiana.

Cuando p→∞, es la distancia de Chebyshev.

Según diferentes parámetros variables, la distancia de Min puede representar una distancia.

(2) Deficiencias de la distancia mínima

La distancia mínima, incluida la distancia de Manhattan, la distancia euclidiana y la distancia de Chebyshev, tienen deficiencias obvias.

Por ejemplo, hay tres muestras: A (150-190), b (190, 50), C (50-60). Entonces, la distancia mínima entre A y B (ya sea la distancia de Manhattan, la distancia euclidiana o la distancia de Chebyshev) es igual a la distancia mínima entre A y C, pero ¿una altura de 10 cm realmente equivale a un peso de 10 kg? Por lo tanto, es muy problemático utilizar la distancia Min para medir la similitud entre estas muestras.

En pocas palabras, la distancia Min tiene dos desventajas principales:

(1) Trata la escala (es decir, "unidad") de cada componente como la misma.

(2) La distribución (expectativa, varianza, etc.) puede ser diferente.

(1) Definición de distancia euclidiana estándar

La distancia euclidiana estandarizada es un esquema de mejora propuesto para abordar las deficiencias de la distancia euclidiana simple.

La idea de la distancia euclidiana estándar: dado que la distribución de los componentes de cada dimensión de los datos es diferente, ¡entonces está bien! Luego "normalizaría" todos los componentes para que sus medias y variaciones sean iguales. ¿Qué tan estandarizadas están la media y la varianza? Aquí repasamos algunas estadísticas. Supongamos que la media del conjunto de muestras X es my la desviación estándar es s, entonces la "variable estandarizada" de la distancia euclidiana.

(1) Definición de distancia de Mahalanobis

Hay m vectores de muestra X1 ~ Xm, la matriz de covarianza está etiquetada como S y la media está etiquetada como vector μ, luego la muestra vectores X a U La distancia de Mahalanobis se expresa como:

Si la matriz de covarianza es la matriz identidad (cada vector de muestra es independiente y está distribuido idénticamente), la fórmula queda:

Es decir, la distancia de Reed euclidiana.

Si la matriz de covarianza es una matriz diagonal, la fórmula pasa a ser la distancia euclidiana normalizada.

(2) Ventajas y desventajas de la distancia de Mahalanobis: Es dimensionalmente independiente y elimina la interferencia de correlación entre variables.

¿Estás bromeando? No soy un estudiante de geometría. ¿Cómo encontraste el coseno del ángulo? Damas y caballeros, relájense. El ángulo coseno en geometría se puede utilizar para medir la diferencia entre dos vectores. Este concepto se toma prestado del aprendizaje automático para medir la diferencia entre vectores de muestra.

(1) Fórmula coseno del ángulo entre el vector A(x1, y1) y el vector B(x2, y2) en un espacio bidimensional

(2) Dos N-; muestras dimensionales El coseno del ángulo entre el punto A (X11, X12, ..., X1N) y b (x21, x22, ..., x2n).

El rango del coseno del ángulo incluido es [-1, 1]. Cuanto mayor es el coseno de un ángulo, menor es el ángulo entre dos vectores, y cuanto menor es el coseno de un ángulo, mayor es el ángulo entre dos vectores. Cuando las direcciones de dos vectores coinciden, el coseno del ángulo incluido toma un valor máximo de 1. Cuando las direcciones de los dos vectores son completamente opuestas, el coseno del ángulo incluido toma un valor mínimo de -1.

(1) La definición de distancia de Hamming

La distancia de Hamming entre dos cadenas de igual longitud s1 y s2 se define como cambiar una de las cadenas al otro carácter. El número mínimo de Reemplazos necesarios para una cadena. Por ejemplo, la distancia de Hamming entre las cadenas "111" y "1001" es 2.

Aplicación: Codificación de información (para mejorar la tolerancia a fallos, la distancia mínima de Hamming entre códigos debe ser lo más grande posible).

(1) Coeficiente de similitud de Jakad

La proporción de los elementos de intersección de dos conjuntos A y B en la unión de A y B se llama coeficiente de similitud jacobiano de los dos conjuntos. representado por el símbolo J(A, B).

El coeficiente de similitud de Jakade es una medida de la similitud entre dos conjuntos.

(2) Distancia Jacquard

El concepto opuesto al coeficiente de similitud jacobiano es la distancia Jacquard. La distancia jacobiana se puede expresar mediante la siguiente fórmula:

La distancia Jakade mide el grado de distinción entre dos conjuntos a través de la proporción de diferentes elementos entre todos los elementos de los dos conjuntos.

(3) Aplicación del coeficiente de similitud de Jakade y la distancia de Jakade.

El coeficiente de similitud de Jakade se puede utilizar para medir la similitud de muestras.

La muestra a y la muestra b son dos vectores de n dimensiones y los valores de todas las dimensiones son 0 o 1. Por ejemplo: A(0111) y B(1011). Consideramos la muestra como un conjunto, 1 significa que el conjunto contiene elementos y 0 significa que el conjunto no contiene elementos.

p: Tanto la muestra a como la muestra b tienen una dimensión de 1.

P: La dimensión de la muestra A es 1 y la muestra B es 0.

r: La muestra A es 0 y la muestra B es 1.

s: La dimensión tanto de la muestra A como de la muestra B es 0.

Entonces el coeficiente de similitud jacobiano de las muestras A y B se puede expresar como:

Aquí p q r puede entenderse como el número de elementos en la unión de a y b, y p es el número de elementos en la unión de a y b. El número de elementos de intersección.

La distancia jekade entre las muestras a y b se expresa como:

El coeficiente de correlación es un método para medir el grado de correlación entre las variables aleatorias X e Y. El rango de valores de la El coeficiente de correlación es [-1,1]. Cuanto mayor sea el valor absoluto del coeficiente de correlación, mayor será el grado de correlación entre X e Y. Cuando X e Y están correlacionados linealmente, el coeficiente de correlación es 1 (correlación lineal positiva) o -1 (correlación lineal negativa).

(2) Definición de distancia de correlación

La entropía de la información no es una medida de similitud. Entonces, ¿por qué incluirlo en este artículo? este. . . Yo tampoco lo sé. (╯▽╰)

La entropía de la información es una medida del desorden o dispersión de una distribución. Cuanto más dispersa sea la distribución (par), mayor será la entropía de la información. Cuanto más ordenada sea la distribución (o más concentrada), menor será la entropía de la información.

El significado de los parámetros:

n: el número de categorías del conjunto de muestra x.

pi: La probabilidad de los elementos de tipo I en . Cuando las probabilidades de N categorías en S son las mismas (todas 1/n), el valor máximo de entropía de la información es log2(n). Cuando X tiene solo una categoría, el valor mínimo de entropía de la información es 0.