1. Distancia de Manhattan (Distancia de Manhattan)
Definición: La suma de las distancias de las proyecciones de los segmentos de recta formados por dos puntos sobre el eje en el sistema de coordenadas rectangular fijo de Espacio euclidiano.
Imagina que estás conduciendo de una intersección a otra en Manhattan. ¿La distancia de conducción es la distancia en línea recta entre los dos puntos? Aparentemente no, a menos que puedas atravesar el edificio. La distancia de conducción real es esta "distancia de Manhattan", también conocida como distancia de City Block.
2. Distancia euclidiana
Definición: La distancia euclidiana o métrica euclidiana es la distancia "ordinaria" entre dos puntos en el espacio euclidiano (es decir, en línea recta).
La distancia euclidiana es una definición de distancia de uso común, que se refiere a la distancia real entre dos puntos en un espacio m-dimensional, o la longitud natural de un vector (es decir, la distancia desde el punto al origen )
La línea roja en la figura representa la distancia de Manhattan, la verde representa la distancia euclidiana, que es la distancia en línea recta, y el azul y el amarillo representan la distancia equivalente de Manhattan.
3. Distancia de Chebyshev (Distancia de Chebyshev)
Definición: La distancia de Chebyshev es una medida en el espacio vectorial. La definición de la distancia entre dos puntos es el valor máximo. del valor absoluto de la diferencia de valores de coordenadas.
4. Distancia de Minkowski (¿Minkowski? Distancia)
Donde p es un parámetro variable.
Cuando p = 1, es la distancia de Manhattan
Cuando p = 2, es la distancia euclidiana
Cuando p → ∞, es la distancia de Chebyshev distancia Distancia
La distancia de Minkowski es relativamente intuitiva, pero no tiene nada que ver con la distribución de datos y tiene ciertas limitaciones. Si la amplitud en la dirección x es mucho mayor que el valor en la dirección y, esto. ¿Cuál es la fórmula de distancia? p>
sobreamplificará el efecto de la dimensión x. Por lo tanto, antes de calcular la distancia, es posible que también necesitemos transformar los datos en z, es decir, restar la media y dividir por la desviación estándar (es decir, la distancia euclidiana estandarizada).
Este método utiliza las características de la distribución de datos para calcular diferentes distancias bajo el supuesto de que las distintas dimensiones de los datos no están correlacionadas. Si las dimensiones están relacionadas entre sí (por ejemplo: ¿altura más alta?
es probable que la información traiga información sobre el peso más pesado, porque las dos están relacionadas), en este momento se utilizará la distancia de Mahalanobis.
5.?Distancia euclidiana estandarizada
Idea: dado que la distribución de cada componente dimensional de los datos es diferente, primero "estandarice" cada componente a la media y la varianza iguales. Suponga que la media (media) del conjunto de muestras X es m, la desviación estándar (desviación estándar) es s y la "variable estandarizada" de X se expresa como:
Entonces la fórmula de distancia euclidiana estandarizada es:
Si el recíproco de la varianza se considera un peso, también se puede llamar distancia euclidiana ponderada
6 distancia de Mahalanobis
La distancia de Mahalanobis representa. la distancia de covarianza de los datos y es un método eficaz para calcular la similitud de dos conjuntos de muestras desconocidos. Su cálculo se basa en la muestra global. Es decir, tiene en cuenta las conexiones entre varias propiedades y es independiente de la escala (independiente de la escala de medición).
¿Datos de muestra multidimensionales originales?Xnm (m dimensión, n muestras X=(X1, μX=(μX1, μX2,...,μXm), su covarianza es Σ, la multivariable vector X=(X1, X2,...,
La distancia de Mahalanobis también puede definir el grado de diferencia entre dos variables aleatorias que obedecen a la misma distribución y cuya matriz de covarianza es Σ:
Si la matriz de covarianza es la matriz identidad, la distancia de Mahalanobis se simplifica a distancia euclidiana.
¿Cómo la distancia de Mahalanobis no se ve afectada por las dimensiones? 1. La siguiente imagen es un diagrama de dispersión de datos binarios:
Después de eliminar las coordenadas, se muestra a continuación:
2. Introduzca nuevas coordenadas de acuerdo con la información solicitada del eje de datos en sí. El origen de las coordenadas está en el centro de estos puntos (calculado a partir del promedio de los puntos). El primer eje de coordenadas (la línea azul en la figura siguiente) sigue la "columna vertebral" de los puntos de datos y se extiende hasta ambos extremos, definida como la dirección que maximiza la variación de los datos. El segundo eje de coordenadas (la línea roja en la figura siguiente) será perpendicular al primer eje de coordenadas y se extenderá a ambos extremos.
3. Entonces, necesitamos una escala proporcional. Defina una unidad de longitud utilizando la desviación estándar de los datos a lo largo de cada eje. Recuerde la regla 68-95-99.7: aproximadamente 2/3 de los puntos deben estar a una unidad de longitud del origen; aproximadamente 95 de los puntos deben estar a dos unidades de longitud del origen;
4. Volvamos a dibujar el gráfico en la dirección correcta: de izquierda a derecha, de abajo hacia arriba (equivalente a rotar los datos). Al mismo tiempo, sea la misma longitud unitaria en la dirección de cada eje, de modo que la longitud de una unidad en la abscisa sea la misma que la longitud unitaria en la ordenada. ?
Supongamos que la distribución de datos es una elipse positiva bidimensional. Los valores medios del eje x y del eje y son ambos 0, la varianza del eje x es 1000 y la varianza del eje y es 1. Considere dos puntos (1, 0), la distancia de (0, 1) al origen, si se calcula la distancia euclidiana, entonces los dos son iguales, pero si lo piensa bien Tenga cuidado, debido a que la varianza del eje x es grande, (0, 1) debe ser un punto más cercano al centro. Ese es el principio (68, 95, 99,7) de la desviación estándar de la distribución normal. En este momento, es necesario escalar los ejes xey. La operación correspondiente es agregar una operación de normalización a las esquinas diagonales de la matriz de covarianza para que la varianza sea 1. Supongamos que la distribución de datos es una elipse bidimensional, pero no es positiva. Por ejemplo, la línea más larga de la elipse es de 45 °, porque la diagonal de la matriz es solo la normalización del eje de coordenadas. la elipse no se gira hacia atrás, esta normalización no tiene sentido, por lo que otros elementos de la matriz (no diagonales) son útiles. Si la elipse no es positiva, significa que existe una correlación entre las variables (x es grande e y también es grande, o está correlacionada negativamente), y el significado de sumar los elementos no diagonales de la covarianza es rotación.
Resumen de la distancia de Mahalanobis, distancia euclidiana, distancia euclidiana estandarizada:
1. Distancia euclidiana
2. ¿La diferencia en el tamaño de la diferencia y, al mismo tiempo, la distancia no tiene nada que ver con las unidades utilizadas para cada característica?
3. Distancia de Mahalanobis: la conexión entre varias características (como la altura). y peso)
El cálculo de la distancia de Mahalanobis se basa en la muestra de población. Si toma las mismas dos muestras y las coloca en dos poblaciones diferentes, la distancia de Mahalanobis finalmente calculada entre las dos muestras suele ser diferente. , a menos que las matrices de covarianza de las dos poblaciones sean las mismas.
En el proceso de cálculo de la distancia de Mahalanobis, se requiere que el número de muestras generales sea mayor que la dimensión de la muestra; de lo contrario, la matriz inversa de la matriz de covarianza de la muestra general obtenida no existe. , se puede utilizar la distancia euclidiana para calcularlo.
Se cumple la condición de que el número de muestras generales sea mayor que la dimensión de la muestra, pero la matriz inversa de la matriz de covarianza aún no existe, como tres muestras que se encuentran en el mismo bidimensional. plano espacial en el que se encuentran. En este caso también se utiliza el cálculo de la distancia euclidiana.
7. Similitud de coseno
La similitud de coseno se trata más de distinguir diferencias en dirección y no es sensible a valores numéricos absolutos. Por lo tanto, es imposible medir la diferencia en el valor de cada dimensión, lo que conducirá a tal situación: por ejemplo, los usuarios califican el contenido en una escala de 5 puntos. Dos usuarios X e Y califican los dos contenidos como (1, 2) y (4, respectivamente. 5), el resultado obtenido usando la similitud del coseno es 0,98. Los dos son muy similares, sin embargo, a juzgar por las calificaciones, a X no parece gustarle estos dos contenidos, mientras que Y los prefiere. La similitud del coseno con los valores numéricos conduce a la diferencia en los resultados. Es por eso que se ajusta la similitud del coseno, es decir, los valores en todas las dimensiones se restan de una media. las puntuaciones medias de X e Y son 3, luego la similitud del coseno ajustada es (-2, - 1) y (1, 2), y luego usa el cálculo de similitud del coseno para obtener -0,8 La similitud es negativa y la diferencia. No es pequeño, pero obviamente es más consistente con la realidad.
8. Distancia de Hamming
La distancia de Hamming de dos cadenas de igual longitud s1 y s2 es: la cantidad mínima de trabajo necesaria para convertir una de ellas en la otra. sustituciones.
9. Distancia Jaccard
La Distancia Jaccard es un indicador que se utiliza para medir la diferencia entre dos conjuntos. Es la Distancia Jaccard El complemento del coeficiente de similitud de Jaccard, se define como 1 menos. el coeficiente de similitud de Jaccard. El coeficiente de similitud de Jaccard, también conocido como índice de Jaccard, es un indicador que se utiliza para medir la similitud de dos conjuntos.
10. Coeficiente de correlación de Pearson En estadística, el coeficiente de correlación de Pearson, también conocido como coeficiente de correlación momento-producto de Pearson (PPMCC o PCC para abreviar), se utiliza para medir la correlación (correlación lineal) entre dos variables. X e Y, y su valor está entre -1 y 1. La distancia de Pearson mide dos variables X e Y. Se puede definir según el coeficiente de Pearson. Podemos encontrar que el coeficiente de Pearson cae en ? y la distancia de Pearson cae en ?.