Características del nodo

Mi cuenta oficial de WeChat es "Huang Hongtu Computing Sharing". Muchos amigos informaron que era inconveniente leer artículos en la cuenta oficial de WeChat, por lo que sincronizaron un artículo en el sitio web.

Un gráfico contiene dos elementos principales: nodos y aristas. Tanto los nodos como las aristas pueden tener atributos y las aristas pueden ser dirigidas o no. El modelado de gráficos puede incluir características estructurales y características de agregación. La granularidad de la representación de características puede ser nodos, aristas, subgrafos, etc.

Este artículo comienza con la situación más común: características estructurales con nodos como granularidad. Las características estructurales con granularidad de nodo a menudo se utilizan simultáneamente como algoritmos de incrustación de gráficos (¿incrustación de gráficos?), obteniendo así vectores que describen la estructura local de los nodos. Por ejemplo, el grado y el número de triángulos se pueden utilizar como entrada para Role2vec[5] o Graphage[6]. Estos se discutirán en detalle más adelante.

La característica estructural más simple de la granularidad de los nodos es el grado, que es el número de nodos vecinos asociados con un nodo. En muchas aplicaciones, todo el mundo debe haber utilizado esta función de forma intencionada o no.

La importancia de los nodos

En términos generales, hay dos características que describen la importancia de los nodos: una son las características que se describen directamente en función de ciertas definiciones, como grado, intermediación, cercanía. Grado, etc. El otro tipo son los algoritmos derivados del análisis de enlaces de Internet, como el algoritmo HITS, el algoritmo PageRank, etc.

Importancia del nodo descrita directamente por definición

El estado intermedio describe la importancia de un nodo como nodo central. Hay otras formas de describir la importancia de un nodo como centro (como HITS, que se menciona a continuación). La definición de intermediación es la más aproximada: la intermediación de un nodo es la relación entre el número de caminos más cortos a través del nodo y el número de todos los caminos más cortos. Debido a que la definición es simple y tosca, también es problemático calcularla. Si se va a realizar computación distribuida, es necesario diseñar algoritmos especiales. ¿Una mejor implementación proviene del espumoso? Gráfico:

/sparkling-graph/sparkling-graph/tree/master/operators/src/main/Scala/ml/sparkling/graph/operators/measures/vertex/betweenness

Aquí, Betweeness utiliza dos implementaciones, a saber, Edmonds[1] y Hua[2]. La eficiencia de ejecución de la prueba personal es relativamente alta, pero el tema es demasiado frío y pocas personas citan el artículo.

La centralidad de estanqueidad (¿cercanía? centralidad) describe la dificultad de un nodo en relación con otros nodos en el gráfico. Tome el recíproco de la distancia promedio de este nodo a otros nodos en el gráfico. Si este valor es grande, significa que la mayoría de los nodos desde este nodo a otros nodos han pasado por varios pasos y toda la estructura del gráfico es relativamente compacta. ¿Para este indicador, parpadeante? Graph también tiene mejores implementaciones.

¿Conteo de triángulos (¿Triángulo? ¿Contar)? es un coeficiente utilizado para describir la densidad de agregación entre vértices en el gráfico. Cuanto más densa sea la estructura local donde esté un nodo, más triángulos tendrá. ¿Para este indicador chispa? Graphx tiene una mejor implementación.

Características de importancia de los nodos basadas en el análisis de enlaces

El algoritmo HITS y el algoritmo PageRank se propusieron originalmente para medir la importancia de las páginas web en el modelo de gráficos web. Se basan en diferentes supuestos.

Modelo de paseo aleatorio (¿Random? Surfer? Model)

El modelo de paseo aleatorio (Random? Surfer? Model) supone que los usuarios navegan aleatoriamente por una página web que consta de dos partes:

(1) Salto directo: el usuario ingresa a una página web A y accede al enlace de la página web con la misma probabilidad (suponiendo que la página web tiene D enlaces, es 1/d).

(2) Teletransportarse: Luego de navegar hasta cierto punto, el usuario decide no continuar y ingresa a otra web para volver a navegar.

Algoritmo PageRank

Supuestos:

(1) Supuesto de cantidad: cuantos más enlaces reciba un nodo de página, más importante será.

(2) Hipótesis de calidad: si el nodo de página que apunta a un determinado nodo de página es importante, más importante es la página.

¿Basado en esta suposición y aleatoriedad? ¿Tablista? El modelo puede obtener la fórmula iterativa de PageRank. En primer lugar, un nodo de página A puede tener dos métodos de acceso: uno es salto remoto y el otro es salto directo.

Suponiendo que hay n nodos en el gráfico y que el usuario tiene una probabilidad de 1-p, entonces la probabilidad de salto remoto es:

¿Cuál es la probabilidad de ingresar a un salto remoto? ? ¿incógnita? La probabilidad de seleccionar este nodo = (1-p)x(1/N)

La segunda forma es saltar desde otros nodos con la misma probabilidad. Supongamos que el vecino B del nodo A tiene su propio vecino de grado (B) y B tiene su propia página. La puntuación de rango es PR(b), entonces la puntuación que B puede dar a A es PR(b)/grado(b). ¿Pueden todos los vecinos de a darme una página? Las puntuaciones del ranking se suman y se multiplican por la probabilidad p de que el usuario entre en un salto directo, que es la página que el nodo A puede obtener de esta forma. Puntuación de clasificación.

La suma de las puntuaciones de los saltos remotos y los saltos directos es la página que todo el mundo suele ver en el blog. Fórmula de iteración de rango.

Algoritmo HITS

El algoritmo HITS cree que un nodo tiene dos características: una es la importancia del nodo en sí, que es la autoridad. El segundo es la importancia de un nodo como nodo central que conduce a un nodo importante, es decir, el grado central.

Hipótesis:

(1) Un nodo con un alto valor de autoridad debería tener muchos nodos con un alto valor de Hub.

(2) Un nodo con un valor de Hub alto debe apuntar a muchos nodos con valores de autoridad altos.

El método iterativo de HITS es el siguiente: el valor de autoridad y el valor del centro son iterativos y se refuerzan mutuamente.

(1) El valor de autoridad de un nodo apunta al centro de; su nodo La suma de valores (correspondiente a la hipótesis de 1).

(2) El valor Hub de un nodo es la suma de los valores de autoridad de los nodos a los que apunta (correspondiente a la hipótesis 2)

Ejecutar 1 y 2 hasta la convergencia .

Si no hay un conjunto de semillas, el valor inicial de HITS se puede establecer en 1 para los valores de autoridad y centro de todos los nodos. Si hay un conjunto de semillas, el método de síntesis es expandir el conjunto de semillas, expandir todos los nodos que tienen una relación directa con los nodos en el conjunto de semillas y luego utilizar los pasos de iteración anteriores.

Escenarios de aplicación

PageRank puede señalar nodos importantes en el gráfico de juicio solo a través de enlaces. ¿Clics y páginas? Los valores de clasificación en sí también se pueden ingresar en modelos de clasificación como características de nodo. Por ejemplo, en la predicción del riesgo de incumplimiento corporativo, [3] mencionó que se puede construir un gráfico dirigido basado en la relación de garantía entre empresas. Este artículo utiliza diferentes características gráficas como entrada y descubre que los valores de autoridad y pivote obtenidos por HITS tienen pesos de característica relativamente grandes. La explicación del autor es: las empresas de alto riesgo necesitan encontrar muchas empresas para obtener garantías, por lo que el valor de autoridad es alto y la tasa de incumplimiento final es alta. Las empresas estables y de bajo riesgo tienden a tener más empresas de garantía y el valor del centro será mayor. De hecho, desde esta perspectiva, los grados de entrada y salida de los nodos también se pueden utilizar directamente como características. La ventaja de HITS es que puede lograr una mejora mutua de las puntuaciones de centro y autoridad.

Una diferencia importante entre HITS y PageRank en los escenarios de aplicación es que HITS se puede expandir desde un conjunto de semillas etiquetado a otros nodos importantes igualmente relevantes. [4] utilizaron HITS para ampliar el conjunto inicial de direcciones web etiquetadas por expertos como relacionadas con la "moda" y clasificaron automáticamente las páginas web externas relevantes según su relevancia para la "moda". El punto importante es que el autor mencionó las diferencias importantes entre PageRank y HITS en los escenarios de uso:

(1) PageRank solo es efectivo cuando tiene información de enlace relativamente completa, mientras que HITS es efectivo cuando la información del enlace es incompleto También funciona.

(2) HITS puede usar muestras etiquetadas manualmente para la minería, pero PageRank no (a menos que sea personalizado? ¿Página? Clasificación, pero esa es una historia más adelante)

Cita

p >

[1]¿Edmonds? ¿norte? ,?Hofler? t? ,?Lustin? ¿respuesta? . ? ¿respuesta? ¿Ahorrar espacio? ¿paralelo? ¿algoritmo? ¿para qué? ¿calcular? ¿Entre? ¿Centralidad? ¿existir? ¿repartido? Memoria[C]//? 2010?Internacional? ¿Reunión? ¿abierto? ¿alto? ¿actuación? calcular,? ¿HiPC? 2010,?Donna? Paula. ¿Goa? India,? ¿Diciembre? 19-22,?2010.? ¿IEEE? 2010.

[2]?Hua? q? ¿s? ,?¿Admirador? h? ,?¿Ai? ¿metro? ,?et? Alabama. ? ¿casi? ¿Óptimo? ¿repartido? ¿algoritmo? ¿para qué? ¿calcular? ¿Entre? Centralidad[C]//? ¿IEEE? ¿internacionalidad? ¿Reunión? ¿abierto? ¿repartido? ¿calcular? sistema.

? ¿IEEE? 2016.

[3]?¿Vaca? z,? ¿Procedimiento? d,? ¿Yan? ¿chorro? Alabama. ? ¿respuesta? ¿Raza mixta? ¿cerca? ¿para qué? ¿Evaluación de riesgos? ¿de? ¿préstamo? ¿asegurar? Red[J]. ? ¿papel? 2017.

[4]https://www.confluent.io/blog/ranking-websites-real-time-Apache-kafkas-streams-API/

[5] ¿Ahmed? ¿norte? k? ,?Rosie. r? ,?¿ciruela? j? ¿b? ,?et? Alabama. ? ¿estudiar? ¿Basado en el rol? ¿cuadro? ¿Incrustar[J].? 2018.

[6]¿Hamilton? ¿w? ¿yo? ,?¿Gran Bretaña? r? ,?Lescovic? j? . ? ¿inducción? ¿Representación? ¿estudiar? ¿abierto? ¿Tamaño grande? Gráfico[J]. ? 2017.