Conceptos básicos del espectro del conocimiento (1)-¿Qué es el espectro del conocimiento?

El autor es un gerente de productos de IA jubilado cuyos principales intereses son los gráficos de conocimiento y el procesamiento del lenguaje natural. Escribo estos artículos para resumir el sistema de conocimiento que se ha construido hasta ahora y también para popularizar la ciencia. Por favor corríjame si hay algún problema.

El mapa del conocimiento es un concepto relativamente nuevo en China. En la actualidad, hay pocos periódicos nacionales y las aplicaciones se concentran principalmente en empresas con datos masivos como BAT. Este concepto fue propuesto por Google en 2012. En ese momento, actualizó principalmente el modo de búsqueda tradicional basado en palabras clave a una búsqueda basada en semántica. Los gráficos de conocimiento se pueden utilizar para consultar mejor información compleja relacionada, comprender las intenciones del usuario desde un nivel semántico y mejorar la calidad de la búsqueda.

Personalmente, creo que la mayor ventaja del gráfico de conocimiento es su gran capacidad de descripción de datos. Aunque varios algoritmos de aprendizaje automático tienen muy buenas capacidades de predicción, sus capacidades de descripción son muy débiles. Los gráficos de conocimiento simplemente llenan este vacío.

Hay muchas definiciones de mapas de conocimiento. Aquí proporcionaré algunas de mis propias interpretaciones:

1. el mundo real. Su fuerte relación. Usamos relaciones para describir la relación entre dos entidades, como la relación entre Yao Ming y los Rockets, y sus atributos. Usamos "pares atributo-valor" para describir sus características internas. Por ejemplo, nuestro personaje tiene atributos como edad, altura, peso, etc.

2. Los gráficos de conocimiento se pueden construir y definir manualmente para describir relaciones débiles entre varios conceptos, como la relación entre "olvidé el número de pedido" y "recuperar el número de pedido"

Actualmente, las bases de conocimiento se pueden dividir en dos tipos: bases de conocimiento seleccionadas y bases de conocimiento extraídas.

KB planificadas: Representadas por yago2 y freebase, extraen una gran cantidad de entidades y relaciones entre entidades de Wikipedia y WordNet, que pueden entenderse como Wikipedia estructurada.

KBs extraídas: ¿Basadas principalmente en extracción de información abierta (openie)? Representados por Never-Ending Language Learning (Nell), extraen directamente tripletas entidad-relación de cientos de millones de páginas web. En comparación con la base libre, el conocimiento de entidades obtenido de esta manera es más diverso y sus relaciones entre entidades y entidades aparecen más en forma de lenguaje natural. Por ejemplo, "Yao Ming nació en Shanghai". Ming", "también Nacido en", "Shanghai"). El conocimiento extraído directamente de las páginas web también tendrá algo de ruido y su precisión es menor que la de las bases de conocimiento seleccionadas.

a) "Yao Ming nació en Shanghai"

b) "Yao Ming es jugador de baloncesto"

c) "Yao Ming es el actual presidente de la Asociación China de Baloncesto ”

Los anteriores son conocimientos que cuando se reúne una gran cantidad de conocimientos, se convierten en una base de conocimientos. Podemos obtener muchos conocimientos de enciclopedias como Wikipedia y la Enciclopedia Baidu. El conocimiento de estas enciclopedias está organizado en un lenguaje natural no estructurado, que es adecuado para la lectura humana pero no para el procesamiento informático.

Para facilitar el procesamiento y la comprensión por computadora, necesitamos una forma más formal y concisa de expresar el conocimiento, es decir, triples.

"Yao Ming nació en Shanghai, China" se puede representar con tres números consecutivos como (Yao Ming, lugar de nacimiento, Shanghai) [1]. Aquí podemos entender simplemente el triplete como (entidad, entidad relación, entidad entidad). Si consideramos una entidad como un nodo y la relación entre la entidad (incluidos atributos, categorías, etc.) como una ventaja, entonces la base de conocimiento que contiene una gran cantidad de tripletas se convierte en un enorme gráfico de conocimiento.

A veces las entidades se llaman temas, como en Justin Bieber. Las relaciones entre entidades también se pueden dividir en dos tipos, uno son atributos y el otro son relaciones. Como se muestra en la figura siguiente, la mayor diferencia entre atributos y relaciones es que las dos entidades correspondientes al triplete al que pertenece el atributo suelen ser un sujeto y una cadena, como el tipo de atributo/género y el triplete correspondiente (Justin Bieber, tipo, personas), y las dos entidades correspondientes al triplete al que pertenece la relación suelen ser dos sujetos. Por ejemplo, la relación Placeofbrith corresponde a un triplete (Justin Bieber, PlaceOfBrith, Londres).

(El cuadrado azul en la figura representa el tema y la elipse naranja contiene el valor del atributo. Ambos pertenecen a la entidad de la base de conocimientos; la línea azul representa la relación y la línea naranja representa la atributo.Se denominan colectivamente relación de entidad de la base de conocimiento. Utilice triples para describir.

Esta es solo una breve introducción a la estructura de datos que se explicará en detalle en "Conceptos básicos del mapa de conocimiento". 2) - Sistema de expresión de conocimiento del mapa de conocimiento"

Los lectores solo necesitan recordar las expresiones de conocimiento básicas de la base libre: (entidad)-[relación]-(entidad), (entidad)-[relación]-( valor), consulte la Figura 3, la relación entre Yao Ming y Ye Li

A través del gráfico de conocimiento, la información en Internet no solo se puede expresar en una forma más cercana al mundo cognitivo humano, sino que pero también proporciona una mejor manera de organizar, administrar y utilizar información masiva. La siguiente figura es compilada por el autor. Para aplicaciones relacionadas con gráficos de conocimiento, los artículos posteriores analizarán las siguientes aplicaciones. , las aplicaciones de los gráficos de conocimiento se concentran principalmente en los campos de búsqueda y recomendación. Los robots (robots de servicio al cliente, asistentes personales) son esencialmente una extensión de la búsqueda y recomendación. El gráfico (especialmente la base libre) nació para resolver el problema de la búsqueda. Puede deberse a que empresas como Enterprise Search y Qixinbao descubrieron que es mejor utilizar estructuras gráficas para limpiar y procesar datos.

En la búsqueda semántica. La búsqueda del gráfico de conocimiento es diferente de la búsqueda tradicional. La búsqueda convencional consiste en encontrar la colección de páginas web correspondiente en función de las palabras clave y luego clasificarlas en la página. El algoritmo clasifica las páginas web en la colección de páginas web y luego las muestra en la página. usuario La búsqueda basada en el mapa de conocimiento atraviesa el conocimiento en la base de conocimiento del mapa existente y luego devuelve el conocimiento consultado al usuario. Si la ruta es correcta, la consulta se devolverá al usuario. algunos, lo cual es relativamente preciso.

En el sistema de preguntas y respuestas, el sistema también utilizará el gráfico de conocimiento para realizar análisis semántico y sintáctico de las preguntas planteadas por los usuarios utilizando lenguaje natural, y luego convertirlas. conviértalos en estructuras y luego consulte la respuesta en el gráfico de conocimiento