Red de conocimientos sobre prescripción popular - Conocimiento del confinamiento - Conceptos básicos de Knowledge Graph (1): ¿Qué es Knowledge Graph?

Conceptos básicos de Knowledge Graph (1): ¿Qué es Knowledge Graph?

El autor es un gerente de productos de inteligencia artificial jubilado y se especializa principalmente en gráficos de conocimiento y procesamiento de lenguaje natural. Estos artículos están escritos para resumir el sistema de conocimiento que se ha construido hasta ahora y para popularizar la ciencia. Si hay algún problema, corríjame.

El gráfico de conocimiento es un concepto relativamente nuevo en China. Hay relativamente pocos artículos nacionales. Las partes de la aplicación se concentran principalmente en empresas como BAT que dominan datos masivos. En ese momento, el objetivo principal es actualizar el modo de búsqueda tradicional basado en palabras clave a una búsqueda basada en semántica. Los gráficos de conocimiento se pueden utilizar para consultar mejor información asociada compleja, comprender la intención del usuario desde un nivel semántico y mejorar la calidad de la búsqueda.

Personalmente, creo que la mayor ventaja del gráfico de conocimiento es que es muy poderoso para describir datos, mientras que varios algoritmos de aprendizaje automático son muy buenos en la predicción, pero muy débiles en la descripción. la brecha Esta parte está en blanco.

Hay muchas definiciones de gráficos de conocimiento. Aquí proporcionaré parte de mi comprensión:

1. El objetivo principal de los gráficos de conocimiento es describir varias entidades y entidades que existen en el. conceptos del mundo real y la estrecha relación entre ellos. Usamos relaciones para describir la asociación entre dos entidades. Por ejemplo, Yao Ming y los Rockets. Usamos, por ejemplo, Yao Ming y los Rockets. Los atributos entre ellos. Para las relaciones, utilizamos "pares atributo-valor" para representar sus atributos intrínsecos. Por ejemplo, nuestro personaje tiene atributos como edad, altura y peso.

2. Los gráficos de conocimiento se pueden construir y definir artificialmente para describir relaciones débiles entre varios conceptos, como la relación entre "número de pedido olvidado" y "número de pedido recuperado"

Bases de conocimiento actualmente se pueden dividir en dos categorías: KB curadas y KB extraídas

KB curadas: representadas por yago2 y freebase, extraen una gran cantidad de entidades y relaciones entre entidades de bases de conocimiento como Wikipedia y WordNet, que pueden entenderse como una Wikipedia estructurada.

Base de conocimientos extraída: basada principalmente en la extracción abierta de información (OE) y el aprendizaje de idiomas sin fin (NELL), extraída directamente de cientos de millones de páginas web del triplete entidad-relación. En comparación con la base libre, el conocimiento de entidades obtenido de esta manera es más diverso y sus relaciones entre entidades y entidades tienen más forma de lenguaje natural. Por ejemplo, "Yao Ming nació en Shanghai" se puede expresar como ("Yao Ming". , "también nacido en", "Shanghai").

a) "Yao Ming nació en Shanghai"

b) "Yao Ming es jugador de baloncesto"

c) "Yao Ming es el actual presidente de la Asociación China de Baloncesto "

Lo anterior es un conocimiento, y una gran cantidad de conocimiento se convertirá en una base de conocimientos. Podemos obtener muchos conocimientos de Wikipedia, la Enciclopedia Baidu y otras enciclopedias. Sin embargo, el conocimiento de estas enciclopedias se forma a partir de un lenguaje natural no estructurado, que es adecuado para la lectura humana pero no para el procesamiento informático.

Para que a las computadoras les resulte más fácil procesar y comprender, necesitamos una forma más formal y concisa de representar el conocimiento, que es triple.

"Yao Ming nació en Shanghai, China" se puede expresar como (Yao Ming, lugar de nacimiento, Shanghai) [1]. Aquí, podemos entender simplemente las tuplas como (entidad entidad, entidad relación relación, entidad entidad). Si consideramos las entidades como nodos y las relaciones entre entidades (incluidos atributos, categorías, etc.) como aristas, entonces una base de conocimiento que contiene una gran cantidad de tripletas se convierte en un gran gráfico de conocimiento.

Las entidades a veces se denominan temas, como Justin Bieber, y las relaciones entre entidades se pueden dividir en dos tipos, atributos y relaciones, como se muestra en la figura siguiente. La mayor diferencia entre atributos y relaciones es el ternario. se ubican los atributos Un grupo corresponde a dos entidades, generalmente un asunto y una cadena. Por ejemplo, el triplete correspondiente al atributo Tipo/Género es (Justin Bieber, Tipo, Persona), y las dos entidades correspondientes al triplete de. la relación suele ser dos temas A, por ejemplo, el triplete correspondiente a la relación es PlaceOfBrith (Justin Bieber, PlaceOfBrith, Londres). Londres).

(El cuadrado azul en la figura representa el tema, la elipse naranja incluye el valor del atributo y todos pertenecen a las entidades de la base de conocimiento; la línea recta azul representa la relación y la recta naranja La línea representa el atributo. Se denominan colectivamente relación de entidad de la base de conocimiento. Puede describirse mediante entidades ternarias y relaciones de entidad)

Esta es solo una breve introducción a la estructura de datos. se detallará en "Conceptos básicos de Knowledge Graph (2) - Sistema de expresión de conocimiento de Knowledge Graph".

Los lectores solo necesitan recordar la forma de expresión de conocimiento básico de base libre: (entidad)-[relación]-(entidad), (entidad)-[relación]-(valor), consulte la Figura 3, El relación entre Yao Ming y Ye Li.

A través del gráfico de conocimiento, no sólo se puede expresar la información en Internet de una forma más cercana al mundo cognitivo humano, sino que también proporciona una mejor manera de organizar, gestionar y utilizar datos masivos. información. La siguiente imagen es la colección del autor de aplicaciones relacionadas con gráficos de conocimiento. En los siguientes artículos, el autor analizará las siguientes aplicaciones.

De la Figura 4, la aplicación del gráfico de conocimiento se concentra principalmente en los campos de búsqueda y recomendación. Los robots (robots de servicio al cliente, asistentes personales) son un sistema de preguntas y respuestas, que es esencialmente una extensión de la búsqueda. y recomendación. Esto puede deberse a que la tecnología de gráficos de conocimiento (específicamente la base libre) nació para resolver problemas de búsqueda. Es posible que empresas como Enterprise Search y Qixinbao hayan descubierto el almacenamiento de conocimientos, y los datos que utilizan estructuras gráficas se hayan limpiado y procesado mejor.

En términos de búsqueda semántica, la búsqueda de gráficos de conocimiento es diferente de la búsqueda convencional: encuentra la colección de páginas web correspondiente en función de palabras clave y luego clasifica las páginas web en la colección de páginas web mediante algoritmos como página. clasificación y luego los muestra al usuario; la búsqueda basada en el gráfico de conocimiento recorre la base de conocimiento existente en el gráfico de conocimiento y luego devuelve el conocimiento consultado al usuario. Por lo general, si la ruta es correcta, solo se muestran uno o varios conocimientos. preguntado, lo cual es bastante exacto.

En el sistema de preguntas y respuestas, el sistema también utiliza primero el gráfico de conocimiento para realizar un análisis semántico y sintáctico de las preguntas formuladas por el usuario en lenguaje natural y luego las convierte en una forma estructurada de declaraciones de consulta. y luego los consulta en el gráfico de conocimiento.