¿Para qué sirve el conocimiento?
Si el salto mortal de Boston Dynamics es ayudar al robot a ejercitar sus músculos, entonces el “dibujo” del mapa de conocimiento está tratando de “crear” un cerebro de robot en funcionamiento.
“En la actualidad, es imposible que las máquinas comprendan el lenguaje humano”, afirmó Sun Le, investigador del Instituto de Software de la Academia China de Ciencias y vicepresidente de la Sociedad de Información China de China. Ya sea Siri quien puede hacerte feliz, Xiao Bing que puede escribir poesía o Watson que puede "sentir tu pulso", todos ellos no entienden realmente lo que están haciendo y por qué lo hacen.
Deja que la máquina aprenda a pensar, apoyándose en el "espectro". Este "espectro" se denomina gráfico de conocimiento y tiene como objetivo incorporar el conocimiento generado en el mundo humano al mundo de las máquinas, formando así una base de conocimiento que pueda respaldar el razonamiento similar al del cerebro.
Con el fin de construir un nuevo modelo de cooperación entre la industria, la universidad y la investigación de gráficos de conocimiento en China, recientemente se llevó a cabo un seminario sobre gráficos de conocimiento. Investigadores de instituciones terciarias y equipos industriales han trabajado juntos para construir un sistema de gráficos de conocimiento global y construir una infraestructura de inteligencia artificial líder en el mundo.
Principio técnico: convertir texto en conocimiento
“Para una oración como 'Yao Ming es de Shanghai', es solo una cadena de caracteres almacenada en la máquina. 'Vive' en el cerebro humano", dijo Sun Le como ejemplo. Por ejemplo, cuando se menciona a "Yao Ming", la gente pensará en él como un ex jugador de baloncesto profesional estadounidense, un "pequeño gigante" y un centro "Shanghai" hará que la gente piense en la Perla Oriental y la próspera ciudad. Pero para una máquina, simplemente decir "Yao Ming es de Shanghai" no puede entender el significado detrás de esto como los humanos. Para que una máquina comprenda un fragmento de texto, primero necesita comprender conocimientos previos.
Entonces, ¿cómo convertir los textos en conocimiento?
“Con la ayuda de la tecnología de extracción de información, las personas pueden extraer conocimiento del texto, que es la tecnología central de la construcción de gráficos de conocimiento. Sun Le dijo que la más popular actualmente es utilizar el almacenamiento “triple”. modo. Un triple consta de dos puntos y una ventaja. Los puntos representan una entidad o concepto y los bordes representan varias relaciones semánticas entre entidades y conceptos. Un punto puede extenderse desde múltiples lados para formar múltiples relaciones. Por ejemplo, los puntos de Yao están relacionados con su lugar de nacimiento en la playa, jugar en la NBA y su altura de 2,26 metros.
“Si estas relaciones son lo suficientemente perfectas, la máquina tendrá una base para comprender el lenguaje”. Entonces, ¿cómo hacer que la máquina tenga tal "comprensión"?
"En la década de 1960, el pionero de la inteligencia artificial Marvin Minsky del MIT utilizó relaciones semánticas entre entidades para expresar la semántica de preguntas y respuestas en un proyecto de sistema de respuesta a preguntas, Cambridge Language Margaret Mastman del Departamento de Investigación utilizó relaciones semánticas redes para modelar el conocimiento mundial en 1961, lo que puede considerarse como el predecesor de los mapas de conocimiento", dijo Sun Le.
Posteriormente, Wordnet y Hownet nacionales también crearon bases de conocimientos manualmente.
“Esto incluye conocimiento subjetivo, como si a la gente le gusta o no un producto en los sitios de redes sociales; conocimiento situacional, como qué hacer en un escenario específico, como la gramática de varios idiomas; ; sentido común El conocimiento sexual, como el agua, los gatos y los perros, se puede señalar directamente al enseñar a las personas a reconocerlo, pero es difícil de entender para las computadoras ", explicó Sun Le, a partir de estas clasificaciones preliminares, podemos sentir la inmensidad de. conocimiento, sin mencionar el alto nivel de conocimiento científico.
Modelo de construcción: del trabajo manual a la extracción automática
“Después de 2010, Wikipedia comenzó a intentar el crowdsourcing y todos pueden aportar conocimientos, dijo Sun Le, esto aceleró enormemente la acumulación”. De mapas de conocimiento, la Enciclopedia Baidu y la Enciclopedia Interactiva también han adoptado métodos similares de recopilación de conocimientos, movilizando al público para acortar en gran medida el tiempo del enlace de "acumulación de arena" y mejorar en gran medida la eficiencia. Innumerables conocimientos provienen de todas las direcciones y se acumulan rápidamente, esperando. "Construir una torre".
Frente a una cantidad tan grande de datos o "texto", la construcción de gráficos de conocimiento, naturalmente, ya no puede ser un trabajo manual "Deje que la máquina extraiga automáticamente conocimiento estructurado y genere automáticamente 'triples'".
"Sun Le dijo que la academia y la industria han desarrollado diferentes marcos y sistemas que pueden generar de forma automática o semiautomática conocimiento legible por máquina a partir de texto.
En el material didáctico de demostración de Sun Le, hay una imagen vívida. Si Si come mucho papel, la computadora lo convertirá inmediatamente en "conocimiento", pero el hecho no es nada simple. No existe una solución unificada para la extracción automática de datos estructurados en "Baidu". sigue: convertir los datos enviados al gráfico de conocimiento en objetos de entidad que siguen el esquema, realizar cálculos de conocimiento unificados como limpieza, alineación, fusión y asociación de datos para completar la construcción del gráfico. "Sin embargo, encontramos que el gráfico de conocimiento. La extracción de datos estructurados y semiestructurados basados en Wikipedia aún es insuficiente, por lo que todo el trabajo actual se centra en cómo extraer conocimiento de textos masivos. "Sun Le dijo que, por ejemplo, la base de conocimientos de Google y la evaluación TAC-KBP patrocinada por el Instituto Nacional de Estándares y Tecnología también están promoviendo la tecnología para extraer conocimientos del texto.
En la autorizada "Base de conocimientos Automático En "Constructing International Assessment", la extracción de conocimiento del texto se divide en cuatro partes: descubrimiento de entidades, extracción de relaciones, extracción de eventos y extracción de emociones en la evaluación china TAC-KBP organizada por el NIST de EE. UU., el equipo conjunto de. el Instituto de Software de la Academia de Ciencias de China y Sogou ganaron el tercer lugar en indicadores de desempeño y el primer lugar en indicadores únicos de extracción de eventos
"En este campo, China puede competir a nivel internacional. ". Sun Le presentó que el Instituto de Software de la Academia de Ciencias de China propuso un algoritmo de adquisición de entidades basado en una guía común. El algoritmo de extracción de relaciones basado en la supervisión del conocimiento de múltiples fuentes reduce en gran medida el costo de modelado de las herramientas de extracción de conocimiento de texto y mejora la rendimiento.
El objetivo final es construir todo el conocimiento humano.
El Antiguo Testamento registra que los humanos trabajaron juntos para construir la Torre de Babel, con la esperanza de llegar al cielo. Create AI está construyendo una Torre de Babel para ayudar a que la inteligencia artificial alcance la inteligencia humana.
La cantidad de conocimiento ha comenzado a tomar forma, alcanzando un nivel que puede soportar aplicaciones prácticas. "Está lejos de alcanzar el nivel del conocimiento humano". Sun Le dijo que, además, el conocimiento humano ha ido aumentando, actualizándose y siendo dinámico constantemente. Los cambios y la comprensión también deben reflejarse en el "cerebro" de la máquina a medida que pasa el tiempo. p>
"Por lo tanto, el gráfico de conocimiento no será un estado estático, sino que formará un ciclo. Esta es también la carta estadounidense. La idea de aprendizaje sin fin presentada por lugares como la Universidad Nike Mellon. ", Dijo Sun Le.
Los datos muestran que el gráfico de conocimiento de Google actualmente registra más de 3.5 mil millones de hechos; Freebase registra más de 40 millones de entidades, decenas de miles de relaciones de atributos y más de 2.4 mil millones de hechos. Enciclopedia Baidu contiene 100.000 entradas y la función de búsqueda de asociaciones se utiliza en la búsqueda de Baidu.
“También hay mapas de conocimiento especializados en campos específicos como la medicina y las relaciones interpersonales. "Sun Le introdujo que el parentesco describe el parentesco entre personajes, incluidas 104 entidades, 26 relaciones y 10,800 hechos; UMLS utiliza 135 entidades, 49 relaciones y 6,800 hechos para describir la relación entre conceptos médicos en el campo médico. relación. p>
"Este es un gran proyecto lleno de perspectivas brillantes". Sun Le dijo que el objetivo final del gráfico de conocimiento es formalizar y estructurar todo el conocimiento humano y utilizarlo para construir un sistema de comprensión del lenguaje natural basado en el conocimiento.
Aunque el "sistema que realmente comprende el lenguaje" que satisface a la industria está lejos de surgir, y la actual "Torre de Babel" se encuentra solo en el nivel básico, se han demostrado aplicaciones relacionadas con amplias perspectivas. Por ejemplo, si ingresa "microscopía crioelectrónica" en la Enciclopedia Baidu, Shi aparecerá en la barra vertical de la derecha, y si ingresa "moneda", las entradas relacionadas como Wang Sicong aparecerán directamente en los términos de búsqueda. que contiene las intenciones de la máquina para los humanos.