Profundidad: ¿Cómo combinar el aprendizaje profundo y la conducción autónoma?
Soy Li Xingyu, la persona a cargo del negocio de los automóviles robot. Horizon Robotics se fundó hace un año. Su fundador, Yu Kai, es el director del Instituto de Investigación de Aprendizaje Profundo Baidu, que también es el primer instituto de investigación de aprendizaje profundo en China. Fundó Horizon, una empresa centrada en el desarrollo de tecnología de aprendizaje profundo, por lo que el tema que quiero compartir con ustedes hoy es: "¿Cómo combinar el aprendizaje profundo y la conducción autónoma?".
|Antecedentes: Complejo Conducir El entorno es una oportunidad para el aprendizaje profundo.
Cabe decir que en el partido de este año entre AlphaGo y Li Shishi, la atención de todos hacia los robots ha alcanzado un nivel muy alto. Dedicaron mucho tiempo al aprendizaje automático. Lo que hicieron fue que a ocho autos no se les enseñó ninguna regla de conducción y, después de ocho horas de entrenamiento, no se les enseñó nada. colisión durante una hora. Esto es realmente notable
Desde la perspectiva del sector de capital, esta inversión de 654,38 mil millones de dólares estadounidenses realmente puede demostrar el optimismo de la industria por el aprendizaje profundo y la tecnología de aprendizaje por refuerzo.
¿Por qué necesitamos aplicar esta tecnología al campo de la conducción autónoma? Mil palabras se pueden resumir en una frase: compleja. Hemos visto a mucha gente cuestionar la conducción autónoma. Se puede ver que las condiciones de la carretera en la intersección son muy complicadas, incluidas las condiciones nacionales especiales en las que las habilidades de conducción de China deben mejorarse poco después de ingresar a la sociedad automovilística. Los cambios de carril son muy frecuentes y los giros suelen ser violentos. Esta escena es realmente difícil. para los ADAS tradicionales es un gran desafío, y esta complejidad es exactamente una de las ventajas del aprendizaje profundo.
Por supuesto, mucha gente también preguntará: ¿los humanos son inútiles en el campo de la conducción autónoma? De hecho, la relación entre el hombre y el automóvil no es una simple relación entre servicio y ser servido, sino una relación entre el hombre y el caballo. De hecho, el caballo no sabe qué dirección tomar, si. es rápido o lento. Esto requiere control y ajuste humanos. Lo que el caballo puede hacer es detenerse en el acantilado frente a ti, lo que significa que la conducción autónoma puede reducir el riesgo a un nivel muy bajo. En un nivel alto, se trata más de la relación con las personas, y te entenderá. Por tanto, un tema muy importante en el campo de la conducción autónoma es el estudio de los hábitos de conducción. No es solo el aprendizaje de la conducción estándar, sino también el aprendizaje de estilos de conducción especiales.
Este es un análisis muy estándar de la conducción autónoma realizado por la Administración de Carreteras de EE. UU., como se puede ver en nuestra comunicación. fabricante de automóviles que el foco de investigación y desarrollo todavía se basa en el Nivel 13, que es altamente no tripulado. La principal diferencia con el Nivel 4 es que uno es garantizar la prevención de colisiones de emergencia bajo cualquier circunstancia y el otro es realizar parcialmente la conducción autónoma. carreteras con mejores condiciones.
Según la práctica actual, las carreteras deberían poder evitar colisiones bajo cualquier circunstancia. En la actualidad, solucionamos principalmente algunos casos especiales en carreteras. en las principales vías urbanas con mejores condiciones, como el anillo medio, el anillo interior y el anillo exterior de Shanghai, especialmente los semáforos deben resolverse.
|Por qué es necesario resolver algunos casos especiales. ¿Se valora el aprendizaje profundo?
Después de presentar algunos antecedentes, hablemos de por qué se valora el aprendizaje profundo. Todo el mundo siente que la palabra "aprendizaje profundo" es muy popular ahora.
1. ¿Por qué se toma en serio?
Cabe decir que la historia del aprendizaje profundo es realmente muy larga. La historia más larga se remonta a finales de los años cincuenta. En el largo período de desarrollo, hay altibajos, altibajos. A juzgar por la situación actual, el punto más atractivo del aprendizaje profundo es el aprendizaje de un extremo a otro.
Por ejemplo, utilizar un sistema de aprendizaje automático para reconocer imágenes. Por ejemplo, si la imagen es una persona, la tratará como un nombre. Puede ver que la información en un rostro humano suele ser de varios megabytes o millones de bytes, y el resultado final es de solo unos pocos bytes, es decir, de un extremo a otro, lo que puede convertir números no estructurados muy complejos en expresiones digitales simplificadas. Incluyendo voz, idioma, imágenes y videos. Los datos generados por las transacciones financieras no están estructurados.
A juzgar por la situación actual, el primer tipo es muy adecuado para la era del big data. De hecho, en años anteriores, todo el mundo también estudiaba algoritmos de aprendizaje profundo. En ese momento, no se llamaba aprendizaje profundo, se llamaba red neuronal profunda. Pero me resultó difícil adaptarme bien, porque lo que aprendí en ese momento era solo una pequeña cantidad, miles de muestras, y en realidad era imposible adaptarme a un muy buen nivel.
Más tarde, después de la aparición de big data, este rendimiento se disparó. El último ejemplo es que en 2012, Alex y su maestro participaron en el concurso de clasificación y reconocimiento de imágenes, y la puntuación aumentó repentinamente del 74% en el pasado al 85%, lo que fue una gran mejora. En otras palabras, la máquina puede reconocer imágenes mejor que el ojo humano, por lo que el efecto de la práctica es muy bueno. En general, esta afirmación puede no ser particularmente precisa para simulaciones de este comportamiento. De hecho, la red asociada a él es muy compleja en términos de similitud y no es particularmente compleja ahora.
La vanguardia de la tecnología de aprendizaje automático, modelo de atención. La imagen es una descripción del proceso de reconocimiento facial. Si ignora la tecnología y mira directamente, verá que en el reconocimiento de imágenes, cada etapa de reconocimiento se compone de muchas etapas de reconocimiento. Se reducirá la información de su imagen, y se eliminará inicialmente el color de la imagen, quedando únicamente una información de catalogación.
En el segundo paso, se eliminará la mitad del registro, dejando solo la información de la línea del borde, y luego la línea se convierte en un punto. Este es un proceso de distorsión continua desde el espacio bajo al espacio alto. y finalmente la información de su imagen se reducirá a una letra, por lo que se denomina red neuronal convolucional multicapa. Como todos sabemos, una relación tan compleja traerá inevitablemente una gran cantidad de datos, porque definitivamente requerirá parámetros muy grandes.
La tecnología de aprendizaje automático también mejora constantemente y ahora estamos viendo avances integrales en varios campos.
Por ejemplo, el modelo de atención, ¿qué es el modelo de atención? Por ejemplo, si ves a mucha gente en un cóctel, pero sólo hablas con uno o algunos de ellos, tu sistema auditivo sólo prestará atención a las palabras de la persona a la que quieres prestarle atención y bloqueará la conversación. otros. Resuelve el problema de centrarse en el habla especial en entornos semánticos complejos. Cuando le dijimos a esta mujer, te pido que te concentres en el Frisbee, el sistema de la máquina reflejó el Frisbee, demostrando que se estaba enfocando exactamente en lo que tú querías que se enfocara. Esto es fundamental porque el sistema es muy complejo. Sólo necesita que el sistema de conducción autónoma preste atención a información clave como vehículos, líneas de carril y personas. Estas técnicas pueden hacerlo muy eficaz.
Además de los modelos de atención, se han producido otros avances, entre ellos los modelos de memoria a corto y largo plazo. ¿Para qué es esto? Realizará un aprendizaje profundo, no sólo en el espacio y en los planos bidimensionales, sino también al recordar lo que sucedió en el pasado. Como puede ver en la demostración del automóvil de Toyota, maneja muy bien escenas instantáneas, pero ¿alguna vez ha pensado qué hacer si la forma en que se procesa la escena depende de la historia pasada? Por ejemplo, cuando miramos a Warcraft y StarCraft, la siguiente acción depende de tu estado histórico. En este momento, su red neuronal profunda necesita suficiente memoria para recordar estados pasados. Este modelo de memoria es para resolver este problema, incluida la serialización, etc.
Aprendizaje por refuerzo
¿Qué es el aprendizaje por refuerzo?
Para dar una analogía más vívida, si el sistema anterior se considera una economía planificada, entonces el aprendizaje por refuerzo es una economía de mercado y puede entenderse como una tecnología orientada a resultados. Describa esto con precisión como un proceso en el que un agente inteligente compite constantemente con el entorno para optimizarlo. Por ejemplo, el automóvil Toyota de ahora es un caso típico de aprendizaje por refuerzo. Si aciertas, serás castigado; si no, serás recompensado. Múltiples ciclos reforzarán estos comportamientos y alcanzarán un valor deseado. El aprendizaje profundo se puede utilizar para percibir el entorno y el aprendizaje por refuerzo se puede utilizar para controlar cosas, formando así un sistema de conducción autónomo completo.
Este es un diagrama estructural muy típico del sistema de conducción automática de un automóvil. Hay varias entradas de sensores en el lado izquierdo de la imagen. Estos datos provienen de tres aspectos: datos ambientales alrededor del automóvil, datos de estado del automóvil en sí, como velocidad, dirección y datos de las personas en el automóvil, si conducen con cansancio y si necesitan girar. Una es la fusión de la percepción y la otra es la toma de decisiones.
|?El aprendizaje profundo permite que la conducción autónoma pase de la percepción al control.
El aprendizaje profundo tiene grandes ventajas en la percepción intermedia y la toma de decisiones, y este asunto se puede desglosar aún más.
Nos hemos puesto en contacto con fabricantes de equipos originales nacionales. Ahora, algunos de ellos han iniciado una investigación y un desarrollo en profundidad de la conducción autónoma y han discutido muchos detalles. Simplemente podemos dividirlo en una sección, a saber, conciencia situacional y control de decisiones.
Conciencia Situacional y Control de Decisiones
Parte de la conciencia situacional es la situación externa, es decir, necesitas estar consciente de todo el entorno, e internamente necesitas estar consciente de la situación. intenciones del conductor, incluidos los juicios sobre las intenciones. Incluyendo la identificación de la física externa, cuáles son obstáculos fijos, cuáles son barandillas y cuáles son áreas transitables. Para conducir, incluir el reconocimiento del estado es realmente muy importante. Este es también el foco de la disputa entre escuelas en toda la industria de la conducción autónoma.
Representados por Google, lo que quieren hacer es una conducción totalmente autónoma, pero aún hay que ir paso a paso. Este se enfrenta a un proceso de conducción semiautónoma. A Google le resultó difícil cambiar entre conducción manual y autónoma, y no había forma de hacer que esto fuera particularmente confiable.
En realidad, creo que, viéndolo de esta manera, en primer lugar, los OEM definitivamente seguirán un proceso paso a paso porque construyen automóviles. En segundo lugar, el aprendizaje profundo en esta materia puede ayudar a aliviar este problema. No se puede decir que se pueda solucionar por completo, pero al menos se puede aliviar en gran medida. Porque el aprendizaje profundo tiene una comprensión más completa del estado del conductor que otros medios, porque se basa en una gran cantidad de análisis técnico del conductor, incluidos sus hábitos de conducción, intenciones, etc.
El control de decisiones consta de varias partes. Es decir, el vehículo tiene una planificación de trayectoria de movimiento local, y la planificación también tiene un estilo de conducción, por ejemplo, si se requiere una sensación de movimiento más fuerte, estos son diferentes. El último es el control del actuador, que forma un circuito cerrado entre estados para regular.
Cabe decir que muchas empresas de nueva creación, incluidas empresas como NVIDIA, han hecho muchos intentos para optimizar todo el sistema mediante el aprendizaje profundo. NVIDIA hizo un trabajo muy violento, ignorando directamente la parte intermedia de toma de decisiones y conectando directamente la entrada del sensor y la entrada del estado del vehículo para hacer tales predicciones. En otras palabras, Y es el freno, el acelerador y la dirección del actuador, y la entrada es información sobre el automóvil y el entorno. Es muy violento y no realiza ningún análisis intermedio de inteligencia artificial.
Otro punto muy importante en la conducción autónoma es cómo probarla.
La principal inversión en conducción autónoma aún está en pruebas, no sólo en crear un sistema de software. Tesla lo hizo de manera muy inteligente y lo produjo y probó directamente en masa, por lo que acumuló más de 654,38+76 millones de millas en un corto período de tiempo. Pero aún necesitas un sistema de simulación para hacer esto. Con el sistema de simulación, cómo simular varios temas en el sistema de simulación es en realidad un tipo de aprendizaje por refuerzo que puede ayudarlo.
Al crear un entorno virtual, desea utilizar varios dispositivos informáticos para simular un objetivo, decenas de personas, señales de tráfico, etc. Cada uno es un proceso dinámico y no cambian. Por ejemplo, los semáforos cambiarán constantemente y la dinámica del vehículo también cambiará. En realidad, una estructura tan compleja es muy adecuada para el aprendizaje profundo y el aprendizaje por refuerzo, incluso combinado con simulación.
En este sentido, los fabricantes de automóviles alemanes BMW y Audi están a la cabeza, y por supuesto Toyota es igual y ha trabajado mucho. Este es el diagrama estructural del zFAS de Audi, el cerebro del automóvil de Audi. El módulo del sistema zFAS está equipado con el procesador móvil EyeQ3 de Mobileye y el chip NVIDIA TegraK1. El concepto de Audi es claro y aún se está aprendiendo la clave de la conducción autónoma.
Horizon también ha trabajado mucho en este ámbito. Tenemos una marca que se llama Hugo, que es una plataforma abierta para automóviles.
(Reproducir vídeo) Esta es la comprensión semántica que tiene Hugo de todo el camino. Puede identificar diferentes tipos de objetos en la carretera de diferentes colores, como vallas rojas, carreteras verdes, árboles de color verde oscuro y automóviles de color morado. Esta comprensión semántica integral de la carretera es muy importante para los sistemas de conducción inteligentes. Muchas carreteras no son carreteras estructuradas. Por ejemplo, los caminos rurales no tienen carriles ni vallas, por lo que no puedes conducir solo en este momento.
Esta es la valoración realizada por Horizon, la esquina superior izquierda es de NVIDIA. Lamentablemente no podemos mostrar videos animados. Horizon fue puesto a prueba en Beijing. En realidad, esta intersección está muy densamente poblada. El horizonte es fácil de identificar, incluso para quienes viajan en taxi y solo asoman la cabeza.
Para la detección de vehículos, Horizon ha mantenido la primera tasa de reconocimiento en KITTI durante mucho tiempo desde agosto del año pasado. Densebox es el nombre de la prueba.
Horizon es una empresa centrada en el desarrollo de algoritmos y chips. Preferimos cooperar con socios de la industria, varias empresas y fabricantes OEM para crear conjuntamente el producto final. El equipo de algoritmos de Horizon es en realidad bastante internacional y sus equipos de algoritmos auxiliares provienen de empresas como Facebook, Baidu y la Academia de Ciencias de China. Creo que en el campo del aprendizaje profundo, por primera vez, China tiene la oportunidad de estar básicamente al mismo nivel que las principales instituciones internacionales de desarrollo. No se puede decir que esté absolutamente al mismo nivel, pero no lo habrá. Mucha diferencia.
|¿Por qué crear tu propio chip de aprendizaje profundo?
Justo ahora, el Sr. Zhao también compartió por qué necesitamos chips de aprendizaje profundo y mencionó que muchas empresas nacionales afirman que están haciendo esto, lo cual es bueno, porque todos saben que la estructura informática actual No es razonable.
Por ejemplo, la entrada del aprendizaje profundo es muy densa. Este tipo de entrada densa no es adecuada para DSP y está canalizada. ¿Qué le pasa a la GPU?
El siguiente paso del procesamiento después de múltiples entradas no es bueno para el almacenamiento en búfer de datos. Desafortunadamente, la entrada a las redes de aprendizaje profundo depende del contexto. Cuando la capa oculta está en el medio, el cuadro de convolución debe convolucionarse con el frente, lo que significa que los parámetros deben tomarse y calcularse primero, lo que resulta en una gran cantidad de efectos salientes en una estructura general normal.
La segunda razón es que el ancho de banda siempre es limitado.
El tercer problema es el consumo de energía, que es un problema muy real.
Otro punto es que las redes neuronales profundas tienen muchos parámetros.
Toda la industria se ha dado cuenta de que si quieres poder hacerlo en el campo del aprendizaje profundo, haz tus propios chips como Horizon, que es un poco similar a la industria de la telefonía móvil. Hace unos diez años, en la industria de la telefonía móvil no existía el concepto de que uno debía fabricar sus propios chips, pero hoy todo el mundo ha visto claramente que para hacerlo, uno debe fabricar sus propios chips. Apple, Samsung y Huawei son todos tuyos. Si no usas simplemente la plataforma de Qualcomm, aún puedes hacerlo, pero desafortunadamente para ti. Lo mismo ocurre con el aprendizaje profundo. También puede utilizar chips de Nvidia y Qualcomm, pero esta no es la brecha entre el segundo y el primer lugar, sino la brecha entre el segundo y el primer escalón. Debido a que el algoritmo está evolucionando, si usas las palabras de otra persona, definitivamente estarás un paso atrás. Esto es un problema.
Muchas empresas en China están haciendo esto, incluida una empresa llamada (Shen Jian Technology). Recientemente publicaron sus resultados, que es DPU, un procesador para aprendizaje profundo. Su rendimiento por unidad de consumo de energía es 24.000 veces mayor que el de las CPU anteriores de Intel y 3.000 veces mayor que el de las GPU de Nvidia. Y el trabajo de optimización que realizan es exactamente el problema que acabo de mencionar, reducir el consumo de energía para la compresión y optimización del acceso.
El horizonte es el mismo. Somos muy conscientes del problema, por eso hacemos lo mismo. También estamos fabricando nuestros propios chips. Esperamos aumentar mil veces el índice general de consumo de energía en un corto período de tiempo.
¿Cuáles son los puntos de aplicación de la tecnología de aprendizaje profundo en los que Horizon se está centrando actualmente? Cuatro partes principales: habla, lenguaje, visión y control. Cabe decir que estas cuatro dimensiones pueden constituir una gran cantidad de aplicaciones innovadoras, no solo la conducción autónoma, sino también la supervisión de servidores domésticos, etc. Nuestro objetivo es utilizar nuestros propios chips algorítmicos para cooperar con socios intermedios en el futuro, como empresas de aire acondicionado, empresas de robots de barrido, etc. , que puede cubrir más de 1.000 categorías de productos inteligentes. Nuestro objetivo es dotar verdaderamente de inteligencia al hardware inteligente moderno, por lo que nuestro objetivo es definir el cerebro en la era del Internet de las cosas.
Mi intercambio termina aquí. También le invitamos a colaborar con Horizon, donde proporcionaremos soluciones de plataforma en lugar de categorías específicas y productos finales. Gracias.