Red de conocimientos sobre prescripción popular - Colección de remedios caseros - ¿Qué es el aprendizaje profundo y la visión artificial?

¿Qué es el aprendizaje profundo y la visión artificial?

Los marcos de aprendizaje profundo, especialmente aquellos basados ​​en redes neuronales artificiales, se remontan a la nueva máquina cognitiva [2] propuesta por Fukushima Kunihiko en 1980, y las redes neuronales artificiales tienen una historia más larga. En 1989, Yann LeCun y otros comenzaron a aplicar el algoritmo estándar de retropropagación [3] propuesto en 1974 a una red neuronal profunda, que se utilizaba para el reconocimiento de códigos postales escritos a mano. Aunque el algoritmo se puede ejecutar con éxito, el costo computacional es muy alto y el tiempo de entrenamiento de la red neuronal alcanza los 3 días, por lo que no se puede poner en práctica [4]. Muchos factores contribuyen a este lento proceso de entrenamiento, uno de los cuales se debe al problema del gradiente de fuga propuesto en 1991 por Sepp Hochreiter, un estudiante de Jürgen Schmidhuber [5][6]. Al mismo tiempo, las redes neuronales también fueron desafiadas por otros modelos más simples. Modelos como las máquinas de vectores de soporte se convirtieron en algoritmos de aprendizaje automático más populares desde la década de 1990 hasta principios de la de 2000.

El concepto de “aprendizaje profundo” comenzó a llamar la atención alrededor del año 2007. En ese momento, Geoffrey Hinton y Ruslan Salakhutdinov propusieron un algoritmo para el entrenamiento eficiente en redes neuronales feedforward. Este algoritmo trata cada capa de la red como una máquina de Boltzmann restringida y no supervisada y luego utiliza un algoritmo de retropropagación supervisada para el ajuste [7]. Antes de esto, en 1992, en una situación más general, Schmidhuber también propuso un método de entrenamiento similar en redes neuronales recurrentes y demostró en experimentos que este método de entrenamiento puede mejorar efectivamente el aprendizaje supervisado. La velocidad de ejecución [8][9].

Desde la aparición del aprendizaje profundo, se ha convertido en parte de varios sistemas líderes en muchos campos, especialmente en visión por computadora y reconocimiento de voz. En conjuntos de datos comunes utilizados para pruebas, como TIMIT en reconocimiento de voz e ImageNet en reconocimiento de imágenes, los experimentos en Cifar10 han demostrado que el aprendizaje profundo puede mejorar la precisión del reconocimiento.

Los avances en el hardware también son un factor importante para que el aprendizaje profundo recupere la atención. La aparición de procesadores gráficos de alto rendimiento ha mejorado enormemente la velocidad de las operaciones numéricas y matriciales, acortando significativamente el tiempo de ejecución de los algoritmos de aprendizaje automático [10][11].

Conceptos básicos[editar]

La base del aprendizaje profundo es la representación distribuida en el aprendizaje automático. La representación de dispersión supone que las observaciones se generan por la interacción de diferentes factores. Sobre esta base, el aprendizaje profundo supone además que este proceso interactivo se puede dividir en múltiples niveles, que representan múltiples niveles de abstracción de observaciones. Se puede utilizar diferente número de capas y tamaño de capas para diferentes niveles de abstracción [1].

El aprendizaje profundo utiliza la idea de abstracción jerárquica, donde los conceptos de nivel superior se aprenden de los conceptos de nivel inferior. Esta estructura jerárquica a menudo se construye capa por capa utilizando un algoritmo codicioso, y se seleccionan características más efectivas que contribuyen al aprendizaje automático [1].

Muchos algoritmos de aprendizaje profundo se basan en el aprendizaje no supervisado. se puede aplicar a datos sin etiquetar que otros algoritmos no pueden alcanzar. Este tipo de datos es más rico y más fácil de obtener que los datos etiquetados. Esto también le da al aprendizaje profundo una ventaja importante [1].

Aprendizaje profundo bajo redes neuronales artificiales[editar]

Algunos de los métodos de aprendizaje profundo más exitosos implican el uso de redes neuronales artificiales. Las redes neuronales artificiales se inspiran en la teoría propuesta por los premios Nobel David H. Hubel y Torsten Wiesel en 1959. Hubel y Wetzel descubrieron que hay dos tipos de células en la corteza visual primaria del cerebro: células simples y células complejas. Estos dos tipos de células son responsables de diferentes niveles de funciones de percepción visual. Inspirándose en esto, muchos modelos de redes neuronales también están diseñados como modelos jerárquicos entre diferentes nodos [12].

La nueva máquina cognitiva propuesta por Kunihiko Fukushima introduce una red neuronal convolucional entrenada mediante aprendizaje no supervisado. Yan Lecun aplicó el algoritmo de retropropagación supervisada a esta arquitectura [13]. De hecho, desde que se propuso el algoritmo de retropropagación en la década de 1970, muchos investigadores han intentado aplicarlo para entrenar redes neuronales profundas supervisadas, pero la mayoría de los intentos iniciales fracasaron. En su tesis doctoral, Sepp Hochreiter atribuyó el fallo al gradiente de desaparición. Este fenómeno se produce tanto en las redes neuronales de avance profundo como en las redes neuronales recurrentes. El proceso de entrenamiento de estas últimas es similar al de las redes profundas. En el proceso de entrenamiento jerárquico, el error que se debe utilizar para corregir los parámetros del modelo disminuye exponencialmente a medida que aumenta el número de capas, lo que conduce a una ineficiencia en el entrenamiento del modelo [14][15].

Para solucionar este problema, los investigadores han propuesto algunos métodos diferentes. Jürgen Schmidhuber propuso redes multinivel en 1992, utilizando el aprendizaje no supervisado para entrenar cada capa de la red neuronal profunda y luego utilizando el algoritmo de retropropagación para el ajuste. En este modelo, cada capa de la red neuronal representa una representación comprimida de las variables observadas, y esta representación también se pasa a la siguiente capa de la red [8].

Otro método es la red neuronal de memoria a corto plazo (long short term Memory, LSTM) propuesta por Sepp Hockreiter y Jürgen Schmidhuber [16]. En 2009, en el concurso de reconocimiento continuo de escritura a mano celebrado en ICDAR 2009, la red neuronal multidimensional profunda de memoria a corto plazo ganó tres de los juegos sin ningún conocimiento previo [17][18].

Sven Baker propuso un modelo piramidal abstracto neuronal que solo se basa en símbolos de gradiente durante el entrenamiento para resolver los problemas de reconstrucción de imágenes y localización de rostros [19].

Otros métodos también utilizan un entrenamiento previo no supervisado para construir redes neuronales para descubrir características efectivas y luego utilizan la retropropagación supervisada para distinguir los datos etiquetados. El modelo profundo propuesto por Hinton et al. en 2006 propone un método para aprender representaciones de alto nivel utilizando variables latentes de múltiples capas. Este método utiliza la máquina restringida de Boltzmann [20] propuesta por Smolensky en 1986 para modelar cada capa que contiene características de alto nivel. El modelo garantiza que el límite inferior de la probabilidad logarítmica de los datos aumenta a medida que aumenta el número de capas. Cuando se aprenden suficientes capas, esta estructura profunda se convierte en un modelo generativo que puede reconstruir todo el conjunto de datos mediante un muestreo de arriba hacia abajo [21]. Hinton afirmó que este modelo puede extraer eficazmente características de datos estructurados de alta dimensión [22].

El equipo de Google Brain dirigido por Andrew Ng y Jeff Dean creó una red neuronal que aprendía conceptos de alto nivel (como gatos) únicamente a partir de vídeos de YouTube [23] [veinticuatro].

Otros métodos se basan en la poderosa potencia informática de las computadoras electrónicas modernas, especialmente las GPU. En 2010, en el grupo de investigación de Jürgen Schmidhuber en el laboratorio suizo de inteligencia artificial IDSIA, Dan Ciresan y sus colegas demostraron el uso de GPU para ejecutar directamente el algoritmo de retropropagación e ignorar el problema de desaparición de gradientes. Este método venció a otros métodos existentes en el conjunto de datos MNIST de reconocimiento de escritura proporcionado por Yan Lecun et al.

A partir de 2011, el último método en el aprendizaje profundo de redes neuronales feedforward es utilizar alternativamente capas convolucionales y capas de agrupación máxima y agregar una capa de clasificación pura como parte superior. El proceso de formación tampoco requiere la introducción de una formación previa no supervisada [25][26]. Desde 2011, la implementación de este método en GPU [25] ha ganado múltiples concursos de reconocimiento de patrones, incluido el Concurso de reconocimiento de señales de tráfico IJCNN 2011 [27] y otros concursos.

Estos algoritmos de aprendizaje profundo son también los primeros en alcanzar el mismo nivel de competitividad que el desempeño humano en determinadas tareas de reconocimiento [28].

Estructura de aprendizaje profundo[editar]

Una red neuronal profunda es una red neuronal con al menos una capa oculta. Al igual que las redes neuronales superficiales, las redes neuronales profundas también pueden proporcionar modelado para sistemas no lineales complejos, pero las capas adicionales proporcionan un mayor nivel de abstracción para el modelo, mejorando así las capacidades del modelo. Las redes neuronales profundas suelen ser redes neuronales feedforward, pero también existen estudios sobre modelado del lenguaje y otros aspectos que las extienden a redes neuronales recurrentes [29]. Las redes de neuronas convolucionales (CNN) se han utilizado con éxito en el campo de la visión por computadora [30]. Desde entonces, las redes neuronales convolucionales también se han utilizado como modelos auditivos en el campo del reconocimiento automático de voz, logrando mejores resultados que los métodos anteriores [31].

Redes neuronales profundas[editar]

Las redes neuronales profundas (DNN) son un modelo discriminativo que se puede entrenar utilizando el algoritmo de retropropagación. La actualización del peso se puede resolver mediante un descenso de gradiente estocástico utilizando la siguiente fórmula:

Donde, es la tasa de aprendizaje y es la función de costo. La elección de esta función está relacionada con el tipo de aprendizaje (por ejemplo, aprendizaje supervisado, aprendizaje no supervisado, aprendizaje por refuerzo) y la función de activación. Por ejemplo, para realizar aprendizaje supervisado en un problema de clasificación múltiple, una opción común es utilizar la función softmax como función de activación y la entropía cruzada como función de costo. La función Softmax se define como, donde representa la probabilidad de la categoría y y representa la entrada a la unidad y respectivamente. La entropía cruzada se define como, donde representa la probabilidad objetivo de la unidad de salida y representa la probabilidad de salida de la unidad después de aplicar la función de activación [32].

Problemas con las redes neuronales profundas[editar]

Al igual que otros modelos de redes neuronales, las redes neuronales profundas pueden tener muchos problemas si simplemente se entrenan. Dos tipos comunes de problemas son el sobreajuste y el tiempo excesivo de computación.

Las redes neuronales profundas son propensas a sobreajustarse porque las capas de abstracción agregadas permiten que el modelo modele dependencias que son poco comunes en los datos de entrenamiento. En este sentido, se pueden utilizar métodos como la reducción de peso (regularización) o la escasez de peso (-regularización) en el proceso de entrenamiento para reducir el fenómeno de sobreajuste [33]. Otro método de regularización posterior utilizado en el entrenamiento de redes neuronales profundas es el método de regularización de "abandono", que descarta aleatoriamente una parte de las unidades de la capa oculta durante el entrenamiento para evitar modelar dependencias raras [34].

El algoritmo de retropropagación y el método de descenso de gradiente se han convertido en métodos populares para el entrenamiento de redes neuronales debido a su implementación simple y su capacidad de converger a mejores valores óptimos locales en comparación con otros métodos. Sin embargo, estos métodos son computacionalmente costosos, especialmente cuando se entrenan redes neuronales profundas, ya que es necesario analizar muchos parámetros, como el tamaño de la red neuronal profunda (es decir, el número de capas y nodos por capa), la tasa de aprendizaje, los pesos iniciales, etc. consideró. Escanear todos los parámetros no es factible debido al costo de tiempo, por lo que se utiliza mini lotes, que combina múltiples muestras de entrenamiento en lugar de usar solo una muestra a la vez, para acelerar el entrenamiento del modelo [35]. La mejora de velocidad más significativa proviene de la GPU, porque los cálculos matriciales y vectoriales son muy adecuados para implementarse utilizando la GPU. Sin embargo, todavía existen dificultades en el uso de clústeres a gran escala para entrenar redes neuronales profundas, por lo que todavía hay margen de mejora en la paralelización del entrenamiento de redes neuronales profundas.

Red de creencias profundas[editar]

Una máquina de Boltzmann restringida (RBM) que contiene capas visibles y ocultas completamente conectadas. Tenga en cuenta que las unidades de capa visible y las unidades de capa oculta no están conectadas entre sí internamente.

Las redes de creencias profundas (DBN) son un modelo generativo probabilístico que contiene múltiples capas de unidades ocultas, que puede considerarse como un modelo compuesto compuesto por múltiples capas de modelos de aprendizaje simples [36].

La red de creencias profundas se puede utilizar como parte de preentrenamiento de la red neuronal profunda y proporcionar pesos iniciales para la red, y luego usar retropropagación u otros algoritmos de decisión como medio de ajuste. Esto es valioso cuando los datos de entrenamiento son escasos, porque los pesos de inicialización inadecuados pueden afectar significativamente el rendimiento del modelo final, y los pesos obtenidos mediante el entrenamiento previo están más cerca de los pesos óptimos en el espacio de pesos que los pesos aleatorios. Esto no solo mejora el rendimiento del modelo, sino que también acelera la velocidad de convergencia de la fase de sintonización [37].

Cada capa de la red de creencias profundas es una máquina de Boltzmann (RBM) restringida típica y se puede entrenar utilizando un método de entrenamiento eficiente capa por capa no supervisado. La máquina de Boltzmann restringida es un modelo generativo basado en energía no dirigida que contiene una capa de entrada y una capa oculta. Los pares de bordes en el gráfico solo existen entre la capa de entrada y la capa oculta, pero no hay bordes dentro de los nodos de la capa de entrada ni dentro de los nodos de la capa oculta. El método de entrenamiento de RBM de una sola capa fue propuesto originalmente por Jeffrey Hinton en el entrenamiento de "productos expertos" y se llama divergencia de contraste (CD). La divergencia contrastiva proporciona una aproximación a la máxima verosimilitud y se utiliza idealmente para aprender pesos para máquinas de Boltzmann restringidas [35]. Cuando se entrena una sola capa de RBM, se puede apilar otra capa de RBM sobre el RBM ya entrenado para formar un modelo de múltiples capas. Cada vez que se apila, la capa de entrada de la red multicapa original se inicializa como muestra de entrenamiento y los pesos son los pesos obtenidos durante el entrenamiento anterior. La salida de la red se utiliza como entrada del nuevo RBM. El nuevo RBM repite el proceso de entrenamiento de una sola capa anterior. El proceso completo puede continuar hasta que se alcance alguna condición de terminación deseada [38].

Aunque la divergencia contrastiva es una aproximación muy aproximada de la máxima verosimilitud (la divergencia contrastiva no está en la dirección del gradiente de ninguna función), los resultados empíricos confirman que este método es un método eficaz para entrenar estructuras profundas [ 35] .

Redes neuronales convolucionales[editar]

Artículo principal: Redes neuronales convolucionales

Las redes neuronales convolucionales (CNN) constan de una o más Consta de una capa convolucional y una capa completamente conectada en la parte superior (correspondiente a una red neuronal clásica), y también incluye pesos asociados y capas de agrupación. Esta estructura permite que las redes neuronales convolucionales exploten la estructura bidimensional de los datos de entrada. En comparación con otras estructuras de aprendizaje profundo, las redes neuronales convolucionales pueden dar mejores resultados en el reconocimiento de imágenes y voz. Este modelo también se puede entrenar utilizando el algoritmo de retropropagación. En comparación con otras redes neuronales profundas de retroalimentación, las redes neuronales convolucionales requieren menos parámetros para estimar, lo que las convierte en una estructura atractiva de aprendizaje profundo [39].

Redes convolucionales de creencias profundas[editar]

Las redes convolucionales de creencias profundas (CDBN) son una rama más nueva en el campo del aprendizaje profundo. Estructuralmente, las redes convolucionales de creencias profundas son estructuralmente similares a las redes neuronales convolucionales. Por lo tanto, de manera similar a las redes neuronales convolucionales, las redes convolucionales de creencias profundas también tienen la capacidad de utilizar la estructura bidimensional de imágenes. Al mismo tiempo, las redes convolucionales de creencias profundas también tienen la ventaja del entrenamiento previo de las redes de creencias profundas. Las redes convolucionales de creencias profundas proporcionan una estructura general que se puede utilizar para tareas de procesamiento de señales e imágenes, y también se pueden entrenar utilizando métodos de entrenamiento similares a las redes de creencias profundas [40].

Resultados[editar]

Reconocimiento de voz[editar]

Los resultados de la siguiente tabla muestran los resultados del aprendizaje profundo en el popular conjunto de datos TIMIT. TIMIT contiene datos del habla de 630 personas que hablan ocho acentos comunes del inglés americano, cada uno de los cuales lee 10 oraciones. Estos datos se utilizaron a menudo para verificar la estructura del aprendizaje profundo al comienzo del desarrollo del aprendizaje profundo [41]. El conjunto de datos TIMIT es más pequeño, lo que permite a los investigadores experimentar con diferentes configuraciones de modelo.

Método

Tasa de error acústico (PER, )

RNN 26.1 inicializado aleatoriamente

Trífono bayesiano GMM-HMM 25.6

Inicialización repetida del monofono DNN 23.4

Monófono DBN-DNN 22.4

GMM-HMM de tres teléfonos con entrenamiento BMMI 21.7

***Monofono DBN- DNN 20.7 en Xiangchi

DNN 20.0 convolucional

Clasificación de imágenes[editar]

En el campo de la clasificación de imágenes Un conjunto de datos de referencia comúnmente aceptado es el conjunto de datos MNIST. MNIST consta de números arábigos escritos a mano y contiene 60.000 muestras de entrenamiento y 10.000 muestras de prueba. Al igual que TIMIT, el tamaño de sus datos es más pequeño, lo que facilita las pruebas en diferentes configuraciones de modelo. El sitio web de Yann LeCun ofrece resultados experimentales obtenidos mediante diversos métodos [42]. A partir de 2012, el mejor resultado de discriminación lo dieron Ciresan et al en ese año, y la tasa de error de este resultado alcanzó 0,23 [43].

Aprendizaje profundo y neurociencia[editar]

El aprendizaje profundo en el campo de la informática y la teoría del desarrollo cerebral propuesta por investigadores de neurociencia cognitiva en la década de 1990 (especialmente la teoría del desarrollo cortical) están estrechamente relacionados [ 44]. La teoría se comprende mejor en la monografía de Jeffrey Elman de 1996 Rethinking Innateness [45] (ver Slager y Johnson [46] y la formulación de Kuez y Sejenowsky [47]). Debido a que estas teorías brindan modelos computacionales neuronales prácticos, son precursoras tecnológicas de modelos de aprendizaje profundo puramente computacionales. Estas teorías afirman que las neuronas del cerebro están organizadas en diferentes capas que están interconectadas para formar un sistema de filtrado. En estas capas, las neuronas de cada capa obtienen parte de la información de su entorno, la procesan y luego la pasan a niveles más profundos. Esto es similar a los modelos posteriores de redes neuronales profundas que están relacionados puramente computacionalmente. El resultado de este proceso es una pila de convertidores autoorganizados que están en sintonía con su entorno. Como se publicó en el New York Times en 1995, "...el cerebro del bebé parece autoorganizarse bajo la influencia de los llamados 'factores nutricionales'... Diferentes áreas del cerebro están conectadas a su vez, y diferentes niveles del tejido cerebral siguen ciertos patrones. Maduran secuencialmente hasta que todo el cerebro madura."[48]

La importancia de la estructura profunda en la evolución y el desarrollo de la cognición humana también es motivo de preocupación para los neurocientíficos cognitivos. Se cree que las alteraciones en el ritmo del desarrollo son un aspecto de las diferencias en el desarrollo intelectual entre humanos y otros primates [49]. Entre los primates, el cerebro humano es plástico mucho después del nacimiento, pero el cerebro de otros primates está casi completamente configurado al nacer. Por lo tanto, los humanos están expuestos a escenarios externos más complejos durante las etapas más plásticas del desarrollo del cerebro, lo que puede ayudar al cerebro humano a adaptarse a entornos que cambian rápidamente, en lugar de estar más influenciado por la estructura genética como lo hacen los cerebros de otros animales. Estas diferencias en el ritmo del desarrollo también se reflejan en cambios en el ritmo del desarrollo de la corteza cerebral y en la autoorganización temprana del cerebro para adquirir información del entorno estimulante. Por supuesto, esta plasticidad va acompañada de un período más largo de la infancia, durante el cual la persona depende de cuidadores y grupos sociales para recibir apoyo y formación. Por tanto, esta teoría también revela el fenómeno de la coevolución de la cultura y la conciencia en la evolución humana [50].

El aprendizaje profundo ante el público[editar]

El aprendizaje profundo a menudo se considera un paso importante hacia la verdadera inteligencia artificial [51], por lo que muchas instituciones tienen poca comprensión de la práctica real. de aprendizaje profundo. Tener un gran interés en la aplicación.

En diciembre de 2013, Facebook anunció la contratación de Yan Lecun como director de su nuevo laboratorio de inteligencia artificial. Este laboratorio establecerá sucursales en California, Londres y Nueva York para ayudar a Facebook a investigar el uso de algoritmos de aprendizaje profundo para tareas como el etiquetado automático. de fotografías. Dichas tareas incluyen nombres de usuario [52].

En marzo de 2013, Jeffrey Hinton y dos de sus estudiantes de posgrado, Alex Krizewski e Ilya Sutskova, fueron contratados por Google para mejorar los productos de aprendizaje automático existentes y ayudar a procesar los crecientes datos de Google. Google también adquirió DNNresearch, una empresa fundada por Hinton [53].

Críticas[editar]

La principal crítica al aprendizaje profundo es que muchos métodos carecen de sustento teórico. La mayoría de las arquitecturas profundas son sólo algunas variaciones del descenso de gradientes. Aunque el descenso de gradiente se ha estudiado en profundidad, otros algoritmos implicados en la teoría, como el algoritmo de divergencia contrastiva, no se han estudiado en profundidad, y cuestiones como su convergencia aún no están claras. Los métodos de aprendizaje profundo a menudo se consideran cajas negras y la mayor parte de la confirmación de las conclusiones está determinada por la experiencia más que por la teoría.

Algunos académicos creen que el aprendizaje profundo debe considerarse como un camino hacia la verdadera inteligencia artificial en lugar de una solución integral. Aunque el aprendizaje profundo tiene capacidades sólidas, todavía carece de muchas capacidades importantes en comparación con la inteligencia artificial real. El psicólogo teórico Gary Marcus señala:

En realidad, el aprendizaje profundo es sólo una parte del desafío más amplio de construir máquinas inteligentes. Estas tecnologías carecen de los medios para expresar relaciones de causa y efecto... carecen de los medios para hacer inferencias lógicas y están lejos de estar equipadas para integrar conocimientos abstractos como información sobre las propiedades, la representación y los usos típicos de un artículo. Los sistemas de inteligencia artificial más potentes, como el sistema de inteligencia artificial Watson de IBM, sólo utilizan el aprendizaje profundo como componente de un conjunto complejo de técnicas que incluyen el razonamiento bayesiano y el razonamiento deductivo [54].