Red neuronal artificial del algoritmo de red neuronal
Las neuronas, al igual que otros tipos de células, incluyen una membrana celular, un citoplasma y un núcleo. Sin embargo, las células nerviosas tienen una forma especial y tienen muchos procesos, por lo que se dividen en tres partes: cuerpo celular, axón y dendrita. Hay un núcleo en la célula y la función de las protuberancias es transmitir información. Las dendritas son las protuberancias que introducen señales de entrada, mientras que los axones son las protuberancias que sirven como terminales de salida. Sólo hay una dendrita.
Las dendritas son extensiones del cuerpo celular que se van estrechando desde el cuerpo celular. Todas las partes de su longitud pueden conectarse a las terminales de los axones de otras neuronas, formando lo que se llama "sinapsis". En una sinapsis, dos neuronas no están conectadas, sino que son sólo el punto de conexión donde se produce la transferencia de información. El espacio entre las interfaces de contacto es de aproximadamente (15 ~ 50) × 10 metros. Las sinapsis se pueden dividir en tipos excitadores e inhibidores, correspondientes a la polaridad de acoplamiento entre neuronas. El número de sinapsis por neurona es normal, hasta 10. Las conexiones entre las neuronas varían en fuerza y polaridad y se pueden ajustar. En base a esta característica, el cerebro humano tiene la función de almacenar información. Las redes neuronales artificiales, compuestas por un gran número de neuronas interconectadas, pueden mostrar ciertas características del cerebro humano.
La red neuronal artificial es un sistema dinámico adaptativo no lineal compuesto por una gran cantidad de elementos básicos simples: las neuronas. La estructura y función de cada neurona es simple, pero el comportamiento del sistema producido por una gran cantidad de neuronas es muy complejo.
La red neuronal artificial refleja algunas características básicas de la función del cerebro humano, pero no es una descripción realista de los sistemas biológicos, sino una especie de imitación, simplificación y abstracción.
En comparación con las computadoras digitales, los principios de composición y las características funcionales de las redes neuronales artificiales están más cerca del cerebro humano. No realiza operaciones paso a paso según un programa determinado, pero puede adaptarse por sí solo al entorno, resumir reglas y completar algunas operaciones, identificación o control de procesos.
Las redes neuronales artificiales primero deben aprender de acuerdo con ciertos criterios de aprendizaje antes de poder funcionar. Tomando como ejemplo el reconocimiento de las letras "A" y "B" escritas por una red neuronal artificial, se especifica que "A" genera "1" y "B" genera "0".
Entonces, el principio del aprendizaje en red debería ser: si la red hace un juicio equivocado, la red debería utilizar el aprendizaje en red para reducir la posibilidad de cometer el mismo error la próxima vez. Primero, asigne a cada peso de conexión de la red un valor aleatorio en el intervalo de (0, 1) e ingrese el patrón de imagen correspondiente a "a" en la red. La red pondera y agrega los patrones de entrada, los compara con un umbral y luego realiza operaciones no lineales para obtener la salida de la red. En este caso, la probabilidad de que la salida de la red sea "1" y "0" es del 50% respectivamente, lo que significa que es completamente aleatoria. En este momento, si la salida es "1" (el resultado es correcto), el peso de la conexión aumenta para que la red aún pueda hacer un juicio correcto cuando vuelva a encontrar la entrada del modo "A".
Si la salida es "0" (es decir, el resultado es incorrecto), ajuste el peso de la conexión de red en la dirección de reducir el peso de entrada integral, con el objetivo de reducir el riesgo de que la red haga lo mismo. cometa un error la próxima vez que encuentre la posibilidad de entrada en modo "A". Con este ajuste de operación, cuando se ingresan en secuencia varias letras escritas a mano "A" y "B" en la red, y después de aprender varias veces a través de la red de acuerdo con el método de aprendizaje anterior, la precisión del juicio de la red mejorará enormemente. .
Esto muestra que la red ha aprendido con éxito estos dos patrones y los ha memorizado en cada peso de conexión de la red. Cuando la red vuelve a encontrar cualquiera de estos patrones, puede realizar juicios e identificaciones rápidas y precisas. En términos generales, cuantas más neuronas contiene una red, más patrones puede recordar y reconocer. (1) El cerebro humano tiene una gran adaptabilidad y características de autoorganización, y el aprendizaje y la formación adquiridos pueden desarrollar muchas funciones de actividad únicas. Por ejemplo, los ciegos son sensibles al oído y al tacto; los sordos son buenos en el uso de gestos; los atletas bien entrenados pueden mostrar habilidades motoras extraordinarias, etc.
La funcionalidad de una computadora común depende de los conocimientos y habilidades proporcionados en el programa. Evidentemente, planificar actividades inteligentes resumiendo será muy difícil.
Las redes neuronales artificiales también tienen capacidades preliminares de adaptación y autoorganización. Cambiar los pesos sinápticos durante el aprendizaje o el entrenamiento para adaptarse a los requisitos del entorno circundante. Una misma red puede tener diferentes funciones debido a diferentes métodos y contenidos de aprendizaje. Una red neuronal artificial es un sistema con la capacidad de aprender y desarrollar conocimientos más allá del nivel de conocimiento original del diseñador. Generalmente, sus métodos de aprendizaje y formación se pueden dividir en dos tipos. Uno es el aprendizaje supervisado o supervisado, donde se utiliza un criterio de muestra determinado para clasificación o imitación. El otro es el aprendizaje no supervisado o el aprendizaje con tutores no supervisados. En este momento, solo se especifican métodos de aprendizaje o algunas reglas, y el contenido de aprendizaje específico cambia con el entorno en el que se encuentra el sistema (es decir, la situación de la señal de entrada). El sistema puede descubrir automáticamente características y patrones ambientales, que son más similares a las funciones del cerebro humano.
(2) Capacidad de generalización
La capacidad de generalización se refiere a la capacidad de predecir y controlar muestras no entrenadas. Especialmente cuando hay algunas muestras ruidosas, la red tiene una buena capacidad de predicción.
(3) Capacidades de mapeo no lineal
Cuando el sistema es muy completo o claro para el diseñador, generalmente se utilizan herramientas matemáticas como el análisis numérico y las ecuaciones diferenciales parciales para establecer un modelo matemático preciso. . Sin embargo, cuando el sistema es complejo, desconocido o la cantidad de información es pequeña, es difícil establecer un modelo matemático preciso. La capacidad de mapeo no lineal de las redes neuronales tiene ventajas porque no requiere una comprensión profunda del sistema, pero al mismo tiempo puede realizar la relación de mapeo entre entrada y salida, lo que simplifica enormemente la dificultad del diseño.
(4) Alto paralelismo
El paralelo es controvertido. Razones para reconocer el paralelismo: las redes neuronales son modelos matemáticos abstraídos del cerebro humano. Dado que las personas pueden hacer una cosa al mismo tiempo, desde la perspectiva de la simulación funcional, las redes neuronales también deberían tener un fuerte paralelismo.
Durante muchos años, la gente ha intentado comprender y responder a las preguntas anteriores desde las perspectivas de la medicina, la biología, la fisiología, la filosofía, la informática, la informática, la cognición y la sinergia organizacional. En la búsqueda de respuestas a las preguntas anteriores, a lo largo de los años ha evolucionado un nuevo campo interdisciplinario de tecnología llamado "redes neuronales". La investigación sobre redes neuronales involucra múltiples disciplinas, que se combinan, penetran y promueven entre sí. Los científicos de diferentes campos plantean diferentes preguntas y realizan investigaciones desde diferentes ángulos según los intereses y características de sus respectivas disciplinas.
Comparemos las características de funcionamiento de las redes neuronales artificiales y las computadoras en general:
En términos de velocidad, la velocidad de transmisión de información entre las neuronas del cerebro humano es mucho menor que la de las computadoras. , del orden de milisegundos, este último alcanza a menudo cientos de megahercios. Sin embargo, debido a que el cerebro humano es un sistema de procesamiento paralelo y en serie a gran escala, puede emitir juicios, decisiones y procesar rápidamente muchos problemas, y su velocidad es mucho mayor que la de las computadoras ordinarias con una estructura en serie. La estructura básica de la red neuronal artificial imita la del cerebro humano y tiene las características de procesamiento paralelo, lo que puede aumentar considerablemente la velocidad de trabajo.
La característica del almacenamiento de información del cerebro humano es utilizar cambios en la eficiencia sináptica para ajustar el contenido del almacenamiento, es decir, la información se almacena en la distribución de las intensidades de conexión entre las neuronas y el área de almacenamiento y la computadora. área están integradas. Aunque una gran cantidad de células nerviosas mueren cada día en el cerebro humano (un promedio de aproximadamente 1000 por hora), esto no afecta las actividades normales de pensamiento del cerebro.
Las computadoras comunes tienen memorias y unidades aritméticas independientes, y el almacenamiento de conocimientos y las operaciones de datos no están relacionados entre sí. Sólo los programas escritos por humanos pueden comunicarse entre sí y esta comunicación no puede superar las expectativas del programador. Los daños locales a los componentes y los errores menores en los procedimientos pueden provocar trastornos graves. El propósito de los psicólogos y científicos cognitivos que estudian las redes neuronales es explorar el mecanismo del cerebro humano que procesa, almacena y busca información, dilucidar el mecanismo de la función del cerebro humano y establecer una teoría microestructural de los procesos cognitivos humanos.
Los expertos en biología, medicina y ciencias del cerebro intentan promover el desarrollo de la ciencia del cerebro hacia un sistema cuantitativo, preciso y teórico a través del estudio de redes neuronales, y también esperan nuevos avances en la medicina clínica; procesamiento de información e informática El propósito del estudio de este problema es encontrar nuevos métodos para resolver una gran cantidad de problemas irresolubles o extremadamente difíciles y construir una nueva generación de computadoras que se acerquen más a las funciones del cerebro humano.
Los primeros trabajos de investigación sobre redes neuronales artificiales se remontan a la década de 1940. La siguiente es una breve introducción a la historia del desarrollo de las redes neuronales artificiales en orden cronológico, utilizando figuras famosas o resultados de investigación destacados como pistas.
En 65438-0943, el psicólogo W. McCulloch y el lógico matemático W. Pitts propusieron por primera vez un modelo matemático de neuronas basado en el análisis y el resumen de las características básicas de las neuronas. Este modelo todavía se utiliza hoy en día y afecta directamente al progreso de la investigación en este campo. Por lo tanto, los dos pueden considerarse pioneros en la investigación de redes neuronales artificiales.
Desde 65438 hasta 0945, el equipo de diseño dirigido por von Neumann produjo con éxito una computadora electrónica con programa almacenado, lo que marcó el comienzo de la era de la computadora electrónica. En 1948, en su trabajo de investigación, comparó las diferencias fundamentales entre la estructura del cerebro humano y las computadoras con programas almacenados y propuso una estructura de red de autómatas regenerativos compuesta de neuronas simples. Sin embargo, debido al rápido desarrollo de la tecnología informática de almacenamiento de instrucciones, abandonó el nuevo enfoque de la investigación de redes neuronales y continuó dedicándose a la investigación de la tecnología informática de almacenamiento de instrucciones e hizo grandes contribuciones en este campo. Aunque el nombre de von Neumann está asociado a los ordenadores corrientes, también fue uno de los pioneros de la investigación de las redes neuronales artificiales.
A finales de los años 50, F. Rosenblatt diseñó y fabricó un "perceptrón", que es una red neuronal multicapa. Este trabajo impulsó por primera vez la investigación sobre redes neuronales artificiales de la discusión teórica a la práctica de la ingeniería. En ese momento, muchos laboratorios de todo el mundo siguieron su ejemplo en la construcción de perceptrones y los aplicaron para investigar el reconocimiento de caracteres, el reconocimiento de voz, el reconocimiento de señales de sonar y problemas de aprendizaje y memoria. Sin embargo, el clímax de la investigación de las redes neuronales artificiales no duró mucho y muchas personas abandonaron el trabajo de investigación en esta área. Debido a que el desarrollo de las computadoras digitales estaba en su apogeo en ese momento, muchas personas creyeron erróneamente que las computadoras digitales podían resolver la inteligencia artificial. , reconocimiento de patrones y problemas de expertos. Todos los problemas con el sistema, etc., hicieron que se ignorara el trabajo del perceptrón. En segundo lugar, el nivel de tecnología electrónica en ese momento estaba relativamente atrasado y los componentes principales eran tubos de electrones o transistores. La red neuronal que crearon era enorme y costosa, por lo que no había manera de que fuera similar en escala a una red neuronal real. Además, un libro titulado "Perceptrones de 65438 a 0968" señala que el papel de los perceptrones lineales es limitado y no pueden resolver problemas básicos como las sensaciones extrañas. Las redes multicapa no pueden encontrar métodos de cálculo efectivos. Estas controversias han llevado a un gran número de investigadores a perder la confianza en las perspectivas de las redes neuronales artificiales. A finales de la década de 1960, la investigación sobre redes neuronales artificiales entró en su punto más bajo.
Además, a principios de la década de 1960, Widrow propuso la red de elementos lineales adaptativos, que es una red de umbral de suma lineal ponderada con valores continuos. Posteriormente, se desarrolló una red adaptativa multicapa no lineal sobre esta base. Aunque el nombre de red neuronal no estaba marcado en estos trabajos en ese momento, en realidad era un modelo de red neuronal artificial.
Con la disminución del interés de la gente por los perceptrones, la investigación sobre redes neuronales ha permanecido en silencio durante mucho tiempo. A principios de la década de 1980, la tecnología de fabricación VLSI híbrida analógica y digital se elevó a un nuevo nivel y se puso en aplicación práctica. Además, el desarrollo de las computadoras digitales encontró dificultades en varios campos de aplicación. Estos antecedentes muestran que ha llegado el momento de encontrar una salida a las redes neuronales artificiales. El físico estadounidense Hopfield publicó dos artículos sobre redes neuronales artificiales en las Actas de la Academia Nacional de Ciencias en 1982 y 1984, que provocaron una gran respuesta. Existe una conciencia renovada sobre el poder de las redes neuronales y la realidad de sus aplicaciones. Inmediatamente, un gran número de académicos e investigadores llevaron a cabo nuevos trabajos en torno al método propuesto por Hopfield, generando un auge de la investigación en redes neuronales artificiales desde mediados de los años 1980.
En 1985, Ackley, Hinton y Sejnowski aplicaron el algoritmo de recocido simulado al entrenamiento de redes neuronales y propusieron la máquina de Boltzmann. La ventaja de este algoritmo es evitar caer en valores extremos, pero el tiempo de entrenamiento lleva mucho tiempo.
En 1986, Rumelhart, Hinton y Williams propusieron un algoritmo de aprendizaje de red neuronal feedforward multicapa, el algoritmo BP. La corrección del algoritmo se deduce desde la perspectiva de la prueba, que proporciona una base teórica para el aprendizaje de algoritmos. Desde la perspectiva de los algoritmos de aprendizaje, esta es una gran mejora.
En 1988, Broomhead y Lowe propusieron por primera vez la red de base radial: la red RBF.
En general, las redes neuronales han experimentado un proceso tortuoso de altibajos y luego a altibajos.