Concepto de modelo grande multimodal

Los modelos grandes multimodales se refieren a modelos que se entrenan combinando información multimodal como texto, imágenes, videos y audios.

El 21 de junio de 2023, según la revista Science and Technology Innovation Board, el equipo de investigación y desarrollo de tecnología de Ant Group está desarrollando su propio lenguaje y un gran modelo multimodal, que internamente se denomina Yizhen. La modalidad es una forma de expresión de las cosas y la multimodalidad generalmente incluye dos o más formas modales para describir las cosas desde múltiples perspectivas. La representación multimodal es común en la vida. Por ejemplo, los datos de los sensores incluyen no solo texto e imágenes, sino también información coincidente sobre temperatura y profundidad.

El uso de datos multimodales puede hacer que las cosas sean más tridimensionales y completas. La investigación multimodal se ha convertido en un aspecto importante de la investigación actual, con logros en direcciones de vanguardia como el análisis de sentimientos y las máquinas. traducción, procesamiento del lenguaje natural y biomedicina. Transformer se propuso en 2017, subvirtiendo el modelo tradicional de aprendizaje profundo y logrando el mejor rendimiento en tareas de traducción automática.

Una revisión de grandes modelos multimodales

El objetivo principal de la representación es convertir varios datos en una forma numérica que el modelo pueda entender. La representación unimodal es responsable de representar información en vectores numéricos que el modelo puede procesar o abstraerla aún más en vectores de características de nivel superior, mientras que la representación multimodal se refiere a utilizar la complementariedad entre modos para eliminar la redundancia entre modos, aprendiendo así una mejor caracterización.

Actualmente la representación se puede dividir en tres métodos. Una es fusionar información de múltiples modos, generalmente utilizados en diferentes modos en la misma escena, para ayudar a encontrar la complementariedad de diferentes modos. La segunda es la representación colaborativa, que asigna cada patrón en múltiples patrones a su propio espacio de representación, pero el vector mapeado satisface ciertas restricciones de correlación. La estructura de representación colaborativa no busca la fusión sino la correlación entre patrones. La tercera es la representación de fisión, que crea un nuevo conjunto de tablas disjuntas, y el conjunto de salida suele ser mayor que el conjunto de entrada.