¿Biología de la información?
Nombre chino: Bioinformática Nombre en inglés: bioinformática
Definición 1: integrar las teorías y métodos de la informática, la tecnología de la información y las matemáticas para estudiar la información biológica de forma interdisciplinaria. Incluyendo investigación, archivo, visualización, procesamiento y simulación de datos biológicos, procesamiento de mapas genéticos y físicos, análisis de secuencias de nucleótidos y aminoácidos, descubrimiento de nuevos genes y predicción de estructuras de proteínas.
Disciplina: Bioquímica y Biología Molecular (asignatura de primer nivel); Introducción (dos materias)
Definición 2: Uso de la tecnología informática y de la información para desarrollar nuevos algoritmos y métodos estadísticos, a Disciplina que analiza datos experimentales biológicos, determina el significado biológico contenido en los datos, desarrolla nuevas herramientas de análisis de datos y logra la adquisición y gestión de información diversa.
Disciplina: Biología Celular (asignatura de primer nivel); Introducción (dos materias)
Definición 3: Uso de la tecnología informática y de la información para desarrollar nuevos algoritmos y métodos estadísticos para analizar el A biológico. Disciplina que estudia datos experimentales, determina el significado biológico contenido en los datos, desarrolla nuevas herramientas de análisis de datos y logra la adquisición y gestión de información diversa.
Disciplina: Genética (materia de primer nivel); Introducción General (materia de segundo nivel). Este contenido se encuentra aprobado para su publicación por el Comité Nacional de Aprobación de Terminología Científica y Técnica.
La Bioinformática es una disciplina que estudia la recopilación, procesamiento, almacenamiento, difusión, análisis e interpretación de la información biológica. Utiliza de manera integral la biología, la informática y la tecnología de la información para revelar misterios biológicos dotados de una gran cantidad de datos biológicos complejos.
Principales direcciones de investigación
La bioinformática ha formado muchas direcciones de investigación en sólo una docena de años. A continuación se presenta una breve introducción a algunos de los principales puntos críticos de investigación.
1. Alineamiento de secuencias
El problema básico del alineamiento de secuencias es comparar la similitud o disimilitud de dos o más secuencias de símbolos. Desde el significado original de biología, este problema incluye los siguientes significados: reconstruir la secuencia completa de ADN a partir de fragmentos de secuencia superpuestos; determinar el almacenamiento de mapas físicos y genéticos a partir de datos de sonda en diversas condiciones experimentales, atravesar y comparar secuencias de ADN en la base de datos, comparar las similitud de dos o más secuencias, buscar secuencias y subsecuencias relacionadas en bases de datos, encontrar el patrón de generación continua de nucleótidos, encontrar los componentes de información en secuencias de proteínas y ADN, comparar la biología de secuencias de ADN Características como inserciones y eliminaciones locales (las Los dos primeros se denominan indeles para abreviar) y sustituciones. La función objetivo de la secuencia obtiene la suma mínima ponderada de distancia o la suma máxima de similitud de los conjuntos de variación entre secuencias. Los métodos de alineación incluyen alineación global, alineación local, penalización por brecha generacional, etc. Los algoritmos de programación dinámica se utilizan a menudo para comparar dos secuencias y son adecuados para longitudes de secuencia pequeñas, pero no son adecuados para secuencias genéticas masivas (como secuencias de ADN humano de hasta 109 pb), e incluso la complejidad del algoritmo es lineal. Por tanto, las heurísticas rara vez funcionan.
2. Comparación y predicción de estructuras proteicas.
El problema básico es comparar la similitud o disimilitud de las estructuras espaciales de dos o más moléculas de proteínas. La estructura y función de las proteínas están estrechamente relacionadas. Generalmente se cree que las proteínas con funciones similares generalmente tienen estructuras similares. Las proteínas son cadenas largas compuestas de aminoácidos, cuya longitud varía entre 50 y 1000 ~ 3000 AA (aminoácidos). Las proteínas tienen muchas funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, etc. Anticuerpos, etc. La secuencia de aminoácidos determina inherentemente la estructura tridimensional de una proteína. Generalmente se cree que las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y predicción de las proteínas son: comprender las funciones de los organismos en medicina, encontrar objetivos para acoplar fármacos y obtener una mejor ingeniería genética de cultivos en la agricultura. La síntesis enzimática se utiliza en la industria. La razón para comparar directamente las estructuras de las proteínas es que la estructura tridimensional de una proteína es más estable durante la evolución que la estructura primaria y contiene más información que la secuencia AA. La premisa para estudiar la estructura tridimensional de las proteínas es que la secuencia interna de aminoácidos se corresponde uno a uno con la estructura tridimensional (lo que puede no ser necesariamente cierto). La física se puede explicar en términos de energía mínima. Predecir la estructura de proteínas desconocidas observando y resumiendo las reglas estructurales de proteínas con estructuras conocidas. Tanto el modelado por homología como el subprocesamiento entran en esta categoría.
El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más de 30 aminoácidos son idénticos), y este último se utiliza para comparar diferentes estructuras de proteínas en familias evolutivas. Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales.
3. Análisis de regiones no codificantes para la identificación de genes.
El problema fundamental en la identificación de genes es identificar correctamente el rango y la ubicación exacta de un gen en una secuencia genómica determinada. La región no codificante consta de intrones, que generalmente se descartan después de que se forma la proteína, pero experimentalmente, si se elimina la región no codificante, la duplicación del gen no se puede completar. Obviamente, la secuencia de ADN, como una especie de lenguaje genético, no sólo está contenida en regiones codificantes, sino que también está implícita en secuencias no codificantes. Actualmente no existen pautas generales para analizar secuencias de ADN en regiones no codificantes. En el genoma humano, no todas las secuencias están codificadas, es decir, algún tipo de plantilla de proteína. La parte codificada solo representa de 3 a 5 de la secuencia genética humana total. Evidentemente, es impensable buscar manualmente una secuencia genética tan grande. Los métodos para detectar regiones codificantes incluyen medir la frecuencia de codones en la región codificante. Cadenas de Markov de primer y segundo orden, ORF (marco de lectura abierto), identificación de promotores, HMM (modelo oculto de Markov) y GENSCAN, alineación de empalme y más.
4. Evolución molecular y genómica comparada
La evolución molecular utiliza las similitudes y diferencias de las mismas secuencias genéticas en diferentes especies para estudiar la evolución de los organismos y construir árboles evolutivos. Esto se puede hacer utilizando la secuencia de ADN o la secuencia de aminoácidos codificada por ella, o incluso mediante una comparación estructural de proteínas relacionadas, bajo la premisa de que razas humanas similares son genéticamente similares. Al comparar, puedes descubrir qué es lo mismo entre diferentes razas. ¿Cuál es la diferencia? Los primeros métodos de investigación a menudo utilizaban factores externos, como el tamaño, el color de la piel y el número de extremidades, como base para la evolución. En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde la perspectiva de todo el genoma. Al emparejar genes de diferentes razas, generalmente tenemos que lidiar con tres situaciones: genes ortólogos: genes de diferentes razas con la misma función; genes parálogos: genes de la misma raza con funciones diferentes; genes heterólogos: genes entre organismos a través de otros medios; genes, como los inyectados por los virus. Un método comúnmente utilizado en este campo es construir un árbol filogenético, a través de métodos basados en características (es decir, las posiciones específicas de las bases de aminoácidos en secuencias de ADN o proteínas) y distancias (puntuaciones de alineación), así como algunos métodos de agrupamiento tradicionales ( como la UPGMA).
5. Montaje del contig de secuencia
Según la tecnología de secuenciación actual, cada reacción sólo puede detectar 500 o más pares de bases. Por ejemplo, el método de la escopeta se utiliza para medir genes humanos, lo que requiere una gran cantidad de secuencias cortas para formar todos los cóntigos. El proceso de empalmarlos gradualmente para formar contigs más largos hasta obtener una secuencia completa se llama ensamblaje de contig. Desde una perspectiva algorítmica, los contigs de secuencia son un problema NP-completo.
6. El Origen del Código Genético
En general, los estudios sobre el código genético creen que la relación entre codones y aminoácidos fue causada por un evento accidental en la historia de la biología. evolución y siempre ha estado fijado en el mismo ancestro de los organismos modernos hasta ahora. A diferencia de esta teoría "congelada", se han propuesto tres teorías para explicar el código genético: la optimización selectiva, la química y la historia. Con la finalización de diversas tareas de secuenciación del genoma biológico, se han proporcionado nuevos materiales para estudiar el origen del código genético y probar la autenticidad de las teorías anteriores.
7. Diseño de fármacos basado en la estructura
Uno de los propósitos de la ingeniería genética humana es comprender la estructura, función e interacción de aproximadamente 654,38 millones de proteínas en el cuerpo humano y sus interacciones con diversas enfermedades de especies humanas y buscar diversos métodos de tratamiento y prevención, incluido el tratamiento farmacológico. El diseño de fármacos basado en la estructura de macromoléculas biológicas y moléculas pequeñas es un campo de investigación extremadamente importante en bioinformática. Para inhibir la actividad de determinadas enzimas o proteínas, se pueden diseñar moléculas inhibidoras como candidatos a fármacos en el ordenador utilizando algoritmos de disposición molecular basados en la estructura terciaria conocida de la proteína. El objetivo de este campo es descubrir nuevos fármacos genéticos que tendrán grandes beneficios económicos.
8. Modelado y simulación de sistemas biológicos
Con el desarrollo de tecnología experimental a gran escala y la acumulación de datos, los sistemas biológicos se estudian y analizan desde los niveles global y sistémico para revelar sus características. reglas de desarrollo., se ha convertido en otro punto de investigación en la era posgenómica: la biología de sistemas. Su contenido de investigación actual incluye simulación de sistemas biológicos (Curr Opin Rheumatol, 2007, 463-70), análisis de estabilidad del sistema (Nonlinear Dynamics Psychological Life Sci, 2007, 413-33) y análisis de robustez del sistema (Ernst Schering Res Found Workshop, 2007, 69-83). El lenguaje de modelado representado por SBML (Bioinformatics, 2007, 1297-8) se ha desarrollado rápidamente, incluyendo redes booleanas (PLoS Comput Biol, 2007, e163), ecuaciones diferenciales (Mol Biol Cell, 2004, 3841-62) y procesos estocásticos. (Neural Comput, 2007, 3262-92), sistemas de eventos dinámicos discretos (Bioinformatics, 2007, 336-43) Ha habido muchos modelos basados en métodos de modelado de sistemas físicos como circuitos. Muchos estudios han intentado aprender del flujo de información. Se pueden utilizar ideas de análisis macroscópico como la entropía y el flujo de energía para resolver la complejidad del sistema (Anal Quant Cytol Histol, 2007, 296-308). Por supuesto, llevará mucho tiempo establecer modelos teóricos de sistemas biológicos. A pesar del aumento masivo de datos de observación experimentales, los datos necesarios para la identificación de modelos de sistemas biológicos superan con creces la capacidad actual de producción de datos. Por ejemplo, para los datos de chips de series temporales, la cantidad de puntos de muestreo no es suficiente para utilizar los métodos tradicionales de modelado de series temporales, y el enorme costo experimental es la principal dificultad en el modelado del sistema actual. Los métodos de descripción y modelado de sistemas también requieren un desarrollo pionero.
9. Investigación sobre tecnología y métodos bioinformáticos
La bioinformática no es solo una simple disposición de conocimientos biológicos y una simple aplicación de conocimientos de matemáticas, física, ciencias de la información y otras disciplinas. Los datos masivos y los antecedentes complejos han llevado al rápido desarrollo del aprendizaje automático, el análisis de datos unificados y la descripción de sistemas en el contexto de la bioinformática. La enorme cantidad de cálculos, los patrones de ruido complejos y los datos masivos que varían en el tiempo traen enormes dificultades al análisis estadístico tradicional, que requiere técnicas de análisis de datos más flexibles, como las estadísticas no paramétricas (BMC Bioinformatics, 2007, 339) y el análisis de conglomerados (Qual). Vida Res, 2007, 1655-63). El análisis de datos de alta dimensión requiere técnicas de compresión del espacio de características, como los mínimos cuadrados parciales (PLS). En el desarrollo de algoritmos informáticos, es necesario considerar plenamente la complejidad temporal y espacial del algoritmo y utilizar tecnologías como la computación paralela y la computación en red para ampliar la realizabilidad del algoritmo.
10. Imágenes biológicas
¿Por qué las personas que no están emparentadas por sangre se parecen tanto? Las apariencias se componen de puntos. Cuantos más puntos se superpongan, más similares se verán. ¿Por qué se superponen estos dos puntos no relacionados? ¿Cuál es la base biológica? ¿Son los genes similares? No lo sé, espero que los expertos puedan responder.
11. Otros
como los perfiles de expresión genética y el análisis de redes metabólicas; el diseño de chips genéticos y el análisis de datos proteómicos se han convertido gradualmente en nuevas e importantes áreas de investigación en bioinformática. En términos de disciplinas, las disciplinas derivadas de la bioinformática incluyen genómica estructural, genómica funcional, genómica comparada, investigación de proteínas, farmacogenómica, genómica de la medicina tradicional china, oncología, epidemiología molecular y genómica ambiental, se ha convertido en un importante método de investigación en biología de sistemas. No es difícil ver, a partir del desarrollo actual, que la ingeniería genética ha entrado en la era posgenómica. También tenemos una comprensión clara de cómo abordar posibles desviaciones en el aprendizaje automático y las matemáticas estrechamente relacionadas con la bioinformática.
Editar este párrafo Bioinformática y aprendizaje automático
La información biológica a gran escala ha traído nuevos problemas y desafíos a la minería de datos, lo que requiere nuevas ideas. Los algoritmos informáticos tradicionales todavía se pueden aplicar al análisis de datos biológicos, pero son cada vez más inadecuados para el análisis de secuencias.
La razón es que los sistemas biológicos son modelos inherentemente complejos y carecen de una teoría completa de la organización de la vida a nivel molecular. Simon una vez definió el aprendizaje como un cambio en un sistema que lo hace más efectivo al realizar el mismo trabajo. El propósito del aprendizaje automático es obtener automáticamente las teorías correspondientes a partir de los datos. Al adoptar métodos como la inferencia, el ajuste de modelos y el aprendizaje de muestras, es particularmente adecuado para la falta de teoría general, patrones "ruidosos" y conjuntos de datos a gran escala. Por lo tanto, el aprendizaje automático constituye un enfoque viable que complementa los métodos convencionales. El aprendizaje automático permite utilizar computadoras para extraer conocimientos útiles a partir de información biológica masiva y descubrir conocimientos. El análisis de datos multivectorial juega un papel cada vez más importante, pero el procesamiento actual de una gran cantidad de bases de datos genéticas requiere identificación y anotación automática por computadora para evitar métodos de procesamiento manual que requieren mucho tiempo y mano de obra. Los primeros métodos científicos (observación e hipótesis) ya no pueden depender únicamente de la percepción humana para manejar los requisitos de grandes volúmenes de datos, velocidades rápidas de recopilación de datos y análisis objetivos. Por tanto, la combinación de bioinformática y aprendizaje automático es inevitable. El marco teórico más básico del aprendizaje automático se basa en la probabilidad. En cierto sentido, es una continuación del ajuste de modelos estadísticos, cuyo propósito es extraer información útil. El aprendizaje automático está estrechamente relacionado con el reconocimiento de patrones y la inferencia estadística. Los métodos de aprendizaje incluyen la agrupación de datos. Clasificadores de redes neuronales y regresión no lineal, etc. Los modelos ocultos de Markov también se utilizan ampliamente para predecir la estructura genética del ADN. Los enfoques de investigación actuales incluyen: 1) Observar y explorar fenómenos interesantes. El enfoque actual de la investigación de ML es cómo visualizar y extraer datos vectoriales de alta dimensión. El método general consiste en reducir su dimensionalidad a un espacio de baja dimensión, como el análisis de componentes principales (PCA) convencional y el análisis de componentes principales del núcleo (KPCA). Análisis de componentes independientes, incrustación lineal local. 2) Generar hipótesis y modelos formales para explicar fenómenos [6]. La mayoría de los métodos de agrupación pueden verse como una combinación de ajuste de datos vectoriales a alguna distribución simple. Los métodos de agrupamiento se han utilizado en el análisis de datos de microarrays en bioinformática. En ámbitos como la clasificación de tipos de cáncer, el aprendizaje automático también se utiliza para obtener explicaciones correspondientes de fenómenos a partir de bases de datos genéticas. El aprendizaje automático acelera el progreso de la bioinformática y también plantea los problemas correspondientes. La mayoría de los métodos de aprendizaje automático suponen que los datos se ajustan a un modelo relativamente fijo, mientras que las estructuras de datos generales suelen ser variables, especialmente en bioinformática. Por lo tanto, es necesario establecer un conjunto de métodos generales para encontrar la estructura interna de conjuntos de datos que no se basen en estructuras de datos supuestas. En segundo lugar, los métodos de aprendizaje automático suelen utilizar operaciones de "caja negra", como redes neuronales, modelos ocultos de Markov, etc., y el mecanismo intrínseco para obtener soluciones específicas aún no está claro.