Explicación de la terminología de modelado de sistemas biológicos
El problema básico del alineamiento de secuencias es comparar la similitud o disimilitud de dos o más secuencias de símbolos. Desde el significado original de biología, este problema incluye los siguientes significados: reconstruir la secuencia completa de ADN a partir de fragmentos de secuencia superpuestos; determinar el almacenamiento de mapas físicos y genéticos a partir de datos de sonda en diversas condiciones experimentales, atravesar y comparar secuencias de ADN en la base de datos, comparar las similitud de dos o más secuencias, buscar secuencias y subsecuencias relacionadas en bases de datos, encontrar el patrón de generación continua de nucleótidos, encontrar los componentes de información en secuencias de proteínas y ADN, comparar la biología de secuencias de ADN Características como inserciones y eliminaciones locales (las Los dos primeros se denominan indeles para abreviar) y sustituciones. La función objetivo de la secuencia obtiene la suma mínima ponderada de distancia o la suma máxima de similitud de los conjuntos de variación entre secuencias. Los métodos de alineación incluyen alineación global, alineación local, penalización por brecha generacional, etc. Los algoritmos de programación dinámica se utilizan a menudo para comparar dos secuencias y son adecuados para longitudes de secuencia pequeñas, pero no son adecuados para secuencias genéticas masivas (como secuencias de ADN humano de hasta 109 pb), e incluso la complejidad del algoritmo es lineal. Por tanto, las heurísticas rara vez funcionan.
2. Comparación y predicción de la estructura de proteínas.
El problema básico es comparar la similitud o disimilitud de la estructura espacial de dos o más moléculas de proteínas. La estructura y función de las proteínas están estrechamente relacionadas. Generalmente se cree que las proteínas con funciones similares generalmente tienen estructuras similares. Las proteínas son cadenas largas compuestas de aminoácidos, cuya longitud varía entre 50 y 1000 ~ 3000 AA (aminoácidos). Las proteínas tienen muchas funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, etc. Anticuerpos, etc. La secuencia de aminoácidos determina inherentemente la estructura tridimensional de una proteína. Generalmente se cree que las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y predicción de las proteínas son: comprender las funciones de los organismos en medicina, encontrar objetivos para acoplar fármacos y obtener una mejor ingeniería genética de los cultivos en la agricultura. La síntesis enzimática se utiliza en la industria. La razón para comparar directamente las estructuras de las proteínas es que la estructura tridimensional de una proteína es más estable durante la evolución que la estructura primaria y contiene más información que la secuencia AA. La premisa para estudiar la estructura tridimensional de las proteínas es que la secuencia interna de aminoácidos corresponde a la estructura tridimensional (lo que puede no ser necesariamente cierto). La física se puede explicar en términos de energía mínima. Predecir la estructura de proteínas desconocidas observando y resumiendo las reglas estructurales de proteínas con estructuras conocidas. Tanto el modelado por homología como el subprocesamiento entran en esta categoría. El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más de 30 aminoácidos son iguales), y este último se utiliza para comparar diferentes estructuras de proteínas en familias evolutivas. Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales.
3. Identificación de genes y análisis de regiones no codificantes.
El problema fundamental en la identificación de genes es identificar correctamente el rango y la ubicación exacta de un gen en una secuencia genómica determinada. La región no codificante consta de intrones, que generalmente se descartan después de que se forma la proteína, pero experimentalmente, si se elimina la región no codificante, la duplicación del gen no se puede completar. Obviamente, las secuencias de ADN, como lenguaje genético, no sólo están contenidas en regiones codificantes, sino que también están implícitas en secuencias no codificantes. Actualmente no existen pautas generales para analizar secuencias de ADN en regiones no codificantes. En el genoma humano, no todas las secuencias están codificadas, es decir, algún tipo de plantilla de proteína. La parte codificada solo representa de 3 a 5 de la secuencia genética humana total. Evidentemente, es impensable buscar manualmente una secuencia genética tan grande. Los métodos para detectar regiones codificantes incluyen medir la frecuencia de codones en la región codificante. Cadenas de Markov de primer y segundo orden, ORF (marco de lectura abierto), identificación de promotores, HMM (modelo oculto de Markov) y GENSCAN, alineación de empalme y más.
4. Evolución molecular y genómica comparada
La evolución molecular utiliza las similitudes y diferencias de las mismas secuencias genéticas en diferentes especies para estudiar la evolución de los organismos y construir árboles evolutivos. Esto se puede hacer utilizando la secuencia de ADN o la secuencia de aminoácidos codificada por ella, o incluso mediante una comparación estructural de proteínas relacionadas, bajo la premisa de que razas humanas similares son genéticamente similares. A través de la comparación, puedes descubrir qué es lo mismo entre diferentes razas. ¿Cuál es la diferencia? Los primeros métodos de investigación a menudo utilizaban factores externos, como el tamaño, el color de la piel y el número de extremidades, como base para la evolución.
En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde la perspectiva de todo el genoma. Al emparejar genes de diferentes razas, generalmente tenemos que lidiar con tres situaciones: genes ortólogos: genes de diferentes razas con la misma función; genes parálogos: genes de la misma raza con funciones diferentes; genes heterólogos: genes entre organismos a través de otros medios; genes, como los inyectados por los virus. Un método comúnmente utilizado en este campo es construir un árbol filogenético, a través de métodos basados en características (es decir, las posiciones específicas de las bases de aminoácidos en secuencias de ADN o proteínas) y distancias (puntuaciones de alineación), así como algunos métodos de agrupamiento tradicionales ( como la UPGMA).
5. Ensamblaje del contig de secuencia
Según la tecnología de secuenciación actual, cada reacción sólo puede detectar 500 o más pares de bases. Por ejemplo, el método de la escopeta se utiliza para medir genes humanos, lo que requiere una gran cantidad de secuencias cortas para formar todos los cóntigos. El proceso de empalmarlos gradualmente para formar contigs más largos hasta obtener una secuencia completa se llama ensamblaje de contig. Desde una perspectiva algorítmica, los contigs de secuencia son un problema NP-completo.
6. El Origen del Código Genético
En general, los estudios sobre el código genético creen que la relación entre codones y aminoácidos fue causada por un evento accidental en la historia de la biología. evolución y siempre ha estado fijado en el mismo ancestro de los organismos modernos hasta ahora. A diferencia de esta teoría "congelada", se han propuesto tres teorías para explicar el código genético: la optimización selectiva, la química y la historia. Con la finalización de diversas tareas de secuenciación del genoma biológico, se han proporcionado nuevos materiales para estudiar el origen del código genético y probar la autenticidad de las teorías anteriores.
7. Diseño de fármacos basado en la estructura
Uno de los propósitos de la ingeniería genética humana es comprender la estructura, función e interacción de aproximadamente 654,38 millones de proteínas en el cuerpo humano y sus interacciones con diversas enfermedades de especies humanas y buscar diversos métodos de tratamiento y prevención, incluido el tratamiento farmacológico. El diseño de fármacos basado en la estructura de macromoléculas biológicas y moléculas pequeñas es un campo de investigación extremadamente importante en bioinformática. Para inhibir la actividad de determinadas enzimas o proteínas, se pueden diseñar moléculas inhibidoras como candidatos a fármacos en el ordenador utilizando algoritmos de disposición molecular basados en la estructura terciaria conocida de la proteína. El objetivo de este campo es descubrir nuevos fármacos genéticos que tendrán grandes beneficios económicos.
8. Modelado y simulación de sistemas biológicos
Con el desarrollo de tecnología experimental a gran escala y la acumulación de datos, los sistemas biológicos se estudian y analizan desde los niveles global y sistémico para revelar sus características. reglas de desarrollo, se ha convertido en otro punto de investigación en la era posgenómica: la biología de sistemas. Su contenido de investigación actual incluye simulación de sistemas biológicos (Curr Opin Rheumatol, 2007, 463-70), análisis de estabilidad del sistema (Nonlinear Dynamics Psychological Life Sci, 2007, 413-33) y análisis de robustez del sistema (Ernst Schering Res Found Workshop, 2007, 69-83). El lenguaje de modelado representado por SBML (Bioinformatics, 2007, 1297-8) se ha desarrollado rápidamente, incluyendo redes booleanas (PLoS Comput Biol, 2007, e163), ecuaciones diferenciales (Mol Biol Cell, 2004, 3841-62) y procesos estocásticos. (Neural Comput, 2007, 3262-92), sistemas de eventos dinámicos discretos (Bioinformatics, 2007, 336-43) Ha habido muchos modelos basados en métodos de modelado de sistemas físicos como circuitos. Muchos estudios han intentado aprender del flujo de información. Se pueden utilizar ideas de análisis macroscópico como la entropía y el flujo de energía para resolver la complejidad del sistema (Anal Quant Cytol Histol, 2007, 296-308). Por supuesto, llevará mucho tiempo establecer modelos teóricos de sistemas biológicos. A pesar del aumento masivo de datos de observación experimental, los datos necesarios para la identificación de modelos de sistemas biológicos superan con creces la capacidad actual de producción de datos. Por ejemplo, para los datos de chips de series temporales, la cantidad de puntos de muestreo no es suficiente para utilizar los métodos tradicionales de modelado de series temporales, y el enorme costo experimental es la principal dificultad en el modelado del sistema actual. Los métodos de descripción y modelado de sistemas también requieren un desarrollo pionero.
9. Investigación sobre tecnología y métodos bioinformáticos
La bioinformática no es solo una simple disposición de conocimientos biológicos y una simple aplicación de conocimientos de matemáticas, física, ciencias de la información y otras disciplinas. Los datos masivos y los antecedentes complejos han llevado al rápido desarrollo del aprendizaje automático, el análisis de datos unificados y la descripción de sistemas en el contexto de la bioinformática. La enorme cantidad de cálculos, los patrones de ruido complejos y los datos masivos que varían en el tiempo traen enormes dificultades al análisis estadístico tradicional, que requiere técnicas de análisis de datos más flexibles, como las estadísticas no paramétricas (BMC Bioinformatics, 2007, 339) y el análisis de conglomerados (Qual). Vida Res, 2007, 1655-63). El análisis de datos de alta dimensión requiere técnicas de compresión del espacio de características, como los mínimos cuadrados parciales (PLS). En el desarrollo de algoritmos informáticos, es necesario considerar plenamente la complejidad temporal y espacial del algoritmo y utilizar tecnologías como la computación paralela y la computación en red para ampliar la realizabilidad del algoritmo.
10. Imágenes biológicas
¿Por qué las personas que no están emparentadas por sangre se parecen tanto?
Las apariencias se componen de puntos. Cuantos más puntos se superpongan, más similares se verán. ¿Por qué se superponen estos dos puntos no relacionados?
¿Cuál es la base biológica? ¿Son los genes similares? No lo sé, espero que los expertos puedan responder.
11. Otros
como los perfiles de expresión genética y el análisis de redes metabólicas; el diseño de chips genéticos y el análisis de datos proteómicos se han convertido gradualmente en nuevas e importantes áreas de investigación en bioinformática. En términos de disciplinas, las disciplinas derivadas de la bioinformática incluyen genómica estructural, genómica funcional, genómica comparada, investigación de proteínas, farmacogenómica, genómica de la medicina tradicional china, oncología, epidemiología molecular y genómica ambiental, se ha convertido en un importante método de investigación en biología de sistemas. No es difícil ver, a partir del desarrollo actual, que la ingeniería genética ha entrado en la era posgenómica. También tenemos una comprensión clara de cómo abordar posibles desviaciones en el aprendizaje automático y las matemáticas estrechamente relacionadas con la bioinformática.