¿En qué estructuras de datos se centra el desarrollo de fármacos?
Los resultados son los siguientes:
1. Secuenciación y comparación de secuencias La secuenciación es la base y principal fuente de datos de la bioinformática, que pueden ser datos humanos u otros datos. El problema básico del alineamiento de secuencias es comparar la similitud o disimilitud de dos o más secuencias simbólicas. Desde el significado original de biología, este problema incluye los siguientes significados: reconstruir la secuencia completa de ADN a partir de fragmentos de secuencia superpuestos; determinar el almacenamiento de mapas físicos y genéticos a partir de datos de sonda en diversas condiciones experimentales, atravesar y comparar secuencias de ADN en la base de datos, comparar las similitud de dos o más secuencias, buscar secuencias y subsecuencias relacionadas en bases de datos, encontrar el patrón de generación continua de nucleótidos, encontrar los componentes de información en secuencias de proteínas y ADN, comparar la biología de secuencias de ADN Características como inserciones y eliminaciones locales (las Los dos primeros se denominan indeles para abreviar) y sustituciones. La función objetivo de la secuencia obtiene la suma mínima ponderada de distancia o la suma máxima de similitud de los conjuntos de variación entre secuencias. Los métodos de alineación incluyen alineación global, alineación local, penalización por brecha generacional, etc. Los algoritmos de programación dinámica se utilizan a menudo para comparar dos secuencias y son adecuados para longitudes de secuencia pequeñas, pero no son adecuados para secuencias genéticas masivas (como secuencias de ADN humano de hasta 109 pb), e incluso la complejidad del algoritmo es lineal. Por tanto, las heurísticas rara vez funcionan.
2. Comparación y predicción de la estructura de proteínas.
El problema básico es comparar la similitud o disimilitud de las estructuras espaciales de dos o más moléculas de proteínas. La estructura y función de las proteínas están estrechamente relacionadas. Generalmente se cree que las proteínas con funciones similares generalmente tienen estructuras similares. Las proteínas son cadenas largas compuestas de aminoácidos, cuya longitud varía entre 50 y 1000 ~ 3000 AA (aminoácidos). Las proteínas tienen muchas funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, etc. Anticuerpos, etc. La secuencia de aminoácidos determina inherentemente la estructura tridimensional de una proteína. Generalmente se cree que las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y predicción de las proteínas son: comprender las funciones de los organismos en medicina, encontrar objetivos para acoplar fármacos y obtener una mejor ingeniería genética de los cultivos en la agricultura. La síntesis enzimática se utiliza en la industria. La razón para comparar directamente las estructuras de las proteínas es que la estructura tridimensional de una proteína es más estable durante la evolución que la estructura primaria y contiene más información que la secuencia AA. La premisa para estudiar la estructura tridimensional de las proteínas es que la secuencia interna de aminoácidos corresponde a la estructura tridimensional (lo que puede no ser necesariamente cierto). La física se puede explicar en términos de energía mínima. Predecir la estructura de proteínas desconocidas observando y resumiendo las reglas estructurales de proteínas con estructuras conocidas. Los métodos de modelado de homología y subprocesamiento entran en esta categoría. El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más de 30 aminoácidos son idénticos), y este último se utiliza para comparar diferentes estructuras de proteínas en familias evolutivas. Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales. 3. Identificación de genes.
El problema fundamental en la identificación de genes es identificar correctamente el rango y la ubicación exacta de un gen en una secuencia genómica determinada. La región no codificante consta de intrones, que generalmente se descartan después de que se forma la proteína, pero experimentalmente, si se elimina la región no codificante, la duplicación del gen no se puede completar. Obviamente, las secuencias de ADN, como lenguaje genético, no sólo están contenidas en regiones codificantes, sino que también están implícitas en secuencias no codificantes. Actualmente no existen pautas generales para analizar secuencias de ADN en regiones no codificantes. En el genoma humano, no todas las secuencias están codificadas, es decir, algún tipo de plantilla de proteína. La parte codificada solo representa de 3 a 5 de la secuencia genética humana total. Evidentemente, es impensable buscar manualmente una secuencia genética tan grande. Los métodos para detectar regiones codificantes incluyen medir la frecuencia de codones en la región codificante. Cadenas de Markov de primer y segundo orden, ORF (marco de lectura abierto), identificación de promotores, HMM (modelo oculto de Markov) y GENSCAN, alineación de empalme y más.
4. Evolución molecular y genómica comparada
La evolución molecular utiliza las similitudes y diferencias de las mismas secuencias genéticas en diferentes especies para estudiar la evolución de los organismos y construir árboles evolutivos. Esto se puede hacer utilizando la secuencia de ADN o la secuencia de aminoácidos codificada por ella, o incluso mediante una comparación estructural de proteínas relacionadas, bajo la premisa de que razas humanas similares son genéticamente similares.
A través de la comparación, puedes descubrir qué es lo mismo entre diferentes razas. ¿Cuál es la diferencia? Los primeros métodos de investigación a menudo utilizaban factores externos, como el tamaño, el color de la piel y el número de extremidades, como base para la evolución. En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde la perspectiva de todo el genoma. Al comparar genes de diferentes razas, generalmente tenemos que lidiar con tres situaciones: genes ortólogos: genes de diferentes razas con la misma función; genes parálogos: genes de la misma raza con funciones diferentes; genes heterólogos: genes entre organismos a través de otros medios; genes, como los inyectados por los virus. Un método comúnmente utilizado en este campo es construir un árbol filogenético, a través de métodos basados en características (es decir, las posiciones específicas de las bases de aminoácidos en secuencias de ADN o proteínas) y distancias (puntuaciones de alineación), así como algunos métodos de agrupamiento tradicionales ( como la UPGMA). 5. Ensamblar contigs Según la tecnología de secuenciación actual, solo se pueden detectar 500 o más secuencias de pares de bases en cada reacción. Por ejemplo, el método de la escopeta se utiliza para medir genes humanos, lo que requiere una gran cantidad de secuencias cortas para formar todos los cóntigos. El proceso de unirlos gradualmente para formar contigs de secuencia más larga hasta obtener una secuencia completa se llama ensamblaje de contig. Desde una perspectiva algorítmica, los contigs de secuencia son un problema NP-completo. Generalmente se cree que el origen del código genético es que la relación entre codones y aminoácidos fue causada por un evento accidental en la historia de la evolución biológica y se ha fijado en el mismo antepasado de los organismos modernos hasta ahora. A diferencia de esta teoría "congelada", se han propuesto tres teorías para explicar el código genético: la optimización selectiva, la química y la historia. Con la finalización de varias tareas de secuenciación del genoma biológico, proporciona una base para estudiar el origen del código genético y probar la autenticidad de la teoría anterior.