Modelo matemático de crecimiento del volumen tumoral
Es una ciencia que utiliza las computadoras como herramientas para almacenar, recuperar y analizar información biológica en el estudio de las ciencias de la vida. Es uno de los campos fronterizos importantes de las ciencias biológicas y las ciencias naturales en la actualidad, y también será uno de los campos centrales de las ciencias naturales en el siglo XXI. Su enfoque investigador se refleja principalmente en la genómica y la proteómica. En concreto, se trata de analizar la información biológica estructural y funcional expresada en la secuencia de ácidos nucleicos y proteínas.
La bioinformática es una disciplina que utiliza la tecnología informática para estudiar las leyes de los sistemas biológicos.
En la actualidad, la bioinformática es básicamente una combinación de biología molecular y tecnología de la información (especialmente tecnología de Internet). Los materiales de investigación y los resultados de la bioinformática son diversos datos biológicos. La herramienta de investigación es la computadora, y los métodos de investigación incluyen la búsqueda de datos biológicos (recolección y selección), el procesamiento (edición, clasificación, gestión y visualización) y la utilización (cálculo y simulación).
Desde la década de 1990, con el desarrollo de varios proyectos de secuenciación del genoma, los avances en la tecnología de determinación de la estructura molecular y la popularización de Internet, han proliferado cientos de bases de datos biológicas. Esto plantea un serio desafío para los trabajadores de la bioinformática: ¿Qué información están contenidas en cientos de millones de secuencias ACGT? ¿Cómo controla esta información en el genoma el desarrollo de un organismo? ¿Cómo evolucionó el propio genoma?
Otro reto de la bioinformática es predecir la estructura de una proteína a partir de su secuencia de aminoácidos. Esta pregunta ha desconcertado a los biólogos teóricos durante más de medio siglo, y ahora encontrar respuestas al problema se vuelve cada vez más urgente. El premio Nobel W. Gilbert señaló en 1991: "La forma tradicional de resolver problemas en biología ha sido experimental. Ahora, partiendo de la base de que todos los genes se conocerán de forma operable electrónicamente y residirán en bases de datos. De hecho, el punto de partida de un nuevo modelo de investigación biológica debe ser teórico. Un científico partirá de la especulación teórica y luego volverá a los experimentos para rastrear o verificar estas hipótesis teóricas”
Investigación principal en Bioinformática: Genómica-Proteómica-Sistemas. Biología-Genómica Comparada.
Sin citar la larga definición de bioinformática, expliquemos sus aplicaciones principales en términos sencillos: con el progreso histórico de los proyectos de secuenciación del genoma biológico, incluido el Proyecto Genoma Humano, los datos biológicos resultantes, incluido el nacimiento, son antiguos. la edad, las enfermedades y la muerte de los organismos están aumentando a un ritmo sin precedentes y actualmente se duplican cada 14 meses. Al mismo tiempo, con la popularidad de Internet, han proliferado cientos de bases de datos biológicas. Pero estos son sólo la adquisición de información biológica original y son la etapa inicial del desarrollo de la industria de la bioinformación. La mayoría de las empresas de bioinformática en esta etapa se ganan la vida vendiendo bases de datos biológicas. Celera, famosa por su secuenciación del genoma humano, es un exitoso representante de esta etapa.
Después de que se desenterraron los recursos de información biológica originales, los científicos de la vida se enfrentaron a graves desafíos: ¿Qué información está contenida en cientos de millones de secuencias ACGT? ¿Cómo controla esta información en el genoma el desarrollo de un organismo? ¿Cómo evolucionó el propio genoma? Aquí se refleja la etapa avanzada de la industria de la bioinformática, y desde entonces la humanidad ha entrado en la era posgenómica centrada en la bioinformática. Los proyectos de innovación de nuevos fármacos combinados con la bioinformática son aplicaciones típicas en esta etapa.
[Editar este párrafo] Introducción al desarrollo
La bioinformática se basa en la biología molecular. Por lo tanto, para comprender la bioinformática, primero se debe tener una comprensión simple del desarrollo de la biología molecular. La investigación sobre la estructura y función de las macromoléculas biológicas en las células biológicas se lleva a cabo desde hace mucho tiempo. En 1866, Mendel propuso la hipótesis de que los genes existen como componentes biológicos de los experimentos. En 1871, Mischer aisló el ácido desoxirribonucleico (ADN) de los núcleos de glóbulos blancos muertos. Antes de que Avery y McCarty demostraran en 1944 que el ADN era el material genético de los órganos vivos, se pensaba que las proteínas cromosómicas portaban genes. El ADN juega un papel secundario. En 1944, Chargaff descubrió la famosa ley de Chargaff, es decir, la cantidad de guanina en el ADN es siempre igual a la cantidad de citidina, y las cantidades de adenina y timina también son iguales. Al mismo tiempo, Wilkins y Franklin utilizaron tecnología de difracción de rayos X para determinar la estructura de las fibras de ADN. En 1953, James Watson y Francis Crick especularon sobre la estructura tridimensional del ADN (doble hélice) en la revista Nature.
El ADN forma una doble hélice con cadenas de azúcar fosfato. Según la ley de Chargaff, las bases de la desoxirribosa forman un par de bases entre dos cadenas de azúcar fosfato. Este modelo muestra que el ADN tiene una estructura autocomplementaria y que la información genética almacenada en el ADN se puede copiar con precisión según el principio del par de bases. Sus teorías sentaron las bases de la biología molecular. El modelo de doble hélice del ADN predice las reglas de replicación del ADN. Kornberg aisló I (ADN polimerasa I de Escherichia coli 1956), cuatro dNTP que se pueden unir al ADN. El ADN sirve como plantilla para la replicación del ADN. Crick propuso la ley de transmisión de información genética en 1954. El ADN es la plantilla para sintetizar el ARN y el ARN es la plantilla para la síntesis de proteínas. Se le llama dogma central y juega un papel extremadamente importante en el desarrollo futuro de la biología molecular y la bioinformática. Gracias a los esfuerzos de Nirenberg y Maathai (1963), el descubrimiento de las endonucleasas de restricción y la clonación de ADN recombinante sentaron las bases técnicas para la ingeniería genética. Precisamente porque la investigación de la biología molecular ha promovido en gran medida el desarrollo de las ciencias biológicas, ha surgido. de la bioinformática se ha vuelto inevitable En febrero de 2001, la secuenciación del genoma humano alcanzó su clímax. Con el rápido desarrollo de la tecnología de secuenciación, la cantidad de datos de secuencias de ácidos nucleicos en las bases de datos de ADN está aumentando a un ritmo de 106 pb por día. Se está expandiendo rápidamente hacia un océano de datos. No hay duda de que estamos pasando de una era de acumulación de datos a una era de interpretación de datos. La enorme acumulación de datos a menudo contiene la posibilidad de posibles descubrimientos revolucionarios. Tema a partir de esta premisa, a grandes rasgos, el contenido central de este campo es a través del cálculo estadístico y el análisis de secuencias de ADN, la investigación sobre cómo obtener una comprensión más profunda de la secuencia del ADN, su estructura, su evolución y su relación con sus funciones biológicas. Incluye biología molecular, evolución molecular y biología estructural, estadística e informática. Es un campo con un rico contenido en informática genómica, que incluye la adquisición, procesamiento, almacenamiento, distribución e interpretación de información genómica. La clave de la informática genómica es "leer" la secuencia de nucleótidos del genoma, es decir, la secuencia de nucleótidos de todos los genes del cromosoma, la ubicación exacta y la función de cada fragmento de ADN al mismo tiempo, después de descubrir nueva información genética. , modelar y predecir la estructura espacial de las proteínas y luego diseñar medicamentos basados en la función de proteínas específicas también son aspectos importantes de la bioinformática. El papel de las moléculas en la regulación genética describe las leyes inherentes del diagnóstico y tratamiento de enfermedades humanas. revela "la complejidad de la estructura de la información del genoma y las leyes fundamentales del lenguaje genético" y explica el lenguaje genético de la vida, una parte importante del desarrollo de todas las ciencias de la vida y la vanguardia de la investigación en ciencias de la vida. Edite este párrafo] Principales direcciones de investigación
La bioinformática se ha formado en solo una docena de años. Hay muchas direcciones de investigación. A continuación se presenta una breve introducción a algunos de los principales puntos de investigación. El problema básico del alineamiento de secuencias es comparar dos o más secuencias de símbolos. Similitud o disimilitud. En términos biológicos, este problema abarca lo siguiente: Reconstruir la secuencia completa de ADN a partir de fragmentos de secuencia superpuestos. Determinar el almacenamiento de mapas físicos y genéticos a partir de los datos de la sonda; diversas condiciones experimentales recorrer y comparar secuencias de ADN en la base de datos, comparar la similitud de dos o más secuencias, buscar secuencias y subsecuencias relacionadas en la base de datos, descubrir el patrón de generación continua de nucleótidos, descubrir los componentes de información en las proteínas y el ADN; secuencias , compare las características biológicas de las secuencias de ADN, como inserciones locales, eliminaciones (las dos primeras se denominan indeles para abreviar) y sustituciones. La función objetivo de la secuencia obtiene la suma mínima ponderada de distancia o la suma máxima de similitud de los conjuntos de variación entre secuencias. Los métodos de alineación incluyen alineación global, alineación local, penalización por brecha generacional, etc. Los algoritmos de programación dinámica se utilizan a menudo para comparar dos secuencias y son adecuados para longitudes de secuencia pequeñas, pero no son adecuados para secuencias genéticas masivas (como secuencias de ADN humano de hasta 109 pb), e incluso la complejidad del algoritmo es lineal. Por tanto, las heurísticas rara vez funcionan.
2. Comparación y predicción de la estructura de proteínas.
El problema básico es comparar la similitud o disimilitud de la estructura espacial de dos o más moléculas de proteínas. La estructura y función de las proteínas están estrechamente relacionadas.
Generalmente se cree que las proteínas con funciones similares generalmente tienen estructuras similares. Las proteínas son cadenas largas compuestas de aminoácidos, cuya longitud varía entre 50 y 1000 ~ 3000 AA (aminoácidos). Las proteínas tienen muchas funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, etc. Anticuerpos, etc. La secuencia de aminoácidos determina inherentemente la estructura tridimensional de una proteína. Generalmente se cree que las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y predicción de las proteínas son: comprender las funciones de los organismos en medicina, encontrar objetivos para acoplar fármacos y obtener una mejor ingeniería genética de los cultivos en la agricultura. La síntesis enzimática se utiliza en la industria. La razón para comparar directamente las estructuras de las proteínas es que la estructura tridimensional de una proteína es más estable durante la evolución que la estructura primaria y contiene más información que la secuencia AA. La premisa para estudiar la estructura tridimensional de las proteínas es que la secuencia interna de aminoácidos corresponde a la estructura tridimensional (lo que puede no ser necesariamente cierto). La física se puede explicar en términos de energía mínima. Predecir la estructura de proteínas desconocidas observando y resumiendo las reglas estructurales de proteínas con estructuras conocidas. Tanto el modelado por homología como el subprocesamiento entran en esta categoría. El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más del 30% de los mismos aminoácidos), y este último se utiliza para comparar diferentes estructuras de proteínas en familias evolutivas. Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales.
3. Identificación de genes y análisis de regiones no codificantes.
El problema fundamental en la identificación de genes es identificar correctamente el rango y la ubicación exacta de un gen en una secuencia genómica determinada. La región no codificante consta de intrones, que generalmente se descartan después de que se forma la proteína, pero experimentalmente, si se elimina la región no codificante, la duplicación del gen no se puede completar. Obviamente, las secuencias de ADN, como lenguaje genético, no sólo están contenidas en regiones codificantes, sino que también están implícitas en secuencias no codificantes. Actualmente no existen pautas generales para analizar secuencias de ADN en regiones no codificantes. En el genoma humano, no todas las secuencias están codificadas, es decir, algún tipo de plantilla de proteína, la parte codificante solo representa del 3 al 5% de la secuencia genética humana total. Evidentemente, es impensable buscar manualmente una secuencia genética tan grande. Los métodos para detectar regiones codificantes incluyen medir la frecuencia de codones en la región codificante. Cadenas de Markov de primer y segundo orden, ORF (marco de lectura abierto), identificación de promotores, HMM (modelo oculto de Markov) y GENSCAN, alineación de empalme y más.
4. Evolución molecular y genómica comparada
La evolución molecular utiliza las similitudes y diferencias de las mismas secuencias genéticas en diferentes especies para estudiar la evolución de los organismos y construir árboles evolutivos. Esto se puede hacer utilizando la secuencia de ADN o la secuencia de aminoácidos codificada por ella, o incluso mediante una comparación estructural de proteínas relacionadas, bajo la premisa de que razas humanas similares son genéticamente similares. A través de la comparación, puedes descubrir qué es lo mismo entre diferentes razas. ¿Cuál es la diferencia? Los primeros métodos de investigación a menudo utilizaban factores externos, como el tamaño, el color de la piel y el número de extremidades, como base para la evolución. En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde la perspectiva de todo el genoma. Al emparejar genes de diferentes razas, generalmente hay que abordar tres situaciones: ortólogos: genes de diferentes razas con la misma función; genes parálogos: genes de la misma raza con diferentes funciones; genes heterólogos: genes entre organismos a través de otros medios; genes, como los inyectados por los virus. Un método comúnmente utilizado en este campo es construir un árbol filogenético, a través de métodos basados en características (es decir, las posiciones específicas de las bases de aminoácidos en secuencias de ADN o proteínas) y distancias (puntuaciones de alineación), así como algunos métodos de agrupamiento tradicionales ( como la UPGMA).
5. Ensamblaje del contig de secuencia
Según la tecnología de secuenciación actual, cada reacción sólo puede detectar 500 o más pares de bases. Por ejemplo, el método de la escopeta se utiliza para medir genes humanos, lo que requiere una gran cantidad de secuencias cortas para formar todos los cóntigos. El proceso de empalmarlos gradualmente para formar contigs más largos hasta obtener una secuencia completa se llama ensamblaje de contig. Desde una perspectiva algorítmica, los contigs de secuencia son un problema NP-completo.
6. El Origen del Código Genético
En general, los estudios sobre el código genético creen que la relación entre codones y aminoácidos fue causada por un evento accidental en la historia de la biología. evolución y siempre ha estado fijado en el mismo ancestro de los organismos modernos hasta ahora. A diferencia de esta teoría "congelada", se han propuesto tres teorías para explicar el código genético: la optimización selectiva, la química y la historia. Con la finalización de diversas tareas de secuenciación del genoma biológico, se han proporcionado nuevos materiales para estudiar el origen del código genético y probar la autenticidad de las teorías anteriores.
7. Diseño de fármacos basado en la estructura
Uno de los propósitos de la ingeniería genética humana es comprender la estructura, función e interacción de aproximadamente 654,38 millones de proteínas en el cuerpo humano y sus interacciones con humanos La relación entre diversas enfermedades y la búsqueda de diversos métodos de tratamiento y prevención, incluido el tratamiento farmacológico. El diseño de fármacos basado en la estructura de macromoléculas biológicas y moléculas pequeñas es un campo de investigación extremadamente importante en bioinformática. Para inhibir la actividad de determinadas enzimas o proteínas, se pueden diseñar moléculas inhibidoras como candidatos a fármacos en el ordenador utilizando algoritmos de disposición molecular basados en la estructura terciaria conocida de la proteína. El objetivo de este campo es descubrir nuevos fármacos genéticos que tendrán grandes beneficios económicos.
8. Modelado y simulación de sistemas biológicos
Con el desarrollo de tecnología experimental a gran escala y la acumulación de datos, los sistemas biológicos se estudian y analizan desde los niveles global y sistémico para revelar sus características. reglas de desarrollo, se ha convertido en otro punto de investigación en la era posgenómica: la biología de sistemas. Su contenido de investigación actual incluye simulación de sistemas biológicos (Curr Opin Rheumatol, 2007, 463-70), análisis de estabilidad del sistema (Nonlinear Dynamics Psychological Life Sci, 2007, 413-33) y análisis de robustez del sistema (Ernst Schering Res Found Workshop, 2007, 69-83). El lenguaje de modelado representado por SBML (Bioinformatics, 2007, 1297-8) se ha desarrollado rápidamente, incluyendo redes booleanas (PLoS Comput Biol, 2007, e163), ecuaciones diferenciales (Mol Biol Cell, 2004, 3841-62) y procesos estocásticos. (Neural Comput, 2007, 3262-92), sistemas de eventos dinámicos discretos (Bioinformatics, 2007, 336-43) Ha habido muchos modelos basados en métodos de modelado de sistemas físicos como circuitos. Muchos estudios han intentado aprender del flujo de información. Se pueden utilizar ideas de análisis macroscópico como la entropía y el flujo de energía para resolver la complejidad del sistema (Anal Quant Cytol Histol, 2007, 296-308). Por supuesto, llevará mucho tiempo establecer modelos teóricos de sistemas biológicos. A pesar del aumento masivo de datos de observación experimentales, los datos necesarios para la identificación de modelos de sistemas biológicos superan con creces la capacidad actual de producción de datos. Por ejemplo, para los datos de chips de series temporales, la cantidad de puntos de muestreo no es suficiente para utilizar los métodos tradicionales de modelado de series temporales, y el enorme costo experimental es la principal dificultad en el modelado del sistema actual. Los métodos de descripción y modelado de sistemas también requieren un desarrollo pionero.
9. Investigación sobre tecnología y métodos bioinformáticos
La bioinformática no es solo una simple disposición de conocimientos biológicos y una simple aplicación de conocimientos de matemáticas, física, ciencias de la información y otras disciplinas. Los datos masivos y los antecedentes complejos han llevado al rápido desarrollo del aprendizaje automático, el análisis de datos unificados y la descripción de sistemas en el contexto de la bioinformática. La enorme cantidad de cálculos, los patrones de ruido complejos y los datos masivos que varían en el tiempo traen grandes dificultades al análisis estadístico tradicional, que requiere técnicas de análisis de datos más flexibles, como las estadísticas no paramétricas (BMC Bioinformatics, 2007, 339) y el análisis de conglomerados (Qual). Vida Res, 2007, 1655-63). El análisis de datos de alta dimensión requiere técnicas de compresión del espacio de características, como los mínimos cuadrados parciales (PLS). En el desarrollo de algoritmos informáticos, es necesario considerar plenamente la complejidad temporal y espacial del algoritmo y utilizar tecnologías como la computación paralela y la computación en red para ampliar la viabilidad del algoritmo.
10. Imágenes biológicas
¿Por qué las personas que no están emparentadas por sangre se parecen tanto?
Las apariencias se componen de puntos. Cuantos más puntos se superpongan, más similares se verán. ¿Por qué se superponen estos dos puntos no relacionados?
¿Cuál es la base biológica? ¿Son los genes similares? No lo sé, espero que los expertos puedan responder.
11. Otros
como los perfiles de expresión genética y el análisis de redes metabólicas; el diseño de chips genéticos y el análisis de datos proteómicos se han convertido gradualmente en nuevas e importantes áreas de investigación en bioinformática. En términos de disciplinas, las disciplinas derivadas de la bioinformática incluyen genómica estructural, genómica funcional, genómica comparada, investigación de proteínas, farmacogenómica, genómica de la medicina tradicional china, oncología, epidemiología molecular y genómica ambiental. No es difícil ver, a partir del desarrollo actual, que la ingeniería genética ha entrado en la era posgenómica. También tenemos una comprensión clara de los posibles errores del aprendizaje automático, las matemáticas, etc., que están estrechamente relacionados con la bioinformática.
[Editar este párrafo] Bioinformática y aprendizaje automático
La información biológica a gran escala ha traído nuevos problemas y desafíos a la minería de datos, requiriendo nuevas ideas. Los algoritmos informáticos tradicionales todavía se pueden aplicar al análisis de datos biológicos, pero son cada vez más inadecuados para el análisis de secuencias. La razón es que los sistemas biológicos son modelos inherentemente complejos y carecen de una teoría completa de la organización de la vida a nivel molecular. Simon una vez definió el aprendizaje como un cambio en un sistema que lo hace más efectivo al realizar el mismo trabajo. El propósito del aprendizaje automático es obtener automáticamente las teorías correspondientes a partir de los datos. Al adoptar métodos como la inferencia, el ajuste de modelos y el aprendizaje de muestras, es particularmente adecuado para la falta de teoría general, patrones "ruidosos" y conjuntos de datos a gran escala. Por lo tanto, el aprendizaje automático constituye un enfoque viable que complementa los métodos convencionales. El aprendizaje automático permite utilizar computadoras para extraer conocimientos útiles a partir de información biológica masiva y descubrir conocimientos. El análisis de datos multivectorial juega un papel cada vez más importante, pero el procesamiento actual de una gran cantidad de bases de datos genéticas requiere identificación y anotación automática por computadora para evitar métodos de procesamiento manual que requieren mucho tiempo y mano de obra. Los primeros métodos científicos (observación e hipótesis) ya no pueden depender únicamente de la percepción humana para manejar los requisitos de grandes volúmenes de datos, velocidades rápidas de recopilación de datos y análisis objetivos. Por tanto, la combinación de bioinformática y aprendizaje automático es inevitable. El marco teórico más básico del aprendizaje automático se basa en la probabilidad. En cierto sentido, es una continuación del ajuste de modelos estadísticos, cuyo propósito es extraer información útil. El aprendizaje automático está estrechamente relacionado con el reconocimiento de patrones y la inferencia estadística. Los métodos de aprendizaje incluyen la agrupación de datos. Clasificadores de redes neuronales y regresión no lineal, etc. Los modelos ocultos de Markov también se utilizan ampliamente para predecir la estructura genética del ADN. Los enfoques de investigación actuales incluyen: 1) Observar y explorar fenómenos interesantes. El enfoque actual de la investigación de ML es cómo visualizar y extraer datos vectoriales de alta dimensión. El método general consiste en reducir su dimensionalidad a un espacio de baja dimensión, como el análisis de componentes principales (PCA) convencional y el análisis de componentes principales del núcleo (KPCA). Análisis de componentes independientes, incrustación lineal local. 2) Generar hipótesis y modelos formales para explicar fenómenos [6]. La mayoría de los métodos de agrupación pueden verse como una combinación de ajuste de datos vectoriales a alguna distribución simple. Los métodos de agrupamiento se han utilizado en el análisis de datos de microarrays en bioinformática. En ámbitos como la clasificación de tipos de cáncer, el aprendizaje automático también se utiliza para obtener explicaciones correspondientes de fenómenos a partir de bases de datos genéticas. El aprendizaje automático acelera el progreso de la bioinformática y también plantea los problemas correspondientes. La mayoría de los métodos de aprendizaje automático suponen que los datos se ajustan a un modelo relativamente fijo, mientras que las estructuras de datos generales suelen ser variables, especialmente en bioinformática. Por lo tanto, es necesario establecer un conjunto de métodos generales para encontrar la estructura interna de conjuntos de datos que no se basen en estructuras de datos supuestas. En segundo lugar, los métodos de aprendizaje automático suelen utilizar operaciones de "caja negra", como redes neuronales, modelos ocultos de Markov, etc., y el mecanismo intrínseco para obtener soluciones específicas aún no está claro.
[Editar este párrafo] Cuestiones matemáticas en bioinformática
Las matemáticas juegan un papel importante en la bioinformática. La estadística, incluida la estadística multivariada, es uno de los fundamentos matemáticos de la bioinformática. La teoría de la probabilidad y la teoría de procesos estocásticos, como el modelo de cadena oculta de Markov (HMM), tienen importantes aplicaciones en bioinformática. Otros, como la investigación operativa de alineación de secuencias; la aplicación de la teoría de la optimización en la predicción de la estructura espacial de las proteínas y la investigación del acoplamiento molecular: el estudio de la topología de la estructura superhélice del ADN, el estudio de la teoría de grupos de los códigos genéticos y la simetría de las secuencias de ADN, etc. En resumen, varias teorías matemáticas desempeñan hasta cierto punto un papel correspondiente en la investigación biológica, pero cuando se introducen en la bioinformática, no todos los métodos matemáticos pueden establecerse universalmente. Los siguientes ejemplos son espacios estadísticos y métricos.
1. La paradoja de la estadística
El desarrollo de las matemáticas va acompañado de paradojas. La paradoja más obvia en la investigación de árboles evolutivos y agrupaciones es el valor promedio, que muestra que el método promedio convencional no puede separar las dos categorías, y también muestra que el valor promedio no puede aportar más propiedades geométricas a los datos. Luego, si los datos presentan una distribución única similar, los algoritmos de árbol evolutivo y de agrupamiento comúnmente utilizados (como K-means) a menudo sacarán conclusiones erróneas. Las trampas estadísticas suelen deberse a las siguientes razones.
Por la falta de comprensión general de las estructuras de datos.
2. Asunción del espacio métrico
En bioinformática, es necesario introducir el concepto de medición en el establecimiento de árboles evolutivos y agrupaciones de genes. Por ejemplo, los genes que están cerca entre sí tienen la misma función y el gen con la puntuación más pequeña en el árbol evolutivo tiene la misma línea parental. La premisa de este espacio métrico es que la métrica se establece en un sentido global.
Entonces, si esta suposición de premisa es universal, también podríamos dar una descripción general: supongamos que los dos vectores son A y B, entonces, bajo el supuesto de que las dimensiones son linealmente independientes, la medida de los dos vectores se puede definir como: (1) El espacio métrico euclidiano que satisface el grupo de movimiento invariante ortogonal se puede obtener de acuerdo con la fórmula anterior. Esta es también una descripción general que se usa a menudo en la mayoría de la bioinformática, es decir, se supone que las variables son linealmente independientes. Sin embargo, esta suposición generalmente no describe correctamente las propiedades de la medida, especialmente en conjuntos de datos de alta dimensión. Obviamente, no considerar las correlaciones no lineales entre las variables de datos es problemático. Por lo tanto, podemos pensar que la siguiente fórmula puede dar una fórmula de medición correcta: (2) La fórmula anterior utiliza la convención de suma de Einstein para describir la relación de medición entre variables. Este último es equivalente a (1) cuando se cumple (3), por lo que es una descripción más general. Pero el problema es cómo describir con precisión la correlación no lineal entre variables, que es lo que estamos estudiando.
[Editar este párrafo] Dificultades para aplicar la teoría del aprendizaje estadístico en bioinformática
La cantidad de datos y bases de datos en bioinformática es muy grande, pero las funciones objetivo relativas generalmente son difíciles de dar definiciones claras . Esta dificultad en bioinformática puede describirse como la contradicción entre la magnitud del problema y la definición patológica del problema. En términos generales, es inevitable introducir un término de regularización para mejorar el rendimiento [7]. La siguiente es una breve introducción a la teoría del aprendizaje estadístico basada en esta idea, la complejidad de Kolmogorov [98] y BIC (Criterio de información bayesiano) [109] y sus problemas existentes. La máquina de vectores de soporte (SVM) es un método relativamente popular. El trasfondo de la investigación es la teoría del aprendizaje estadístico de Vapnik, que logra la clasificación maximizando la distancia máxima entre dos conjuntos de datos. Para problemas no lineales, se utiliza una función central para mapear el conjunto de datos en un espacio de alta dimensión sin representación explícita. Las propiedades del conjunto de datos en un espacio de alta dimensión. En comparación con el método neuronal, este método tiene la ventaja de simplificar la selección de los parámetros de la capa oculta de la red neuronal para la selección de la función del núcleo, por lo que también ha comenzado a recibir. Atención generalizada en bioinformática. Sin embargo, la selección de la función del núcleo en sí es un problema muy difícil. Desde esta perspectiva, la selección de la función del núcleo óptima puede ser solo un ideal, y SVM puede ser solo otra gran burbuja en la investigación del aprendizaje automático. Procesos como redes neuronales. Las ideas de complejidad de Kolmogorov y las ideas de la teoría del aprendizaje estadístico describen la naturaleza del aprendizaje desde diferentes perspectivas. La primera es desde la perspectiva de la codificación y la segunda se basa en obtener una convergencia consistente con muestras limitadas. El principio MDL (longitud mínima de descripción) originalmente solo se aplicaba a datos discretos, pero recientemente se ha extendido a conjuntos de datos continuos, tratando de obtener la descripción mínima de los parámetros del modelo desde una perspectiva de codificación. Su defecto radica en la alta complejidad del modelado. , lo que hace que el criterio BIC sea difícil de aplicar para grandes conjuntos de datos, el criterio BIC impone una gran penalización a los modelos con alta complejidad y, a la inversa, la penalización es pequeña. La principal limitación del criterio BIC es que se usa ampliamente. En los últimos años, las suposiciones y la selección previa de la bioinformática son sensibles y la velocidad de procesamiento es lenta cuando la cantidad de datos es grande, por lo que todavía hay mucho espacio para la exploración en este campo.