¿Es la era del big data un arma de doble filo?
Investigación de aplicaciones y práctica de Big Data y Bioinformática
Resumen: El 20 de febrero, Li Jinhua, profesor, doctorado y vicedecano de la Facultad de Ciencia de Datos e Ingeniería de Software de la Universidad de Qingdao , presentado en la microconferencia de CIO The Times APP, compartió un tema titulado "Investigación de aplicaciones y práctica de Big Data y Bioinformática". Compartió su experiencia en el campo de big data y trabajos de investigación científica relacionados (trabajos de enseñanza e investigación). big data en bioinformática). La narrativa se desarrolla en dos aspectos principales.
Palabras clave: Microconferencia ?CIO Era APP?
El 20 de febrero, Li Jinhua, profesor, médico y vicedecano de la Facultad de Ciencia de Datos e Ingeniería de Software de la Universidad de Qingdao, pronunció una micro conferencia sobre CIO Era APP La columna de conferencia compartió un tema titulado "Investigación de aplicaciones y práctica de Big Data y Bioinformática". Compartió su experiencia en el campo de Big Data y trabajos de investigación científica relacionados (trabajos de enseñanza e investigación de Big Data). en bioinformática). Ampliar la narrativa.
1. Antecedentes relacionados
(1) Antecedentes del surgimiento de la bioinformática
Como todos sabemos, la bioinformática se inició a finales de la década de 1980 con el lanzamiento de el Proyecto Genoma Humano. Un tema interdisciplinario emergente, a través de la adquisición, procesamiento, almacenamiento, recuperación y análisis de datos biológicos experimentales, logra el propósito de interpretar el significado biológico contenido en los datos. La principal fuerza impulsora del desarrollo actual de la bioinformática proviene de la biología molecular. La investigación en bioinformática se centra principalmente en el almacenamiento, clasificación, recuperación y análisis de secuencias de nucleótidos y aminoácidos. Por lo tanto, la bioinformática actual puede definirse estrictamente como la aplicación de la informática y las matemáticas a la adquisición, procesamiento, almacenamiento, clasificación, recuperación y análisis de información de macromoléculas biológicas, con el fin de lograr la intersección de la comprensión del significado biológico de estas macromoléculas biológicas. información. Una disciplina es esencialmente una disciplina que presta igual atención a los conceptos teóricos y a las aplicaciones prácticas.
La bioinformática existe desde hace más de treinta años. La definición de informática genómica en el Proyecto Genoma Humano de EE. UU. es una disciplina que incluye la adquisición, el procesamiento y el almacenamiento de información genómica, todos los aspectos de la asignación. análisis e interpretación. Desde el lanzamiento del Proyecto Genoma Humano en los Estados Unidos en 1990, las pruebas de genomas humanos y de organismos modelo se han desarrollado extremadamente rápidamente, con pruebas genéticas completas y trabajos en unas cuarenta especies de organismos completados antes de lo previsto. Hasta ahora, la cantidad total de series de ADN registradas en GeneBank sólo en Estados Unidos supera los 7 mil millones de pares de bases. Además, hasta la fecha se han determinado las estructuras espaciales de más de 10.000 proteínas con distintas resoluciones. La base de datos EST establecida a partir de pruebas de secuencia de ADNc ha superado los millones de entradas y se han derivado y compilado más de 5.000 bases de datos a partir de estos datos.
Todo ello constituye un océano de datos biológicos. Esta rápida y masiva acumulación de datos científicos no tiene precedentes en la historia del desarrollo científico, pero los datos no equivalen a información y conocimiento. Por supuesto, son la fuente de información y conocimiento. La clave está en cómo extraerlos. En comparación con los datos biológicos, que crecen exponencialmente, el conocimiento relacionado con los seres humanos crece muy lentamente. Por un lado, hay una gran cantidad de datos y, por otro, tenemos hambre de nuevos conocimientos en medicina, agricultura y medio ambiente. Estos nuevos conocimientos ayudarán a las personas a mejorar su entorno y su calidad de vida. Esto constituye una enorme contradicción. Esta contradicción ha dado lugar a una ciencia cruzada emergente, que es la bioinformática.
La investigación de big data en informática tiene como objetivo principal analizar datos multiómicos masivos. Los big data ómicos han brindado oportunidades sin precedentes a las ciencias de la vida, en el estudio de la función genética, el mecanismo de las enfermedades, la medicina de precisión, etc. significado. Las características de los big data, como la escala, la diversidad y la alta velocidad, han planteado nuevos desafíos a la bioinformática. En términos de computación de datos, existe una necesidad urgente de resolver la demanda elástica de recursos informáticos en los laboratorios pequeños y medianos; En términos de análisis de datos, existe una necesidad urgente de que el sistema de análisis integrado Multi-omics resuelva problemas biológicos. La falta de herramientas biológicas adecuadas es el principal obstáculo al que se enfrenta el campo de las ciencias de la vida en la era del big data.
(2) Antecedentes de investigación en bioinformática de la Universidad de Qingdao
1 En 2009, el Laboratorio Nacional Clave de Ingeniería de Software de la Universidad de Wuhan celebró una escuela de verano en Qingdao, y por primera vez. Escuché a académicos occidentales mencionar que la investigación interdisciplinaria basada en computadora en biología incluye principalmente secuenciación de genes, visualización de big data biológicos, etc.
2. Desde 2011, la Universidad de Qingdao y el Instituto BGI de Shenzhen han establecido conjuntamente la Clase de Innovación BGI de la Universidad de Qingdao para cultivar los mejores talentos innovadores en los campos de la biogenómica y la bioinformática en la era del big data. Dentro de un mes después de que los estudiantes universitarios ingresan a la escuela, se seleccionan 30 estudiantes de los más de 9,000 estudiantes de diferentes carreras de la escuela. De acuerdo con los requisitos de base sólida, amplio calibre, integralidad e internacionalización, hay dos cursos en el básico. Curso y cursos profesionales Hay dos módulos de selección de cursos, uno es examen médico y el otro es procesamiento de información.
3. En 2016, en cooperación con profesores de la Facultad de Medicina de la Universidad de Qingdao, *** presentó una solicitud conjunta y fue aprobada para obtener una maestría en la disciplina secundaria de bioinformática. Las principales direcciones de investigación son: análisis de secuencia y genómica, investigación y desarrollo de fármacos, investigación sobre integración de redes biológicas, extracción y análisis de datos (principalmente en el campo de aplicaciones biológicas) y metodología de software bioinformático.
2. Principales contenidos, principales temas y tecnologías clave de la investigación en bioinformática
(1) Principales contenidos de la investigación en bioinformática
1.
La genómica contiene la información básica necesaria para constituir y mantener un organismo vivo. Diversas reacciones biológicas moleculares llevadas a cabo en las células convierten esta información en fenómenos de la vida real. Partes del genoma codifican proteínas y ARN, y otras partes regulan la expresión de estas macromoléculas. Las proteínas y el ARN expresados se pliegan en estructuras tridimensionales muy específicas y realizan estas funciones en lugares específicos del cuerpo. En los laboratorios de investigación de biología molecular se revelan una gran cantidad de detalles de estos procesos, lo que genera una gran cantidad de datos que se almacenan. en la base de datos. La bioinformática intenta extraer nueva información y conocimiento biológicos a partir de estos datos. Es una biología teórica arraigada en hechos y datos experimentales completos y profundos.
2. Recopilación, almacenamiento, gestión y suministro de información biológica.
Incluyendo el establecimiento de una base de datos internacional de información biológica básica y un sistema de red internacional para la transmisión de información biológica; el establecimiento de un sistema de evaluación y detección de la calidad de los datos biológicos y de los servicios en línea de visualización de información biológica; sistemas expertos.
3. Extracción y análisis de información de secuencia del genoma.
Incluyendo el descubrimiento e identificación de genes, como el uso de la base de datos internacional EST y los datos correspondientes medidos en los respectivos laboratorios, y el descubrimiento de nuevos genes, nuevos SNP y varios sitios funcionales a través de computación paralela a gran escala; codificación en el genoma Analizar la estructura de la información de las regiones y proponer modelos teóricos para aclarar las funciones biológicas importantes de estas regiones; realizar análisis de la estructura de la información y estudios comparativos sobre los genomas completos de organismos modelo; utilizar información biológica para estudiar el origen de la genética; código, la evolución de la estructura del genoma, la estructura espacial del genoma y el ADN. Temas importantes en biología como la relación entre el plegamiento y la relación entre la información del genoma y la evolución biológica.
4. Investigación sobre tecnologías y métodos de análisis de información biológica.
Incluyendo el desarrollo de software efectivo, bases de datos y varias herramientas de bases de datos que puedan respaldar las necesidades de secuenciación y mapeo a gran escala, como cuadrículas electrónicas y otras herramientas de comunicación remota, mejorando los métodos de análisis teórico existentes, como los métodos estadísticos, Pattern; los métodos de reconocimiento, los métodos de procesos ocultos de Markov, los métodos de redes neuronales, los métodos de análisis de complejidad, los métodos de criptografía, los métodos de comparación de secuencias múltiples, etc. crean todos los nuevos métodos y tecnologías adecuados para el análisis del genoma. Incluyendo la introducción de tecnología de análisis de sistemas complejos, tecnología de análisis de sistemas de información, etc.;
5.
Recopilar información genética humana relacionada con enfermedades, desarrollar tecnología de detección de información de secuencia de muestras de pacientes y tecnología para seleccionar vectores de expresión y cebadores basados en información de secuencia, establecer bases de datos relacionadas con el mejoramiento animal y vegetal, y diseño de macromoléculas y bases de datos relacionadas. al diseño de fármacos.
(2) Preguntas de investigación
1. Almacenamiento y gestión de big data biológicos
Incluida la estructura de almacenamiento, los estándares de almacenamiento, la tecnología de gestión, etc. big data. Los big data biológicos tienen una gran cantidad, una estructura compleja y diversos estándares de almacenamiento. Existen varias estructuras de datos, como datos no estructurados, datos semiestructurados y datos estructurados. ¿Y el sistema de base de datos paralelo distribuido? También es uno de los principales problemas en la tecnología de gestión y almacenamiento de big data biológicos
2 Visualización de big data biológicos
Debido a la enorme cantidad de big data biológicos. datos, tiene importancia biológica universal La visualización razonable puede ayudar a los biólogos a comprender y analizar rápidamente los datos biológicos.
3. Análisis y procesamiento de big data biológicos
La integración de datos multiómicos para el análisis computacional ha resuelto problemas biológicos prácticos.
(3) Tecnologías clave
Las tecnologías clave en el campo del big data biológico son:
1. Tecnología de estandarización, integración y fusión de big data biológicos.
Investigar tecnologías clave para la integración y fusión de datos ómicos, datos médicos y datos de salud, investigar y desarrollar ómicos, modelos de información de datos médicos y de salud y motores de integración, e investigar tecnologías de implementación de interfaces como mensajes y documentos. Basado en estándares y especificaciones nacionales y extranjeros. Tecnología de seguridad de red de tecnología de Internet de próxima generación y tecnología de transmisión de alto rendimiento.
2. Tecnología de acceso a almacenamiento, búsqueda e indexación de expresiones de big data biológico
Céntrese en los avances en la descripción de recursos de big data biológicos y la tecnología de acceso paralelo para crear una indexación eficiente y un almacenamiento escalable confiable de datos biológicos. El sistema de gestión de big data, basado en tecnologías clave como la recuperación semántica de recursos de big data biológicos y la búsqueda relacionada con datos biomédicos, establece un sistema de servicio de búsqueda y adquisición de recursos de big data biológicos.
3. Investigación sobre procesamiento, análisis y aplicación de big data de enfermedades cardiovasculares y enfermedades tumorales.
Para enfermedades cardiovasculares y enfermedades tumorales respectivamente, integrar registros médicos electrónicos, imágenes y datos de pruebas clínicas. etc. Escriba datos (que cubren más de 500.000 poblaciones individuales, con un volumen total de datos de 50 TB), lleve a cabo investigaciones sobre el procesamiento, almacenamiento, análisis y aplicación de big data médicos para proporcionar soporte de big data para mejorar el diagnóstico y el tratamiento de enfermedades importantes.
4. Basado en análisis e investigaciones de aplicaciones de procesamiento de big data médicos y de salud regionales
Seleccione datos médicos y de salud regionales que cubran más de 1 millón de grupos individuales y con un volumen total de datos de no. menos de 100 TB A través del procesamiento, almacenamiento, análisis e integración, construimos una base de conocimientos y una plataforma de soporte para servicios de salud y brindamos servicios de aplicaciones.
5. Tecnología de servicios y construcción de grandes centros de datos ómicos y bases de conocimientos
Integre datos ómicos, incluidos genoma, proteoma y otros datos ómicos, el volumen total de datos no es inferior a 100 TB, en al menos el 60% Los datos anteriores proporcionan acceso externo, centrándose en los avances en la tecnología de visualización del genoma personal, la anotación ómica y la tecnología de evaluación del riesgo de enfermedades, y el establecimiento de una base de conocimientos ómicos de big data y un motor de búsqueda, minería de datos y plataforma de análisis visual.