Reflexiones sobre la minería de big data en la investigación médica virtual
1. Casos de investigación médica virtual basados en la minería de big data
Con el desarrollo actual de la minería de datos, según el concepto actual, debería ser así. Ser datos "grandes" La era de la excavación. Hablemos primero de algunos casos relacionados.
1.1 Ensayo clínico virtual: recopilación de big data
Veamos primero un caso de este tipo. En junio de 2011, Pfizer Pharmaceuticals Co., Ltd. anunció un estudio clínico "virtual", un proyecto piloto aprobado por la Administración de Alimentos y Medicamentos de EE. UU., con el acrónimo "REMOTE". El programa "remoto" es el primer estudio clínico en los Estados Unidos donde los pacientes sólo necesitan usar sus teléfonos celulares e Internet en lugar de hacer repetidos viajes al hospital. El objetivo de este proyecto es determinar si dichos estudios clínicos "virtuales" pueden producir los mismos resultados que los estudios clínicos tradicionales. La investigación clínica tradicional requiere que los pacientes vivan cerca del hospital y visiten regularmente el hospital o la clínica para exámenes iniciales y múltiples exámenes de seguimiento. Si este programa es eficaz, podría significar que los pacientes de todo Estados Unidos podrán participar en muchos estudios médicos en el futuro. De esta manera, los grupos que han estado subrepresentados en proyectos de investigación científica podrán participar, la recopilación de datos se acelerará enormemente, es probable que los costos se reduzcan considerablemente y la probabilidad de que los participantes abandonen también se reducirá considerablemente.
Podemos ver en los ejemplos anteriores que Internet se puede utilizar para recopilar datos clínicos de una gran cantidad de pacientes, que es mucho mayor que la cantidad de muestras de investigación clínica tradicionales, y algunos datos clínicos pueden venir desde dispositivos portátiles más convenientes. Si dicha investigación se lleva a cabo bajo condiciones de diseño riguroso de la investigación científica, implementación efectiva de estándares de calidad y control efectivo de diversos errores, la eficiencia de la investigación científica y la credibilidad de los resultados pueden mejorar significativamente. ¿Como la directora médica de Pfizer, Freda? Lewis-Hall dijo: "Involucrar a personas más diversas en la investigación puede impulsar el progreso médico y brindar mejores resultados a más pacientes".
1.2 Ensayos clínicos de medicamentos virtuales: minería de big data
Echemos un vistazo en otro caso. En 1992, se aprobó la comercialización del fármaco antidepresivo paroxetina (Paroxetina); del 65438 al 0996 se lanzó oficialmente el fármaco reductor del colesterol Pravalol. Los estudios de dos compañías farmacéuticas han demostrado que cada fármaco es eficaz y seguro cuando se toma solo. Sin embargo, nadie sabía si era seguro para los pacientes tomar ambos medicamentos al mismo tiempo y pocos habían siquiera pensado en ello. Investigadores de la Universidad de Stanford en Estados Unidos utilizaron tecnología de minería de datos para analizar los registros médicos electrónicos de decenas de miles de pacientes y rápidamente encontraron una respuesta inesperada: los pacientes que tomaban dos medicamentos al mismo tiempo tenían niveles más altos de azúcar en sangre. ¡Esto tiene un gran impacto en los diabéticos! Los científicos también están analizando los resultados de las pruebas de azúcar en sangre y las prescripciones de medicamentos para buscar patrones ocultos.
Para un solo médico, el número de pacientes que toman ambos fármacos es muy limitado. Aunque puede haber un pequeño número de pacientes diabéticos con aumentos inexplicables del azúcar en sangre, es difícil para los médicos darse cuenta de que esto se debe a que los pacientes toman paroxetina y provalidol al mismo tiempo. Dado que se trata de un patrón implícito oculto en los macrodatos, si nadie se especializa en estudiar la seguridad del uso combinado de paroxetina y Praga, será difícil para un solo médico revelar este patrón. Sin embargo, existen miles de fármacos clínicos. ¿Cómo estudiamos la seguridad y eficacia de cualquier combinación de dos o tres fármacos? ¡Es probable que la minería de datos se convierta en un método eficaz, rápido y proactivo para explorar las aplicaciones combinadas de múltiples fármacos!
Los investigadores no tienen que llamar a los pacientes para realizar ensayos clínicos, lo que sería demasiado costoso. La popularidad de los registros médicos electrónicos y sus aplicaciones informáticas ofrece nuevas oportunidades para la extracción de datos médicos. Los científicos ya no se limitan a la investigación tradicional reclutando voluntarios, sino que seleccionan cada vez más datos de experimentos de la vida real, como una gran cantidad de casos clínicos diarios, y realizan estudios virtuales. Estos no son datos experimentales de proyectos planificados y se almacenan en los registros médicos de muchos hospitales.
Al igual que en este caso, la aplicación de tecnología de datos permite a los investigadores descubrir problemas que no se habían previsto cuando se aprobó la comercialización de un medicamento, como por ejemplo, cómo un medicamento podría afectar a una población específica. Además, la extracción de datos de registros médicos no sólo aportará beneficios a la investigación sino que también mejorará la eficiencia del sistema de prestación de atención sanitaria.
1.3 Descubrimiento de objetivos de fármacos virtuales-descubrimiento de conocimientos
Echemos un vistazo a este tipo de investigación nuevamente. Por lo general, el proceso de desarrollo de nuevos medicamentos es relativamente largo, implica enormes inversiones y conlleva altos riesgos. Según las estadísticas, el tiempo promedio para la investigación y el desarrollo de nuevos medicamentos es de hasta 15 años y el costo promedio supera los 800 millones de dólares.
Sin embargo, debido a la escasa eficacia de los fármacos y a los graves efectos secundarios, el desarrollo de muchos fármacos a menudo fracasa en la fase clínica, provocando enormes pérdidas económicas. Como fuente de investigación y desarrollo de fármacos, el descubrimiento y la identificación de objetivos farmacológicos desempeñan un papel crucial en la tasa de éxito de la investigación y el desarrollo de fármacos. Con el desarrollo continuo de la tecnología bioinformática, los datos de la proteómica y la genética química aumentan día a día. La aplicación de la tecnología de extracción de datos combinada con la tecnología experimental biológica tradicional puede proporcionar nuevos medios técnicos para el descubrimiento de nuevos objetivos farmacológicos y proporcionar una base para el desarrollo. la identificación de objetivos. Proporcionar nuevos métodos de identificación y predicción. Construir una base de datos de objetivos de fármacos y utilizar tecnología informática inteligente y tecnología de extracción de datos para realizar una exploración en profundidad de los datos de objetivos de fármacos existentes para descubrir nuevos objetivos de fármacos es una investigación de este tipo, que también llamamos descubrimiento de conocimiento de objetivos de fármacos.
El descubrimiento de objetivos farmacológicos tradicionales generalmente se logra mediante una gran cantidad de experimentos bioquímicos repetidos, lo que no solo es costoso, ineficiente y tiene una baja tasa de éxito, sino que es como un ciego palpando un elefante. y es difícil captar la dirección. La aplicación de la minería de datos, una tecnología de exploración automática, activa y eficiente, puede llevar a cabo el descubrimiento de objetivos de fármacos virtuales, lo que no solo acelera en gran medida el proceso de descubrimiento de objetivos de fármacos, sino que también reduce en gran medida la cantidad y el costo de los experimentos bioquímicos y mejora la Eficiencia de los experimentos bioquímicos tradicionales.
2. Aplicación de la minería de datos en la investigación médica virtual.
En la era del big data, la I+D de productos farmacéuticos se enfrenta a más desafíos y oportunidades. Para ahorrar más costos de I + D, mejorar la tasa de éxito de la investigación de nuevos medicamentos y desarrollar nuevos medicamentos más competitivos, se puede aplicar tecnología de minería de datos para llevar a cabo investigaciones médicas virtuales y de medicamentos. La aplicación de la minería de datos en la investigación médica virtual se puede resumir de la siguiente manera.
2.1 Ayudar a las empresas farmacéuticas a reducir los costes de I+D y mejorar la eficiencia de la I+D mediante modelos predictivos. El modelo se basa en conjuntos de datos de ensayos preclínicos de fármacos y conjuntos de datos clínicos iniciales, y puede predecir los resultados clínicos lo más rápido posible. Los factores evaluados incluyen la seguridad del producto, la eficacia, los posibles efectos secundarios y los resultados generales de las pruebas. El modelado predictivo puede reducir los costos de I+D para las empresas de productos farmacéuticos. La investigación sobre medicamentos subóptimos puede suspenderse o los costosos ensayos clínicos de medicamentos subóptimos pueden detenerse después de predecir los resultados clínicos de un fármaco mediante modelos y análisis de datos.
2.2 Mediante la extracción de datos de pacientes, evaluar si los pacientes reclutados cumplen con las condiciones del ensayo, acelerando así el proceso del ensayo clínico y proponiendo sugerencias de diseño de ensayos clínicos más efectivas. Por ejemplo, los métodos de agrupación se utilizan para agrupar la población de pacientes y descubrir características como la edad, el sexo, la condición y los indicadores de laboratorio. y determinar si se cumplen las condiciones de la prueba, y se puede establecer mejor un grupo de control en función de estas características.
2.3 El análisis de los datos de los ensayos clínicos y de los registros médicos de los pacientes puede identificar más indicaciones de fármacos y descubrir efectos secundarios. Después de analizar los datos de los ensayos clínicos y los registros de los pacientes, los medicamentos pueden reposicionarse o comercializarse para otras indicaciones. Al extraer datos experimentales mediante análisis de correlación y otros métodos, es posible encontrar algunos resultados inesperados, lo que mejora enormemente la utilización de los datos.
2.4 La recopilación en tiempo real o casi en tiempo real de informes de reacciones adversas puede promover la farmacovigilancia. La farmacovigilancia es un sistema de garantía de seguridad de los medicamentos comercializados que monitorea, evalúa y previene reacciones adversas a los medicamentos. A través de métodos de extracción de big data, como la agrupación y la correlación, podemos comprender las reacciones adversas a los medicamentos, el rendimiento de los medicamentos, las enfermedades y las reacciones adversas, y si están relacionadas con ciertos componentes químicos. Por ejemplo, análisis de conglomerados de síntomas de reacciones adversas, análisis de correlación entre componentes químicos y síntomas de reacciones adversas, etc. Además, en algunos casos, los ensayos clínicos han insinuado enfermedades pero no han tenido suficientes datos estadísticos para probarlas. Los análisis basados en big data de ensayos clínicos ahora pueden proporcionar evidencia.
2.5 Investigación y desarrollo de medicamentos dirigidos: desarrollar medicamentos personalizados mediante el análisis de grandes conjuntos de datos (como datos genómicos). Esta solicitud examina la relación entre la variación genética, la susceptibilidad a enfermedades específicas y la respuesta a medicamentos específicos, y luego considera los factores de variación genética individual en el desarrollo y administración de medicamentos. En muchos casos, los pacientes son tratados con el mismo régimen farmacológico pero responden de manera diferente, en parte debido a variaciones genéticas. Desarrollar diferentes medicamentos para diferentes pacientes con la misma enfermedad, o darles usos diferentes.
2.6 Explorar la combinación de componentes químicos y efectos farmacológicos de los fármacos para inspirar al personal de I+D. Por ejemplo, para la investigación y el desarrollo de la medicina tradicional china, la minería de datos se utiliza para analizar y estudiar las prescripciones y síntomas de la medicina tradicional china, explorar la relación entre prescripciones y síntomas y analizar las características de clasificación desde los aspectos de eficacia, meridiano. tropismo, propiedades medicinales, sabor medicinal, etc.
3. Sistema virtual de análisis de ensayos clínicos de medicamentos
Hoy en día, cada vez más investigaciones científicas clínicas y ensayos clínicos de medicamentos, a través de un estricto control de condiciones, generan big data del trabajo clínico diario. . Al igual que los casos mencionados en 1.1 y 1.2 de este artículo, el llamado ensayo clínico virtual de medicamentos consiste en recopilar una gama más amplia de datos clínicos de una gran cantidad de registros médicos electrónicos hospitalarios y examinar condiciones estrictas por adelantado de acuerdo con los requisitos de diseño. y realizar ensayos clínicos. Aunque es un método virtual en lugar de un método tradicional, las muestras de investigación de ensayos clínicos de este tipo de fármaco son más amplias, el costo es bajo, la eficiencia es alta y los resultados de la investigación son muchos. El método de investigación virtual puede reemplazar por completo algunas investigaciones clínicas de fármacos tradicionales y también puede utilizarse como prueba preliminar o investigación exploratoria para algunas investigaciones clínicas de fármacos tradicionales, lo que hace que la investigación clínica de fármacos real sea más, más rápida, mejor y más económica. Ahora echemos un vistazo a cómo funciona un sistema virtual de análisis de ensayos clínicos de fármacos.
3.1 Ideas básicas de la investigación virtual de fármacos
1. Construcción de un almacén de datos de ensayos clínicos de fármacos, integrando y acumulando plenamente datos clínicos y de aplicación de fármacos. 2. Diseño y selección de muestras del grupo de observación y del grupo control en ensayos clínicos de fármacos. 3. Utilizar tecnología de minería de datos para explorar los efectos y efectos secundarios de los medicamentos en el tratamiento de enfermedades. 4. Utilizar técnicas estadísticas para inferir y evaluar los efectos de los ensayos clínicos de fármacos.
3.2 Establecimiento de un almacén de datos clínicos de medicamentos
Existen dos métodos para construir un almacén de datos de ensayos clínicos de medicamentos. Una forma es adaptar y recopilar datos relevantes mediante diseños de ensayos clínicos de fármacos clásicos. El método tradicional es principalmente el registro de documentos en papel, y también existen programas especiales de entrada de datos. Los datos recopilados por este método se diseñan de antemano y forman directamente datos especiales para ensayos clínicos de medicamentos, pero generalmente los datos de muestra no son demasiado grandes. El otro método es extraer, convertir y cargar una gran cantidad de datos clínicos históricos de medicamentos; el hospital y luego integrarlo completamente. Los otros datos clínicos acumulados y los datos de aplicación de medicamentos forman una fuente de datos de ensayos clínicos de medicamentos para brindar soporte para generar datos de ensayos clínicos de medicamentos. Estos datos de muestra pueden ser grandes y el método que demostraremos más adelante es utilizar estos datos para seleccionar y analizar muestras "virtuales".
3.3 Diseño de muestras para ensayos clínicos de fármacos
De acuerdo con las necesidades de la investigación de fármacos, existen muchos diseños de muestras para ensayos clínicos de fármacos, como el diseño de un solo factor y de un solo nivel, diseño de dos niveles de un solo factor, diseño de múltiples niveles de un solo factor, diseño pareado, diseño de bloques, diseño de medidas repetidas, etc. A continuación se utiliza un diseño de bloques de dos factores como ejemplo para presentar la selección de muestras. Este ejemplo es sólo para demostrar el método y no tiene en cuenta la estricta importancia médica profesional.
La enfermedad en este estudio fue la cardiopatía aterosclerótica y el factor de tratamiento fue el consumo de drogas. * * *Hay tres medicamentos: betaloc, novolina y dinitrato de isosorbida. El factor del grupo de bloques fue la edad, dividida en tres grupos de edad. El índice de observación fue el sodio sérico. Nuestro diseño de investigación científica se basa en los "tres elementos y cuatro principios" para la selección de datos. Los llamados "tres elementos" son la población de investigación, los factores de procesamiento y los objetos de observación. Los llamados cuatro principios se refieren al principio de aleatoriedad, el principio de comparación, el principio de repetibilidad y el principio de equilibrio. De acuerdo con las condiciones de entrada que se muestran en la Figura 1 a continuación, el conjunto de datos se puede filtrar y luego se puede realizar el análisis estadístico utilizando herramientas de análisis estadístico.
3.4 Minería de datos clínicos de medicamentos
La aplicación de la tecnología de minería de datos no solo puede mejorar la utilización de los datos clínicos de medicamentos, sino también explorar y descubrir nuevos efectos positivos y negativos en la aplicación clínica. de drogas. Utilizando una variedad de métodos de extracción de datos para analizar datos de ensayos clínicos y datos electrónicos de pacientes, se pueden identificar más indicaciones de medicamentos y descubrir efectos secundarios desconocidos. Una vez extraídos y analizados los datos de los ensayos clínicos y los registros de los pacientes, los medicamentos se pueden reposicionar o promocionar para otras indicaciones. Se pueden descubrir algunos resultados inesperados extrayendo datos de ensayos de medicamentos, lo que mejora en gran medida la eficiencia de la aplicación de los datos.
Por ejemplo, utilizamos métodos de minería de datos para realizar investigaciones en profundidad sobre el impacto de los medicamentos en los indicadores de laboratorio. Explorar y descubrir los efectos positivos y negativos de los medicamentos en aplicaciones clínicas se puede llevar a cabo observando múltiples características médicas e indicadores fisiológicos de los pacientes antes y después de tomar medicamentos. La observación de indicadores de laboratorio más objetivos es uno de los diseños necesarios para muchos estudios de medicamentos. El siguiente es un estudio sobre la aplicación de Betaloc en el tratamiento de la enfermedad coronaria. Aplicamos técnicas de extracción de datos relevantes para analizar el impacto de los cambios en la concentración sanguínea de betaloc en varios indicadores de laboratorio de los pacientes, como se muestra en la Figura 2 a continuación, que muestra los resultados del impacto de algunos indicadores de laboratorio.
Los resultados anteriores deben discutirse con el personal médico clínico y los investigadores de fármacos.
Después de excluir varios factores humanos y factores objetivos de los sistemas comerciales, podemos descubrir los efectos previamente desconocidos de Betaloc en los indicadores fisiológicos de los pacientes. Algunos pueden ser efectos médicamente positivos y otros pueden ser efectos médicamente negativos.
3.5 Diseño de análisis estadístico
El módulo de análisis estadístico del sistema virtual de análisis de ensayos clínicos de medicamentos incluye métodos de análisis estadístico comúnmente utilizados en la investigación y el desarrollo de medicamentos, como la prueba T, el análisis de varianza, análisis de correlación y análisis de regresión, pruebas no paramétricas, etc. El pensamiento de diseño se basa en el pensamiento estadístico. Primero, se verifican los datos y se selecciona el método de análisis estadístico en función de los resultados de la verificación. Tomemos como ejemplo un diseño de medidas repetidas.
La enfermedad en este estudio es la enfermedad cardíaca aterosclerótica, el factor de tratamiento es la medicación Betaloc y el indicador de observación es el influyente indicador de potasio en sangre que encontramos a partir de la extracción de datos. Podemos utilizar el módulo proporcionado en 3.3 para extraer y analizar las muestras filtradas, o podemos seleccionar directamente los datos requeridos de este módulo para su análisis. Existen dos métodos para el análisis de medidas repetidas, uno es la prueba T2 de Hotelling y el otro es el análisis de varianza. El sistema proporciona ambos métodos de prueba estadística.
La Figura 3 a continuación muestra algunos datos de ejemplo:
Aquí, solo observamos el resultado del método ANOVA, como se muestra en la Figura 4 a continuación.
Como se puede ver en la figura, según el valor de P, el factor de tratamiento "Betaloc" tiene un impacto en el potasio en sangre, el tiempo de medición tiene un impacto en el potasio en sangre y el factor de tratamiento y El tiempo de medición tiene una interacción. Por lo tanto, se validan los resultados obtenidos a través de nuestra aplicación de minería de datos.
4. Aplicación de la minería de datos en la investigación y el desarrollo de la medicina tradicional china
En lo anterior, nos centramos en la investigación y aplicación de la medicina occidental como ejemplo para ilustrar lo virtual. Método de investigación médica caracterizado por la minería de datos. De hecho, la minería de datos y la investigación de medicamentos virtuales también son muy adecuadas para la investigación de la medicina tradicional china, porque la medicina tradicional china en sí misma es una medicina después de miles de años de exploración, acumulación y verificación continuas, y tiene un enorme sistema de conocimientos. sistema teórico completo Sin embargo, todavía necesitamos aplicar el conocimiento moderno para comprenderlo, excavarlo, mejorarlo y aplicarlo continuamente para integrarlo mejor con la ciencia moderna. ¡Y la minería de datos es una herramienta poderosa para explorar y explicar los misterios de la medicina tradicional china!
Muchas unidades en China también han hecho algunos intentos locales de extracción de datos de la medicina tradicional china. Estos intentos de extracción de datos en la investigación de la medicina tradicional china se resumen a continuación: 1. Extracción de datos de texto en prescripciones de la medicina tradicional china; 2. Extracción de "ingredientes activos": monómeros o componentes químicos que desempeñan un papel clave en la "farmacología"; Extracción de datos e investigación sobre las reglas de compatibilidad de las prescripciones de la medicina tradicional china: 4. Extracción de datos de la relación entre la base material y la eficacia de la compatibilidad de las prescripciones, como síntomas y síntomas 5. Extracción de la relación entre la dosis de las prescripciones y la eficacia; nivel de prescripciones (relaciones y modelos dosis-efecto); 6. Explorar la relación entre la teoría de las propiedades de la medicina tradicional china y los ingredientes activos de la medicina tradicional china; 7. Explotar la correlación entre los medicamentos en las prescripciones; similitudes de enfermedades similares; 9. Minería y estudio de diferentes prescripciones para la misma enfermedad. 10. La extracción de datos se utiliza para la clasificación e investigación de enfermedades inexactas.