Cómo elegir el método de análisis estadístico correcto en la investigación clínica
a.
Condiciones para elegir métodos estadísticos
En la investigación científica clínica, la elección correcta de los métodos de análisis estadístico debe considerar plenamente el propósito del análisis de los investigadores científicos, el método de diseño de la investigación científica clínica, el tipo de datos recopilados, las características de distribución de los datos y las condiciones matemáticas y estadísticas involucradas.
Cualquiera de estas cuestiones no se considera o se considera incorrectamente, lo que puede llevar a una elección incorrecta de los métodos de análisis estadístico.
Además, la selección de los métodos de análisis estadístico debe completarse durante la etapa de diseño de la investigación, no después de que se complete el ensayo clínico o la recopilación de datos.
Al realizar análisis estadísticos de datos de investigación clínica y seleccionar métodos estadísticos, se deben considerar los siguientes factores:
1. Propósito del análisis
Para médicos y clínicos. epidemias Para los patólogos, antes de realizar análisis estadísticos, es necesario aclarar qué propósito pueden lograr los investigadores mediante el uso de métodos estadísticos.
En términos generales, los métodos estadísticos se pueden dividir en descripción e inferencia.
Una es la estadística descriptiva y la otra es la estadística inferencial.
La descripción estadística, es decir, el análisis estadístico más básico de datos utilizando indicadores estadísticos, cantidades estadísticas o tablas estadísticas, puede reflejar las características básicas de los datos y ayudar a los investigadores a comprender de manera precisa y completa la información contenida en los datos. datos, hacer inferencias científicas.
Tablas estadísticas, como tablas de frecuencia, tablas de cuatro cuadrículas, tablas de contingencia, etc. ;
Estadísticas, como cuadrado, circular, dispersión, etc. ;
Indicadores estadísticos, como media, desviación estándar, ratio y ratio de composición.
La inferencia estadística se refiere al uso de la información proporcionada por la muestra para inferir (estimar o comparar) la población, incluida la estimación de parámetros y la prueba de hipótesis, como el intervalo de confianza, la prueba t, el análisis de varianza, la prueba c2, etc. . , analizan si la eficacia de los dos grupos de fármaco A y B es diferente, y si la prevalencia de enfermedades de las uñas es diferente en diferentes regiones.
También existen algunos métodos estadísticos, incluida la descripción estadística y la inferencia estadística, como el análisis de la relación entre diferentes variables.
El análisis de correlación se puede utilizar para estudiar la correlación entre ciertos factores, y el coeficiente de correlación se puede utilizar para medir el grado y la dirección de la correlación entre varios factores, como hiperlipidemia y enfermedad coronaria, cervicitis crónica, Análisis de correlación del cáncer de cuello uterino;
El análisis de regresión se puede utilizar para estudiar la dependencia entre un factor y otro (variable), es decir, utilizar una variable para inferir otra variable. Por ejemplo, la ecuación de regresión establecida mediante el análisis de regresión se puede utilizar para calcular el peso del niño a partir de su edad.
2. Tipos de datos
Actualmente, los tipos de datos se dividen en dos categorías: datos de variables numéricas y datos de variables categóricas.
Las variables numéricas se refieren a variables cuyos valores se pueden medir cuantitativamente o con precisión, y se caracterizan por diferentes valores numéricos.
Las variables categóricas se refieren a variables cuyos valores no se pueden cuantificar; o medido, y su desempeño. No existen valores, sólo categorías o atributos incompatibles.
Las variables categóricas se pueden dividir en dos categorías: variables categóricas desordenadas y variables categóricas ordenadas. Las variables categóricas desordenadas se caracterizan por atributos o categorías que no tienen diferencia de tamaño. Por ejemplo, el género es una variable categórica desordenada de dos categorías y el tipo de sangre es una variable categórica desordenada de cuatro categorías;
Categórica ordenada. Las variables se caracterizan por diferentes atributos o categorías a caracterizar, como "leve, moderado, grave" clínicamente para una determinada enfermedad y "inválido, eficaz, mejorado, curado" como resultado del tratamiento.
Por lo tanto, los datos de variables numéricas, los datos de variables categóricas desordenadas y los datos de variables categóricas ordenadas también pueden denominarse datos de medición, datos de conteo y datos de calificación.
La clasificación de los tipos de datos está relacionada con la elección de los métodos estadísticos. En la mayoría de los casos, diferentes tipos de datos tienen diferentes métodos estadísticos.
Por ejemplo, se pueden utilizar métodos estadísticos como la prueba t y la prueba u para comparar datos de variables numéricas;
La prueba C2 se utiliza a menudo para comparar tasas de interés.
Vale la pena señalar que algunos investigadores clínicos a menudo convierten artificialmente los resultados de variables numéricas en indicadores clínicos de variables categóricas y luego participan en análisis estadísticos, como el contenido de hemoglobina del paciente.
Los investigadores suelen utilizar términos como normal, anemia leve, anemia moderada y anemia grave, lo que cuida los hábitos de trabajo clínico pero pierde la información proporcionada por los datos.
En otras palabras, en la mayoría de los casos, las variables numéricas proporcionan la información más rica, y los medios utilizados para el análisis estadístico son ricos, clásicos y fiables. En comparación con ellas, las variables categóricas no son tan buenas como las variables numéricas en estos aspectos.
Por lo tanto, en experimentos clínicos, se deben seleccionar indicadores cuantitativos tanto como sea posible para reflejar el efecto experimental. Si es realmente imposible de cuantificar, se deben seleccionar datos categóricos. Por lo general, no es apropiado convertir datos cuantitativos en datos categóricos.
3. Método de diseño
Entre los muchos métodos de diseño de investigación clínica, cada método de diseño tiene su propio método estadístico.
Al elegir métodos estadísticos, debe elegir los métodos de análisis estadístico correspondientes basados en diferentes métodos de diseño de investigación clínica.
Si la elección del método estadístico es inconsistente con el método de diseño, las conclusiones extraídas de cualquier análisis estadístico serán erróneas.
Entre los métodos de diseño de investigación científica comúnmente utilizados, se encuentran la prueba T de diseño de grupos (diseño completamente aleatorizado), la prueba T pareada, el análisis de varianza de diseño de grupos (diseño completamente aleatorizado) y el análisis de El diseño de varianza de compatibilidad (diseño de bloques aleatorios) son todas evidencias relacionadas con métodos estadísticos y métodos de diseño de investigación científica.
Por lo tanto, se debe prestar atención a distinguir entre diseño de grupo (diseño completamente aleatorio) y diseño de emparejamiento pareado (diseño de bloques aleatorios). En el diseño de grupo, se debe prestar atención a distinguir entre dos grupos y grupos múltiples.
El error más común es tratar los datos de un diseño pareado o de compatibilidad (diseño de bloques aleatorios) como un diseño de grupo (diseño completamente aleatorio). Por ejemplo, utilizar la prueba T de grupo para los datos del diseño. utilizar el análisis de varianza (diseño de bloques aleatorios) para los datos en un diseño capacitivo;
o utilizar múltiples pruebas t para comparar datos de diseños de grupos (diseños completamente aleatorios) de tres o más grupos, y use la prueba de chi-cuadrado de cuatro cuadrículas Comparar tres o más grupos de razones es un error clásico.
La siguiente tabla:
Tabla 1 Errores comunes de selección de métodos estadísticos relacionados con los métodos de diseño
Métodos estadísticos de métodos de diseño incorrectos y métodos estadísticos correctos
Comparación de dos medias (diseño de grupo, diseño completamente aleatorizado) Prueba T de diseño de grupo, prueba de suma de rangos de diseño de grupo
Comparación de medias múltiples (diseño de grupo, diseño completamente aleatorizado) diseño multigrupo Prueba T, análisis de varianza y prueba Q para diseño completamente aleatorio, prueba de suma de rangos y comparación por pares para diseño completamente aleatorio
Prueba T pareada, prueba T pareada y prueba de suma de rangos pareada para variables numéricas en diseño de grupo
Diseño de bloques aleatorios (diseño de compatibilidad) Prueba T para diseño multigrupo, análisis de varianza para diseño completamente aleatorio, análisis de varianza y prueba Q para diseño de bloques aleatorios, prueba de suma de rangos para diseño de bloques aleatorios Comparar con entre sí.
Prueba T, prueba T pareada, prueba de suma de rangos pareados, análisis de varianza de diseño cruzado, prueba de suma de rangos de diseño cruzado.
4. Características de la distribución y condiciones estadísticas matemáticas
La estadística matemática y la teoría de la probabilidad son la base teórica de la estadística.
Todo método estadístico implica fórmulas estadísticas matemáticas, que se derivan y establecen bajo ciertas condiciones.
En otras palabras, una fórmula estadística matemática sólo es válida cuando se cumplen una o ciertas condiciones. Si no se cumplen las condiciones, no se puede utilizar la fórmula estadística matemática.
Entre las condiciones para derivar y establecer fórmulas estadísticas matemáticas, las características de distribución de los datos son las más involucradas.
Las características de distribución de los datos se refieren a las leyes estadísticas matemáticas de los datos. Muchas fórmulas estadísticas matemáticas se deducen y establecen bajo distribuciones específicas.
Si los datos reales obedecen (se ajustan a) una determinada distribución, las estadísticas matemáticas de la distribución se pueden utilizar para analizar y procesar los datos reales; de lo contrario, no funcionará.
En el proceso de análisis estadístico de datos clínicos, las distribuciones más implicadas son la distribución normal, la distribución asimétrica y la distribución binomial.
Muchos métodos estadísticos requieren la distribución de los datos, como por ejemplo: media y desviación estándar, pruebas t y u
El análisis de varianza requiere que los datos obedezcan a una distribución normal, mientras que la mediana; y cuartiles Espaciado de dígitos, prueba de suma de rangos, etc. Se puede utilizar para datos que no siguen una distribución normal.
Por lo tanto, en el proceso de análisis estadístico de datos clínicos, se deben considerar las características de distribución de los datos. El requisito mínimo es estar familiarizado con la distribución normal y la distribución sesgada.
Por ejemplo, en la investigación científica clínica, muchas descripciones de datos no consideran las características de distribución de los datos, sino que eligen la media y la desviación estándar.
Por ejemplo, los valores de la imagen en sangre de los tumores ginecológicos antes de la quimioterapia se muestran en la siguiente tabla:
Los valores de la imagen en sangre de los tumores ginecológicos antes de la quimioterapia
Nombre del índice Número de casos Desviación estándar media Desviación Grado coeficiente valor p Coeficiente de curtosis valor p
Hemoglobina (g/L) 98111.99654386
Plaquetas (×109/L) 98173. 5887. 111. 3530. 3538 0. 8430. 0000001
Glóbulos blancos (×109/L)986.79302.7676438 0.2070.00038 0.2020.50083
A partir de los resultados anteriores, Podemos ver que si sólo observamos la media y la desviación estándar de los tres indicadores, es posible que los médicos no sospechen qué está mal.
Sin embargo, a través de la prueba normal, la hemoglobina del paciente obedeció la distribución normal, mientras que el coeficiente de asimetría y el coeficiente de curtosis de plaquetas y leucocitos no obedecieron la distribución normal (P < 0,05).
Por lo tanto, la métrica correcta para describir los niveles promedio de plaquetas y glóbulos blancos de un paciente es la mediana, y el grado de variación debe expresarse como el rango intercuartílico.
Además de las características de distribución de los datos, algunas fórmulas estadísticas matemáticas también tienen otras condiciones, como la homogeneidad de varianzas en la prueba t y el análisis de varianza, y el número teórico (t) en el chi -prueba del cuadrado.
En resumen, para que los investigadores clínicos puedan elegir correctamente los métodos estadísticos, primero deben dominar o estar familiarizados con los factores anteriores que afectan la elección de los métodos estadísticos.
En segundo lugar, también deben estar familiarizados y comprender las condiciones de aplicación de los métodos estadísticos utilizados habitualmente.
Dos.
Descripción de los datos
El contenido de la descripción estadística incluye indicadores estadísticos, cifras estadísticas y tablas, y su finalidad es expresar con mayor claridad las características básicas de los datos.
Esta sección solo analiza la selección correcta de indicadores estadísticos. Consulte otros libros para conocer el uso correcto de las tablas estadísticas.
65438
Existen dos tipos de indicadores que describen las características básicas de los datos de variables numéricas. Uno es un indicador que describe la tendencia de concentración, que refleja el nivel promedio de un conjunto de datos; el segundo es un indicador que describe el grado de dispersión, que se utiliza para reflejar los cambios en un conjunto de datos.
Ver Tabla 2 para conocer el nombre y ámbito de aplicación de cada indicador.
La Tabla 2 describe los indicadores comúnmente utilizados para datos de variables numéricas.
Información adecuada para el propósito del nombre del indicador
Media (X——)
Describe el nivel promedio, ubicación central, distribución normal o distribución normal de un conjunto de datos Distribución aproximadamente normal.
La mediana (m) es la misma que la media de una distribución asimétrica, una distribución desconocida y ilimitada en ambos extremos.
La media geométrica (g) es la misma que la media, la distribución lognormal y los datos geométricos.
Desviación estándar
Describe la variación y dispersión de un conjunto de datos
Distribución normal o distribución aproximadamente normal
Cuarto El espaciado de bits
(qu-QL) está sesgado como la desviación estándar, tiene una distribución desconocida y no está acotado en ambos extremos.
Rango (R) Variables numéricas con la misma desviación estándar y similar número de casos observados.
El coeficiente de variación (CV) es igual a la desviación estándar. Compara las diferencias entre varios conjuntos de datos.
Como se puede ver en la tabla, la combinación de media y desviación estándar describe las características básicas de datos distribuidos normalmente o aproximadamente normalmente;
Mediana y cuartiles La combinación de intervalos describe las características básicas de los datos de distribución asimétricos o desconocidos.
El error más común en la aplicación de estos indicadores descriptivos es usarlos aleatoriamente sin considerar sus condiciones de aplicación, como usar la media y la desviación estándar para describir una distribución sesgada, una distribución desconocida o datos ilimitados. Investigación clínica actual Errores comunes y típicos en la literatura.