Red de conocimientos sobre prescripción popular - Enciclopedia de Medicina Tradicional China - Desbloquee las estadísticas descriptivas adecuadas para el análisis de datos

Desbloquee las estadísticas descriptivas adecuadas para el análisis de datos

¿Qué haces cuando obtienes un conjunto de datos?

¿Arremangarse y realizar análisis de inmediato? Este no es un buen consejo. Innumerables experiencias nos dicen que si los analistas no comprenden primero la calidad del conjunto de datos, el análisis de inferencia posterior será ineficaz.

El enfoque correcto es utilizar primero estadísticas descriptivas.

¿Qué son las estadísticas descriptivas?

Es una forma de resumir de manera integral un conjunto de datos, incluido el procesamiento y visualización de datos, las características de distribución del conjunto de datos, etc. Se hace eco de las estadísticas inferenciales.

Antes de adentrarse en el estudio de la estadística, primero aclarar los conceptos básicos.

Los datos se pueden dividir en datos categóricos y datos numéricos. Los datos categóricos determinan el tipo de variables, como género, región y varias categorías; los datos numéricos representan el tamaño y la cantidad de valores, como 18, 19 y 20 años.

La diferencia más obvia es que la suma y la resta no se pueden utilizar para datos categóricos, pero sí para datos numéricos. Los dos son convertibles hasta cierto punto. Por ejemplo, la edad, 18 años, son datos numéricos, pero también se pueden convertir en datos categóricos "juvenil". También podemos usar valores numéricos para representar datos categóricos, como 0 para mujeres y 1 para hombres. Todavía no tiene sentido computacional, pero es más fácil de almacenar en una computadora.

La aplicación específica de datos categóricos y datos numéricos se seguirá profundizando en futuras investigaciones. Este artículo se centrará primero en los datos numéricos.

Medición de datos

El promedio es una medida de la posición de los datos, utilizada para comprender los datos generales, aprendida en la escuela primaria. Sin embargo, el promedio no es una medida definitiva. Cuando se trata del salario promedio nacional, todos somos gente común y corriente, promediados por el padre de Jack Ma y el padre de Wang Jianlin.

El valor medio se ve fácilmente afectado por valores extremos, porque no se puede garantizar que el conjunto de datos esté "limpio" y a menudo se alteran varios datos de cálculo. Por ejemplo, los recolectores de lana aumentarán el nivel medio de las campañas de marketing. En términos generales, podemos utilizar la media ajustada para eliminar fluctuaciones anormales, eliminar una cierta proporción de valores máximos y mínimos en el conjunto de datos, como el 5%, y luego recalcular el promedio.

Como no es confiable, encontremos la mediana. Después de ordenar todos los datos en orden ascendente, el valor medio es la mediana. Cuando el conjunto de datos es impar, la mediana es el valor medio; cuando el conjunto de datos es par, la mediana es el promedio de los dos números medios. Este es también el contenido de la escuela primaria.

Otra métrica es la moda, que son los datos que aparecen con mayor frecuencia en el conjunto de datos. Cuando hay múltiples modos, se llama multimodal. Este modo se usa con menos frecuencia que los dos primeros y se usa más para la clasificación de datos.

La media, la mediana y la moda constituyen métodos de medición estándar. Pero esto no es suficiente.

Los analistas de datos suelen dividir los datos en cuatro partes, cada parte contiene el 25% del conjunto de datos, y los puntos de división se denominan cuartiles.

Los datos se ordenan en orden ascendente. El percentil 25 se denomina primer cuartil Q1, el percentil 50 se denomina segundo cuartil Q2, que es la mediana, y el percentil 75 se denomina tercer cuartil Q3. Estos tres puntos pueden ayudar a medir la distribución de los datos.

Diferencias y cambios en los datos

Consideremos un nuevo problema. Ahora una empresa de comercio electrónico quiere vender dos productos del mismo tipo. Su volumen de ventas semanal (unidad: uno) es el siguiente:

Producto A: 10, 10, 10, 11, 12, 12. .

Ítem B: 3, 5, 6, 11, 16, 17, 19.

Su media y mediana son iguales, pero ¿cuál es su verdadero estado? Por supuesto que no. Como producto básico, preferimos productos con ventas estables.

La varianza es un indicador que puede medir la "estabilidad" de los datos. La explicación más popular es medir la variabilidad de los datos, que también se denomina grado de dispersión.

La fórmula para calcular la varianza es el promedio de la suma de los cuadrados de la diferencia entre cada punto de datos y su media.

La fórmula anterior es el cálculo de la varianza del conjunto de datos general. Cuando los datos están cerca de una muestra parcial, n debe cambiarse a n-1. Cuando el conjunto de datos es lo suficientemente grande, también se puede ignorar el error entre ellos.

Ahora calcule la varianza de los productos anteriores. La fórmula de varianza en Excel es VARP(). Si se trata de datos de muestra, es var(). Las diferentes versiones de Excel tienen ligeras diferencias en la funcionalidad.

Cuanto mayor es la varianza, mayor es la dispersión del conjunto de datos. La fluctuación de las ventas del producto A es obviamente más estable que la del producto B. En el cálculo de la varianza, ya que la suma de los cuadrados es. En este caso, la dimensión de la unidad es cuadrada (la varianza de los bienes A y B, en unidades de 2), es difícil de explicar intuitivamente. Entonces introdujimos la desviación estándar.

La desviación estándar es la raíz cuadrada de la varianza:

En Excel, la función de cálculo para la desviación estándar es stdevp(), si se trata de datos de muestra, es stdev().

La varianza y la desviación estándar tienen el mismo significado, pero la desviación estándar tiene la misma dimensión unitaria que los datos originales, lo que facilita la comparación con medidas como la media. Por ejemplo, el volumen de ventas promedio del producto A es 11 y la desviación estándar es 0,85, entonces sabemos que las ventas de este producto son estables.

El teorema de Chebyshev establece que al menos el 75% de los valores de los datos están dentro de 2 desviaciones estándar, al menos el 89% están dentro de 3 desviaciones estándar y al menos el 94% están dentro de 4 desviaciones estándar. Este es un teorema muy conveniente para comprender rápidamente el alcance de sus datos.

Suponiendo que el salario promedio en Shanghai es de 20 000 y la desviación estándar es de 5 000, alrededor del 90 % de los salarios están en el rango de 5 000 a 35 000.

Si los datos en sí siguen una distribución normal (en forma de campana), la estimación del teorema de Chebyshev será más precisa: el 68% de los datos caen dentro de una desviación estándar de la media, y el 95% de la media los valores de los datos se encuentran dentro de dos desviaciones estándar de la media, casi todos los datos se encuentran dentro de tres desviaciones estándar.

En Excel, existe una herramienta importante llamada biblioteca de análisis de datos (algunas versiones de Excel deben instalarse y buscarse usted mismo), que encapsula una gran cantidad de herramientas estadísticas.

Haga clic en Estadísticas descriptivas, seleccione el área a calcular, configúrela columna por columna y seleccione el bloque U2 al lado del área de salida. Genere los resultados del cálculo.

Todo lo que aparece en la columna 1 pertenece a varias medidas de la estadística descriptiva. No tenemos que calcular todas las funciones.

La varianza y la desviación estándar son conceptos importantes que seguirán apareciendo en estadísticas posteriores.

Diagrama de bloques de datos

Volviendo a la medición, los contenidos anteriores son todos métodos numéricos, pero aún no son lo suficientemente intuitivos.

Primero resumimos cinco tipos de datos: valor mínimo, primer cuartil Q1, valor mediano, tercer cuartil Q3 y valor máximo.

Tomemos como ejemplo los datos salariales de los analistas de datos.

Lo anterior son los datos limpios. Usamos funciones de Excel para calcular estos cinco indicadores. Son Mediana(), Máximo(), Mínimo() y Cuarto(). Por ciudad.

A través de los datos, ahora podemos comprender la distribución salarial de los analistas de datos en varias ciudades y luego procesarla en un diagrama de caja, que es el cuadro estadístico descriptivo más utilizado.

El diagrama de caja determina la ubicación utilizando las cinco cifras que calculamos.

Los bordes superior e inferior del diagrama de caja son el valor máximo y el valor mínimo respectivamente (en realidad no, así que aquí es para facilitar la comprensión), y los límites superior e inferior del cuadro son los 25 % cuantil y el cuantil 75% respectivamente. La línea horizontal en el cuadro es el valor mediano. Los valores atípicos son valores fuera del borde de la línea del cuadro y deben eliminarse directamente.

Excel2016 puede dibujar diagramas de caja directamente. Si es una versión inicial, hay dos ideas de dibujo.

La primera es utilizar el gráfico de precios de acciones. Organice el gráfico en orden de 25% cuantil, valor máximo, valor mínimo y 75% cuantil.

Luego genere el gráfico directamente:

Este gráfico no tiene un valor mediano y debe agregarse. La fuente de datos crea una nueva serie que debe ajustarse a la mitad de la fuente de datos.

Seleccione el formato de serie de datos mediana, cambie la etiqueta a "-", el tamaño a 12 y el color a negro. En este punto, tenemos el prototipo de un diagrama de caja.

Otra idea es dibujar las barras de error del gráfico de dispersión, que es igual que el diagrama de Gantt. Practícalo tú mismo.

De hecho, podemos ver en el gráfico que, aunque dibujamos un diagrama de caja, las diferencias de datos entre diferentes ciudades no son intuitivas porque el valor máximo admite el borde del diagrama de caja. A menudo nos encontramos con estos valores atípicos que afectan la calidad del análisis (aunque los valores excesivamente atípicos son razonables, muchos análisis deben eliminarse). Necesitamos limpiar estos valores atípicos.

Defina la dispersión intercuartil IQR=Q3 (75% cuantil)-Q1 (25% cuantil), y el límite del diagrama de caja es (Q1-1.5IQR, Q3+1.5IQR). Todos los valores fuera de los límites son valores atípicos.

La parte inferior y la superior son los nuevos límites, y los datos fuera de los límites se consideran valores atípicos. Los datos dentro de los límites son el cuerpo del diagrama de caja, y luego se encuentran los valores máximo y mínimo dentro de los límites. Por ejemplo, el límite de Shanghai está entre -5 y 39, y el rango real de datos dentro del límite es 1,5 ~ 37,5, luego dibuje un cuadro con 1,5 ~ 37,5.

Ahora que tienes los cinco indicadores reales, puedes volver a dibujar el diagrama de caja (necesitamos usar inferior y superior para encontrar los nuevos valores máximo y mínimo en el rango). Para facilitar la demostración, lo generé directamente en Python (el BI enseñado antes también se puede usar y se ve mejor).

Es mucho más intuitivo que el diagrama dibujado por Excel. La línea roja es el estándar salarial que pueden obtener los analistas de datos de nivel medio en cada ciudad. El intervalo de la línea azul superior son los tramos medio y superior, el intervalo de la línea azul inferior son los tramos medio e inferior, y así sucesivamente. En resumen, la población se divide en cuatro categorías.

Interpretémoslo: el rango salarial de los analistas de datos en Shanghai, Beijing y Shenzhen es similar, pero las personas en los niveles medio y alto pueden obtener salarios más altos en Beijing porque la posición media es más alta. Xi, Changsha y Tianjin no favorecen el desarrollo de los analistas de datos. El nivel de Hangzhou es cercano al de Beijing y Shenzhen, pero el tope salarial es limitado.

Puedes ver muchas cosas en esta imagen de un vistazo. Creo que todos comprenden la función del diagrama de caja, que puede leer la distribución general y la tendencia sesgada (asimetría) de los datos.

Interpretar rápidamente datos a través de gráficos (los histogramas y los diagramas de dispersión también son estadísticas descriptivas) es una de las habilidades básicas de un analista de datos.

Piénselo, si se trata de un análisis de datos de O2O, ¿podemos juzgar rápidamente las condiciones operativas de cada ciudad? Si se trata de finanzas, ¿puedes dividir a las personas en diferentes grupos y ver la diferente distribución de sus negocios? Si se trata de un comercio electrónico, ¿serán muy diferentes los datos de marketing de las diferentes categorías? La segmentación en diferentes dimensiones es valiosa.

El diagrama de caja es un gráfico excelente. Aunque es más complicado en Excel (actualizado a 2016), en lenguaje Python y R tarda diez segundos en funcionar.