¿Cuáles son los pasos para el análisis de datos?
Un escenario típico es que necesitamos analizar datos empresariales, como datos de ventas, datos de usuarios, datos operativos, datos de producción de productos... ¿Qué información útil necesita obtener de esto? ¿Datos para guiar la formulación de estrategias? Por ejemplo, lo que necesitas hacer es una investigación de mercado o un análisis de la industria, por lo que necesitas saber qué información necesitas obtener sobre esta industria.
En primer lugar, es necesario determinar ¿cuál es el problema del análisis? ¿Qué conclusión quieres sacar?
Por ejemplo, ¿cuál es la tendencia cambiante de la calidad del aire en una zona determinada?
¿Cómo son los retratos de los usuarios de los jugadores de Honor of Kings? ¿Qué clase de persona gasta mucho dinero?
¿Cuáles son los factores clave que afectan el crecimiento de las ventas de la empresa?
¿Cuáles son los indicadores centrales que afectan la productividad y la calidad en el proceso de producción?
¿Cómo analizar los retratos de los usuarios y realizar un marketing preciso?
¿Cómo predecir el comportamiento del usuario en una determinada etapa del futuro basándose en datos históricos?
Estas preguntas pueden surgir de su experiencia y conocimientos existentes. Por ejemplo, si ya sabes que los usuarios compran diferentes cantidades en diferentes momentos de la semana, entonces puedes analizar la relación exacta entre las ventas y el tiempo para preparar tu inventario con precisión. Por ejemplo, usted sabe que la calidad del aire en Beijing ha ido empeorando cada vez más en los últimos años. Los posibles factores incluyen las emisiones de las fábricas, las tormentas de arena, las emisiones de los residentes, los factores climáticos, etc. Por lo tanto, al definir el problema, es necesario pensar con claridad y analizar qué factores deben considerarse.
Algunas preguntas no están claras, por ejemplo, en el proceso de producción, ¿cuáles son los indicadores centrales que afectan la calidad o cuáles son las materias primas? ¿Nivel de equipamiento? ¿Nivel de trabajador? ¿Cómo está el clima? ¿Complejidad de un proceso? ¿Cuántas veces es necesario repetir una cirugía? .....Estos pueden no ser obvios, o si se está aventurando en un nuevo campo sin conocimientos muy especializados, entonces el problema que necesita definir debe ser más amplio y cubrir más posibilidades.
La definición del problema puede requerir que usted comprenda el conocimiento central del negocio y adquiera cierta experiencia que pueda ayudarlo a analizarlo. Hasta cierto punto, esto es también lo que solemos llamar pensamiento de datos. El análisis de datos a menudo puede ayudarlo a encontrar correlaciones que nos resultan difíciles de encontrar, pero una definición precisa del problema puede mejorar en gran medida la eficiencia del análisis de datos.
¿Cómo definir mejor el problema?
Esto requiere que encuentres la sensación de los datos en un entrenamiento a largo plazo. Cuando empiezas, terminas con datos extremadamente grandes con muchos campos, lo que puede resultar muy embarazoso. ¿Por dónde deberías empezar?
Pero será mucho mejor si tienes algo de experiencia. Por ejemplo, si desea estudiar los factores físicos que afectan la velocidad de un corredor, entonces podemos estudiar la altura, la longitud de las piernas, el peso o incluso la frecuencia cardíaca, la presión arterial y la longitud del brazo del atleta, pero no estudiaremos la axila del atleta. longitud del cabello Esto se basa en nuestro conocimiento existente. Por otro ejemplo, si desea analizar los factores que influyen en los precios de la vivienda en un lugar, es posible que tenga algo de sentido común, como la población urbana, la ubicación geográfica, el PIB, los precios de la tierra, los niveles de precios y, además, puede haber una estructura industrial. , condiciones culturales, condiciones climáticas, etc., pero generalmente no estudian la apariencia y la proporción de belleza de las niñas en las ciudades.
Entonces, si analiza muchos problemas, se volverá más sensible a los datos y adquirirá el hábito de utilizar el análisis de datos para hablar. En este momento, incluso puede hacer juicios y predicciones preliminares basados en algunos datos y su propia experiencia (por supuesto, no puede reemplazar la predicción precisa de una muestra completa). En este punto, básicamente tienes pensamiento de datos.
2. Recopilación de datos
Con preguntas específicas es necesario obtener datos relevantes. Por ejemplo, si desea explorar la tendencia cambiante de la calidad del aire de Beijing, es posible que necesite recopilar datos sobre la calidad del aire de Beijing, datos meteorológicos o incluso datos de fábricas, datos de emisiones de gases, datos de horarios importantes, etc. de los últimos años. Si desea analizar los factores clave que afectan las ventas de la empresa, debe llamar a los datos históricos de ventas de la empresa, los datos de retratos de usuarios, los datos publicitarios, etc.
Existen muchas formas de obtener datos.
En primer lugar, los datos de ventas y usuarios de la empresa se pueden recuperar directamente de la base de datos empresarial, por lo que necesita conocimientos de SQL para completar la gestión de la base de datos, como la extracción de datos. Por ejemplo, puedes extraer todos los datos de ventas de 2017, datos de los 50 productos más vendidos este año, datos de consumo de los usuarios en Shanghai y Guangdong según tus necesidades... SQL puede ayudarte a completar estas tareas con comandos simples.
El segundo es obtener conjuntos de datos públicos externos.
Algunas instituciones de investigación científica, empresas y gobiernos abrirán algunos datos y usted deberá ir a sitios web específicos para descargarlos. Estos conjuntos de datos suelen ser relativamente completos y de calidad relativamente alta. Por supuesto, este enfoque también tiene algunos inconvenientes. A menudo, los datos se publican más tarde, pero siguen teniendo un gran valor debido a su objetividad y autoridad.
El tercero es escribir un rastreador web para recopilar datos en Internet. Por ejemplo, puede utilizar rastreadores para obtener información de contratación para un determinado puesto en un sitio web de contratación, información de alquiler para una determinada ciudad en un sitio web de alquiler, una lista de películas con las calificaciones más altas en Douban, me gusta de Zhihu y una reseña musical de NetEase Cloud. lista. Con base en los datos capturados de Internet, puede analizar una determinada industria y un determinado grupo de personas. Esta es una forma muy confiable de investigación de mercado y análisis de productos competitivos.
Por supuesto, la importancia de comparar errores es que generalmente no puede obtener todos los datos que necesita, lo que tendrá un cierto impacto en los resultados de su análisis, pero no afecta lo que puede extraer a través de las limitaciones. datos disponibles. Más información útil.
3. Preprocesamiento de datos
En el mundo real, la mayoría de los datos son incompletos, inconsistentes y sucios. Los datos no se pueden analizar directamente o los resultados del análisis no son satisfactorios. Existen muchos métodos de preprocesamiento de datos: limpieza de datos, integración de datos, transformación de datos, reducción de datos, etc. Sólo procesando los datos que afectan el análisis se pueden obtener resultados de análisis más precisos.
Por ejemplo, los datos de calidad del aire, muchos días de datos no fueron monitoreados debido a problemas con el equipo, algunos datos se registraron repetidamente y algunos datos no fueron válidos cuando el equipo falló.
Luego debemos usar los métodos correspondientes para manejarlos, como datos incompletos, ¿deberíamos eliminar los datos directamente o usar valores adyacentes para completarlos? Todas estas son cuestiones a considerar.
Por supuesto, aquí también podemos tener agrupación de datos, cálculo de estadísticas descriptivas básicas, elaboración de cuadros estadísticos básicos, conversión de valores de datos, normalización de datos, etc. , puede ayudarnos a comprender las características de distribución de los datos y es la base para análisis y modelos más profundos.
4. Análisis y modelado de datos
Esta parte requiere la comprensión de los métodos básicos de análisis de datos y algoritmos de minería de datos, así como los escenarios aplicables y los problemas aplicables de los diferentes métodos. En el análisis se debe evitar el abuso y el mal uso de los métodos de análisis estadístico. El abuso y mal uso de los métodos de análisis estadístico se debe principalmente a problemas poco claros que pueden resolverse con otro método, los requisitos previos para la aplicación de este método y los requisitos de datos de este método.
Además, también es extremadamente importante elegir varios métodos de análisis estadístico para realizar análisis exploratorios y repetitivos de los datos. Cada método de análisis estadístico tiene sus propias características y limitaciones. Por lo tanto, generalmente es necesario seleccionar varios métodos para confirmar repetidamente el análisis. No es científico sacar conclusiones basadas únicamente en los resultados de un método de análisis.
Por ejemplo, si encuentra que bajo ciertas condiciones, el volumen de ventas y el precio son directamente proporcionales, entonces puede construir un modelo de regresión lineal basado en esto. Si descubre que la relación entre el precio y la publicidad no es lineal, primero puede construir un modelo de regresión logística para el análisis.
En términos generales, el método de análisis de regresión puede cumplir gran parte de los requisitos del análisis. Por supuesto, también puedes aprender algunos algoritmos de minería de datos y métodos de extracción de características para optimizar tu modelo y obtener mejores resultados.
5. Visualización de datos y redacción de informes de datos.
El resultado más directo de los resultados del análisis es la descripción y visualización de datos estadísticos.
Por ejemplo, a través de la distribución de datos, encontramos las cinco ciudades con los salarios más altos, los rankings de popularidad actuales de varios idiomas, la tendencia cambiante de la calidad del aire en Beijing en los últimos años y la distribución regional. del consumo de condones... Estos son los resultados que podemos mostrar a través de un simple análisis y visualización de datos.
Otros necesitan explorar las relaciones internas, como varios indicadores clave que afectan la calidad del producto. Es necesario analizar la correlación entre los diferentes indicadores y la calidad del producto para sacar conclusiones correctas. Por ejemplo, si necesita predecir las ventas de productos en un determinado período de tiempo en el futuro, debe realizar modelos y análisis de datos históricos para hacer una predicción más precisa de la situación futura.
El informe de análisis de datos no es solo una presentación directa de los resultados del análisis, sino también una comprensión integral de las situaciones relevantes. A menudo vemos algunos informes de análisis de la industria que analizan varias relaciones desde diferentes ángulos. Entonces, necesitas una lógica narrativa. Cómo pasar de un problema macro a todos los aspectos del problema en profundidad y detalle para obtener resultados convincentes requiere una formación continua en la práctica.
En términos generales, el proceso general de análisis de datos consta de estos pasos: definición del problema, recopilación de datos, preprocesamiento de datos, modelado de análisis de datos, visualización de datos y redacción de informes de datos.