Cómo entender los datos de salud

No le haga caso a nadie al interpretar los datos. Debe seguir la esencia de los datos, seguir la lógica científica, ser imaginativo (cooperar con la verificación) y, a veces, confiar en la información obtenida de conexiones personales (hay muchos ejemplos típicos). Puede que no sea demasiado específico al respecto, pero puede que sea más fácil de entender dando algunos ejemplos negativos.

1. La asociación causal es incorrecta o se ignoran los factores clave. Sin embargo, algunas personas creen unilateralmente que A afecta a B o que B afecta a A; La razón es que C afecta a A y B al mismo tiempo, a veces C se ignora.

2. Ignorar a la mayoría silenciosa, especialmente las votaciones y encuestas en línea, puede conducir fácilmente a este sesgo. Los participantes suelen tener ciertas demandas, mientras que los no participantes suelen ser usuarios convencionales.

3. La definición incorrecta de los datos o la comprensión vaga conducen a información borrosa en la comunicación entre el personal de tecnología y marketing y producto, lo que conduce directamente a desviaciones entre los datos procesados ​​y los datos requeridos, y los resultados son obviamente incorrectos.

4. Coincidencia forzada; diferentes empresas y diferentes campos pueden tener diferentes definiciones de datos, y las comparaciones dentro de la misma empresa o campo a menudo no suponen ningún problema. Todo el mundo está acostumbrado a esto, pero algunos críticos fingen entender y combinan datos con diferentes definiciones para sacar conclusiones, lo que obviamente está distorsionado. Las instituciones financieras extranjeras conocidas continúan cometiendo errores similares al analizar los mercados de juegos web y de juegos de clientes de China. .

5. Ignorar la premisa; algunas conclusiones de datos se basan en ciertas premisas y se ajustan a ciertas situaciones, pero el intérprete ignora intencionalmente o no la premisa, amplifica la conclusión y la malinterpreta claramente.

6. Ignorar la interacción; este problema suele ocurrir en la transformación del modelo de negocio y la mejora del producto. En pocas palabras, ¿la reducción de precio de los artículos de tu juego aumenta o disminuye los ingresos? Si ignoramos la interacción y confiamos únicamente en los cálculos de datos, por supuesto es una resta, pero ¿qué pasa con la realidad? Cualquiera que practique cirugía lo sabe.

7. Falta de sentido común; si no conoces algunos aniversarios, festivales o festivales de compras online importantes, es obvio que no sabes procesar datos relevantes. Esto es especialmente cierto cuando se realizan informes de la industria. Es difícil imaginar qué tipo de informe puede hacer alguien que no comprende la industria.

8. Ignore el sesgo de la muestra; generalmente hacemos investigaciones de datos basadas en datos de muestra, pero es difícil que el proceso de muestreo en sí sea completamente justo y descentralizado, y el sesgo de la muestra debe controlarse dentro de un rango razonable. Incluso si no es controlable, aún debe marcarse en la conclusión; se trata de una interpretación rigurosa de los datos. Es imposible sacar buenas conclusiones sobre los datos haciendo la vista gorda ante el sesgo de la muestra, o incluso buscando deliberadamente muestras sesgadas con fines propagandísticos.

Luego, hay un poco más que decir sobre el procesamiento de datos. Aunque es un trabajo técnico, hay que hacer bien algunas cosas menos técnicas. Muchas veces veo datos que no coinciden con mis expectativas. Mi primera reacción es comprender la fuente de datos y la lógica de procesamiento. Es necesario procesar los datos a los que nos enfrentamos habitualmente, incluida una gran cantidad de datos de interferencia y ruido, así como algunos datos que son propensos a la ambigüedad o incluso a errores de juicio. Muchas veces los ingenieros solo se preocupan por el nivel del algoritmo y el nivel de eficiencia, y no están dispuestos ni se preocupan por estas cosas. Cuanto más grande es la empresa, mayor es la distorsión en las conclusiones de los datos. Cuando trabajaba para una empresa gigante, había muchos ejemplos como este y la solución era realmente muy sencilla. Mire más los datos de origen, identifique y etiquete correctamente los datos de ruido e interferencia en el medio y haga un juicio secundario sobre los datos que es fácil de juzgar mal. Es todo un trabajo duro, poco técnico, pero es necesario.

Por último, mucha gente quiere saber cómo veo los datos, o quiere preguntarme. Miran muchos datos todos los días, pero no saben cómo verlos. De hecho, tengo un hacha de tres pasos muy simple que puedo usar tan pronto como lo aprenda. Puede resolver la mayoría de las necesidades diarias de escenarios de datos comunes. En pocas palabras, el mantra de "comparar, segmentar y rastrear" ya no existe.

En comparación, no tiene sentido poner los datos allí. Dijiste que tu tasa de rotación en la semana de juego es del 80%. ¿Qué está sucediendo? No tengo ni idea. Si me preguntas, no lo sé. Sólo lo sabemos a través de la comparación.

Primero, para una comparación horizontal, comparas 50 juegos. La tasa de pérdida promedio de otros es 90 y la tuya es 80. Tu juego no es malo, pero la tasa de pérdida promedio de otros es 65 y la tuya. es 80. Esto es un problema.

La segunda es la comparación vertical.

Compara tu propia línea de tiempo, perdiste 90 en la versión 1.0 hace dos meses y ahora estás en 80. ¿Algún progreso? Si tenías 50 hace dos meses y ahora tienes 80, reflexiona.

Por lo tanto, enfatizo particularmente que en las interfaces habituales de monitoreo de datos empresariales y visualización de datos en pantalla grande, las características contrastantes deben reflejarse en la mayor medida posible. Por ejemplo, todas las proporciones de disminuciones interanuales son. se muestra en rojo, y todas las proporciones de aumentos se muestran en rojo reflejo, para que el estado operativo de la empresa sea claro de un vistazo.

Segmentación, si los datos son anormales, por supuesto que desea saber el motivo, entonces debe segmentarlos.

La segmentación se divide primero en latitud y luego en granularidad. ¿Qué es la latitud? Si se divide por tiempo, es la latitud de tiempo; si se divide por región, es la latitud geográfica; si se divide por ruta, es la latitud de la ruta; si se divide por entrevista, es la latitud de la entrevista; Las visitas al sitio web aumentaron en 5 hoy. No sé por qué. Si lo desglosas, la mayoría de las páginas no han aumentado, pero una página activa de un canal ha aumentado en 300. Esto está claro. Este es el ejemplo más simple de segmentación. De hecho, es muy común en muchos campos. ¿Cuál es la granularidad, su latitud temporal, en términos de días u horas? Esta es la diferencia en granularidad, su latitud, su sitio web o su URL, esta es la diferencia en granularidad, de esta manera, puede fijar gradualmente la diferencia en comparación y descubrir el motivo;

Volviendo a la fuente, a veces lo comparo y lo subdivido en dimensiones y granularidades específicas, pero todavía no tengo una conclusión. ¿Qué debo hacer? Rastreando hasta la fuente, utilizando la latitud bloqueada y la granularidad como condiciones de búsqueda, consultando los registros de origen y los registros involucrados, y luego analizando y reflexionando sobre el comportamiento del usuario en base a esto, a menudo encontrará descubrimientos sorprendentes. Basándonos en esta lógica, descubrimos algunas fallas en el producto. Si continúa analizando los datos de esta manera, su comprensión del comportamiento del usuario se profundizará gradualmente.

De hecho, este tema tiene muchas extensiones, como cómo determinar si un joven tiene potencial para el análisis de datos y cómo cultivar talentos para el análisis de datos y el análisis de productos, etc., pero eso; es todo.