Pensamiento general sobre el análisis de datos (1)

Cuando el artículo anterior "Hablando sobre análisis de datos" mencionó la sección "Cómo hacer análisis de datos", introdujimos dos estrategias de análisis: análisis estadístico descriptivo y algoritmos de minería de datos. Todos estos son métodos para analizar datos y explorar el valor de los datos.

Cuando nos enfrentamos a cantidades masivas de datos, utilizamos diferentes métodos para procesar y analizar datos de acuerdo con diferentes formas comerciales, todas las cuales son implementaciones tácticas. De hecho, hay otra acción de ejecución de nivel superior que debemos realizar.

Este es el establecimiento del pensamiento de análisis de datos. Con una cierta cantidad de pensamiento analítico, nos resulta más fácil permanecer sin cambios en respuesta a los cambios.

Específicamente, hay tres formas comunes de pensar sobre el análisis de datos:

Cuando estábamos comprando en línea, nos gustaba una prenda de vestir. Si esta prenda no es estándar y el reconocimiento de la marca no es tan fuerte, también podríamos comprobarla en Taobao, Tmall, JD.COM, Pinduoduo... y comparar precios, ¿verdad?

Por ejemplo, cuando vamos al mercado de verduras a comprar verduras, puede que las tías tengan mucha experiencia. Incluso si el precio del repollo, la cebolla y la carne aumenta un centavo, rápidamente lo notarán.

Otro ejemplo, el examen de ingreso a la universidad acaba de finalizar recientemente. Los padres están muy preocupados por los resultados de los exámenes de ingreso a la universidad de sus hijos. Después de que salieron los resultados, los niños le dijeron a su madre que yo había obtenido 550 puntos. Mamá puede pensar inmediatamente a qué grado pertenece esta puntuación. ¿Se puede copiar? No puedes ir a la universidad, ¿puedes ir a la universidad?

De hecho, todo el mundo usa la comparación de datos de manera invisible en estas escenas con las que estamos muy familiarizados en la vida, pero debido a que estamos tan familiarizados con los datos en estas escenas, incluso usamos la comparación de manera inconsciente.

Los datos comparativos están en todas partes de nuestras vidas. Por otro lado, muchas veces los datos carecen de sentido sin comparación.

Por ejemplo, cuando alguien nos dice que sus ingresos anuales son 10.000. En este momento, alguien puede gritar "Guau". Un "Wow" significa que se han comparado 10.000 datos. Si ganas 2 millones al año, es posible que no seas "guau". También has comparado los datos de 10.000 y no hay ni un solo "wow".

Sin comparación, no tendremos ningún cambio emocional. Sólo sabemos el hecho de que el hombre ganaba 6.543.800 yuanes al año, porque no sabemos cuál es la cifra de ingresos de 6.543.800 yuanes.

El dato de 10.000 no tiene sentido en este momento.

En el mercado laboral, hay dos problemas comunes que deben resolverse mediante el pensamiento de descomposición: la estimación de los ingresos de los puestos de panqueques y la estimación del flujo de pasajeros del metro.

Estimación de los ingresos del puesto de panqueques

Si abres un puesto de panqueques, es posible que primero tengas que descubrir cómo calcular las ganancias. Por cierto, ya sea el jefe de una gran empresa o el propietario de una tienda de desayunos, una de sus habilidades más importantes es poder ajustar cuentas. Si no sabes contabilidad, hagamos otra cosa. Existe una fórmula aproximada para estimar los ingresos mensuales de un puesto de panqueques:

Basándonos en esta fórmula, hagamos una suposición. Por ejemplo, podemos vender 200 juegos de panqueques al día y cada juego de panqueques cuesta 5 yuanes. Luego, al final del día, nuestras ventas diarias serán 200 * 5 = 1000 yuanes.

Estas son las ventas de un día real, podemos desglosarlas aún más para ver las ventas por hora. Lo sabremos después de pensarlo:

Hagamos otra suposición, por ejemplo, nuestro horario de trabajo diario es de 8:00 a 19:00. Luego, durante el horario laboral de 11 horas, el negocio puede ser mejor durante las 2 horas de la mañana, con 45 unidades vendidas por hora durante el período de 18:00 a 19:00, el negocio fue bueno y nosotros también; Se vendieron 45 unidades. Durante las ocho horas intermedias, el negocio fue normal, con cinco unidades vendidas por hora.

Así, sin más, vendimos 45 * 3 8 * 5 = 175 (juegos) de panqueques en un día. Entonces supongamos que somos diligentes y vendemos panqueques los 365 días del año, llueva o haga sol, lo que significa que estamos completamente presentes todos los meses. Entonces, si simplemente calculamos en base a 30 días en un mes, se pueden vender 175 * 30 = 5250 juegos de panqueques cada mes.

Suponiendo que cada juego de panqueques sigue costando 5 yuanes, entonces las ventas de un mes son 5250 * 5 = 26250 yuanes, entonces el costo total incluyendo mano de obra, materias primas y alquiler por mes es 9000 yuanes, entonces uno mes La ganancia es de 17.250 yuanes.

¿Se puede subdividir?

Por supuesto.

Si cada pedido se ingresa en el sistema, es decir, suponiendo que podamos monitorear cada pedido en la tienda en tiempo real, podemos analizar 5 minutos de datos.

Si estás interesado en este análisis, puedes crear algunos datos tú mismo y utilizar Excel para analizarlos. Puedo prever que una vez que se monitoreen y analicen los datos de 5 minutos, las conclusiones del análisis probablemente puedan inferir qué ajustes debemos hacer en el suministro.

Pronóstico del volumen de tráfico del metro

Cabe señalar que el propósito de hacer esta pregunta durante la entrevista no es exigirnos que calculemos con precisión el flujo diario de pasajeros del metro en esta ciudad. Porque en el trabajo real, Google lo sabe todo a la vez. Cuando se trata de preguntas como entrevistas, nos preocupa más si nuestras ideas para resolver problemas son claras.

Supongamos que desea calcular el flujo diario de pasajeros del metro en Shenzhen, puede comenzar desde el lado de la oferta. Si la pregunta no lo requiere claramente, optar por comenzar desde el lado de la oferta puede simplificar el problema.

Para calcular el flujo diario de pasajeros del metro de Shenzhen, podemos pensar en una fórmula sencilla:

Volumen de tráfico diario del metro de Shenzhen = número de metros * número de personas transportadas por cada metro.

Primero, descomponemos el número de pasajeros del metro y podemos obtener:

Luego, descomponemos el número de pasajeros del metro y podemos obtener:

Finalmente, podemos obtener dicha fórmula combinando las fórmulas de descomposición:

Podemos obtener el resultado asignando un valor a cada factor según nuestra propia experiencia. Por ejemplo, la situación en Shenzhen puede ser:

Cabe mencionar que la tasa de ocupación en ciudades como Shenzhen casi siempre está por encima de 100, especialmente durante las horas pico de la mañana. Creo que nadie que lo haya experimentado quiere recordarlo.

El campo de los datos a menudo requiere un pensamiento retrospectivo.

Sabemos que cuando se procesan datos masivos, a menudo ocurren algunos problemas con los datos. Por ejemplo, un día descubrimos que cierto indicador se comportaba de forma extraña. En este momento, a través de un pensamiento simple, descubrimos que no ha habido ninguna acción en el negocio recientemente. ¿Por qué los datos fluctúan tanto?

En este momento, inconscientemente miraré el desglose de los datos y veré dónde hay problemas en todo el proceso de generación de cada dato. Desde mi experiencia personal, la mayoría de los problemas de datos se pueden resolver de esta manera.

Desde los propios datos, los datos detallados son la "esencia" del indicador.

Como otro ejemplo, escuchamos a Musk decir que construyó Tesla en el pasado. Para resolver el problema de los altos costos de las baterías, también buscó formas de reducir los costos de los componentes esenciales de las baterías, como el hierro, el níquel y el aluminio, y resolvió el problema con éxito. Por supuesto, más tarde concluyó que estaba analizando el problema desde los primeros principios de la física.

Para otro ejemplo, Wang Xing usa bits (la unidad más pequeña de información) para mirar Internet. ...

Mirando hacia atrás, estas perspectivas y prácticas son el resultado de pensar desde la esencia de las cosas.

Bien, hablemos de los tres pensamientos analíticos comunes en el análisis de datos.