Contenido general
Prefacio I
1 Introducción al análisis de datos: descomposición de datos 1
2 Experimento: prueba de su teoría 37
p>3 Optimización: Buscando el valor máximo75
4 Gráficos de datos: Los gráficos te hacen más inteligente111
5 Prueba de hipótesis: La hipótesis no es el caso139
6 Estadística bayesiana: cruce del primer nivel 169
7 Probabilidad subjetiva: digitalización de creencias 191
8 Heurística: análisis basado en la naturaleza humana 225
9 Histograma: Forma de los números 251
10 Regresión: Predicción 279
11 Error: Error razonable 315
12 Bases de datos relacionadas: ¿Te identificas? 359
13 Organización de datos: en orden 385
Apéndice A Epílogo: Diez consejos no cubiertos en el texto principal 417
Apéndice B Instalación de R: ¡Inicie R! 427
Apéndice C Instalar la herramienta de análisis de Excel: ToolPak 431
Tabla de contenido desglosada e introducción a cada capítulo
Prefacio
El cerebro Trata la actitud de análisis de datos. Por un lado, estás intentando aprender algunos conocimientos y, por otro lado, tu cerebro está ocupado desertando. Tu cerebro está pensando: "Será mejor que guardes espacio para cosas más importantes, como qué animales salvajes mantenerte alejado y si esquiar desnudo es una mala idea".
p>
En este caso, ¿cómo ¿Engañas a tu cerebro para que se dé cuenta de que comprender el análisis de datos es la base de tu vida
?
¿Quién es apto para leer este libro? II
Sabemos lo que estás pensando III
Metacognición V
Conquistar el cerebro VII
Léame VIII
El CEO del Grupo de Asesoramiento Técnico quiere que los analistas de datos lo ayuden a aumentar las ventas 3
El análisis de datos consiste en examinar la evidencia 4
Identificar el problema 5
Los clientes lo ayudarán identifique el problema 6
El director ejecutivo de Acme le brindó algunos comentarios8
Divida el problema y los datos en partes más pequeñas9
Ahora eche un vistazo y aprenda la situación 10
Bloque de evaluación 13
El análisis comienza desde el momento en que se interviene 14
Hacer sugerencias 15
Se redacta el informe 16
El director general aprecia su trabajo17
Una noticia 18
La opinión convencida del director general le lleva por mal camino 20
Sus suposiciones sobre el mundo exterior y su las opiniones convencidas son tus modelos mentales 21
Los modelos estadísticos dependen de los modelos mentales 22
Los modelos mentales deben incluir factores que no entiendes 25
El CEO admite que no No sé algo 26
Acme le envía una larga lista de datos sin procesar 28
Profundizando en los datos 31
Pan American Wholesale confirmó su impresión 32
Revisando tu trabajo 35
Tu análisis permitió al cliente tomar una decisión acertada 36
2 Experimenta
Prueba tu teoría
p>
¿Puedes revelar a los demás tus creencias más profundas? ¿Pruebas empíricas en progreso? Haz un buen experimento, otra vez
No hay manera de resolver el problema y revelar el verdadero funcionamiento de las cosas
como un buen experimento. Un buen experimento a menudo puede liberarlo de la dependencia ilimitada de los datos de observación y ayudarlo a aclarar las relaciones de causa y efecto. Los datos empíricos confiables harán que su análisis y juicio sean más convincentes.
¡El frío invierno para la industria cafetera ya está aquí! 38
La junta directiva de Starbucks se reunirá dentro de tres meses 39
Cuestionario Starbus 41
Asegúrese de utilizar el método comparativo 42
La comparación es el arma mágica para descifrar los datos de observación 43
¿Es el sentido del valor la razón de la caída de los ingresos por ventas? 44
Los pensamientos de un cliente típico 46
El análisis observacional está lleno de factores de confusión 47
Qué impacto puede tener la ubicación de la tienda en los resultados del análisis 48
Dividir fragmentos de datos y gestionar factores de confusión 50
¡La situación es peor de lo esperado! 53
Necesitas realizar un experimento para descubrir qué estrategia funciona mejor 54
El CEO de Starbucks está impaciente 55
Starbucks reduce los precios 56
Un mes después... 57
Basado en grupo de control 58
Evitando el despido 123 61
Hagámoslo de nuevo Un experimento 62
Un mes después... 63
El experimento aún se verá arruinado por factores de confusión 64
Elija los grupos con cuidado para evitar factores de confusión 65
Al azar seleccionar grupos similares 67
Entrevistas aleatorias 68
Listo, comienza el experimento 71
Los resultados están aquí 72
Starba Shi encontró un estrategia de ventas acorde con la experiencia 73
3. Buscando la máxima optimización
Hay algunas cosas que todo el mundo quiere tener más. Buscamos esto por todas partes. Si tan solo pudiéramos usar números para expresar las cosas que perseguimos constantemente: ganancias, dinero, eficiencia, velocidad, etc., la oportunidad de lograr metas más altas está justo frente a nosotros. Existe una herramienta de análisis de datos que puede ayudarnos a ajustar las variables de decisión, encontrar soluciones y puntos de optimización, para que podamos alcanzar nuestros objetivos en la mayor medida posible. Este capítulo utilizará dicha herramienta y la implementará a través del potente paquete de software de hoja de cálculo Solver.
Es hora de jugar con los juguetes de la bañera76
Las variables que puedes controlar están limitadas por restricciones79
Las variables de decisión son los factores que puedes controlar79
p>
Has encontrado un problema de optimización 80
Descubre el objetivo 81 con la ayuda de la función objetivo
Tu función objetivo 82
listas otras restricciones Combinación condicional de productos 83
Dibujar múltiples restricciones en el mismo gráfico 84
Aparecen opciones razonables en el área factible 85
Nuevas restricciones Cambió el área factible 87
Uso de hojas de cálculo para lograr la optimización 90
Solver resuelve el problema de optimización de una sola vez 94
Las ganancias cayeron por el suelo 97
Su El modelo solo describe la situación que usted especificó98
Corrija los supuestos de acuerdo con los objetivos del análisis99
Cuidado con las variables correlacionadas negativamente103
La nueva solución tendrá efecto inmediato108 p>
Tus suposiciones se basan en la situación real cambiante 109
4. Datos gráficos
Los gráficos te hacen más inteligente
Tabla de datos Más de lo que necesitas . Sus datos son complejos y oscuros, y las variables son vertiginosas. Tratar con una montaña de hojas de cálculo no sólo es tedioso sino también una pérdida de tiempo. Por el contrario, a diferencia del simple uso de una hoja de cálculo, una imagen clara y realista que no utiliza mucho papel puede ayudarlo a deshacerse del problema de "una hoja
ciega su visión y no puede ver la montaña". .
El nuevo ejército necesita optimizar el sitio web 112
Los resultados están disponibles, el diseñador de información está fuera 113
Tres infografías enviadas por el diseñador de información anterior 114
¿Qué datos implican estas gráficas? 115
¡Datos incorporados! 116
Esta es la opinión no solicitada proporcionada por el diseñador anterior 117
Demasiados datos nunca serán tu problema 118
Hacer que los datos sean hermosos tampoco es una problema que quieres resolver119
La base de los gráficos de datos reside en la comparación correcta120
Tus gráficos ya son más útiles que aquellos que han quedado en el frío palacio123
Utilice diagramas de dispersión para explorar las razones 124
Los mejores gráficos son los gráficos multivariados 125
Muestre múltiples gráficos al mismo tiempo para reflejar más variables126
Los gráficos son Muy bien, pero el propietario del sitio web todavía no está satisfecho130
Por qué un buen diseño gráfico ayuda a pensar131
Los diseñadores experimentales se han pronunciado132
Los diseñadores experimentales tienen sus propias suposiciones135
Los clientes aprecian su trabajo136
¡Llegan pedidos de todas direcciones! 137
5. Prueba de hipótesis
Prueba de hipótesis
El mundo es tan complicado que es difícil distinguir entre verdad y falsedad. La gente necesita utilizar datos complejos y en constante cambio para predecir el futuro, pero es inevitable
que se vuelvan confusos después de un corte constante. Por esta razón, los analistas no aceptarán simplemente explicaciones superficiales, ni asumirán la verdad de estas explicaciones: mediante un razonamiento cuidadoso mediante el análisis de datos, los analistas pueden
p>Evaluar una gran cantidad de alternativas de respuesta con extraordinario detalle. y luego integrar toda la información disponible en varios modelos
El método de falsificación que aprenderemos a continuación es un método no intuitivo práctico y eficaz.
Dame un "skin"... 140
¿Cuándo empezaremos a producir nuevos skins para teléfonos móviles? 141
PodPhone no quiere que otros vean su próximo movimiento 142
Toda la información que conocemos 143
¿El análisis de Electric Skin coincide con los datos? ? 144
Electronic Skin obtuvo el "Memorando Estratégico" secreto 145
Las variables pueden estar correlacionadas positiva o negativamente 146
Varias situaciones en el mundo real La razón es una relación de red, no una relación lineal149
Suponga varias alternativas de PodPhone150
Utilice los datos disponibles para realizar pruebas de hipótesis151
Prueba de hipótesis El núcleo es la falsificación152
Utiliza diagnósticos para encontrar la hipótesis menos negativa160
Es imposible eliminar todas las hipótesis una por una, pero puedes determinar cuál es la hipótesis más fuerte163
Acabas de recibir un mensaje de texto con imagen... 164
¡Próximamente! 167
6. Estadística bayesiana
Cruzando el primer nivel
La recopilación de datos nunca se detiene. Debe asegurarse de que cada proceso de análisis haga uso completo de los datos recopilados que sean relevantes para el problema. Aunque ha aprendido el método de falsificación y es fácil manejar fuentes de datos heterogéneas, ¿qué debe hacer si encuentra un problema de probabilidad directa? Se trata de una herramienta de análisis extremadamente conveniente llamada regla de Bayes. Esta regla puede ayudarlo a utilizar datos básicos de probabilidad y fluctuación para obtener claridad.
El médico trae noticias molestas 170
Leamos el análisis de precisión punto por punto 173
¿Qué tan común es la gripe de lagarto? 174
Estás calculando falsos positivos 175
Estos términos tienen que ver con probabilidades condicionales 176
Necesitas calcular 177
1% de las personas contraen la gripe de los lagartos178
Su probabilidad de contraer la gripe de los lagartos sigue siendo muy baja181
Piense en probabilidades complejas con números enteros simples182
Recopilados después de nuevos datos, utilice Bayes ' regla para procesar la probabilidad básica 182
La regla de Bayes se puede usar repetidamente183
El segundo resultado de la prueba: negativo184
Las estadísticas de precisión para nuevas pruebas cambian185
Nueva información cambia tus probabilidades base186
¡Mucho más seguro! 189
7. Digitalizar creencias
Probabilidad subjetiva
Los datos virtuales no son mala idea. real. Sin embargo, estos números deben describir su estado mental y expresar sus creencias. La probabilidad subjetiva es una forma muy sencilla de integrar el rigor en la intuición. El método específico se presentará pronto. A medida que avance la explicación, aprenderá cómo utilizar la desviación estándar para evaluar la distribución de datos y aparecerá nuevamente una herramienta de análisis más poderosa que aprendió anteriormente.
Las empresas de inversión atrasadas necesitan sus servicios192
Los analistas se están criticando entre sí193
La probabilidad subjetiva refleja la creencia de los expertos198
La probabilidad subjetiva puede Muestra: No existe ningún desacuerdo real199
Probabilidad subjetiva de las respuestas de los analistas201
El director general no entiende lo que estás haciendo202
Los directores ejecutivos aprecian tu trabajo 207
La desviación estándar mide la desviación de un punto de análisis respecto de la media 208
Esta noticia te tomó por sorpresa 213
Regla de Bayes Es una buena forma de corregir probabilidades subjetivas217
El CEO sabe exactamente cómo lidiar con esta nueva información223
¡Los inversores bursátiles rusos se regocijan! 224
8. Heurística
Basada en la naturaleza humana
Los cambios en el mundo real dificultan a los analistas predecir las cosas. Siempre hay algunos datos que están fuera de nuestro alcance e incluso si están disponibles, los métodos de optimización suelen ser difíciles y requieren mucho tiempo. Afortunadamente, la mayoría de las actividades de pensamiento práctico de la vida no se llevan a cabo de la manera más racional, sino que utilizan información que no es completa ni incierta y se procesa en función de la experiencia. Tomar decisiones rápidamente. Qijuqi es que estas experiencias realmente pueden funcionar, por lo que también es una herramienta importante y necesaria para el análisis de datos.
Sloppy Ji presentó un informe al ayuntamiento 226
Sloppy Ji realmente limpió la ciudad 227
Sloppy Ji ha medido su trabajo Efecto 228
Su misión es reducir la cantidad de basura esparcida 229
Medir la cantidad de basura no es factible 230
Pregunta capciosa, respuesta simple 231
La estructura de la basura dispersa en la ciudad de Databang es compleja232
Es imposible establecer y aplicar un modelo unificado de medición de basura dispersa233
Las heurísticas son el puente entre la intuición y la optimización236
Uso del árbol de guardado rápido 239
¿Existe una forma más sencilla de evaluar los logros de Sloppy Set? 240
Todos los patrones fijos son instructivos244
Análisis completado, listo para enviar246
Parece que su análisis impresionó a los miembros del ayuntamiento249
p >9. Histograma de forma numérica
¿Qué puede decir el histograma? Hay innumerables formas de representar datos gráficamente y los histogramas son una de las mejores. Los histogramas son algo similares a los gráficos de barras y pueden resumir datos de forma rápida y eficiente. Siguiente
Utilizarás este pequeño y práctico gráfico para medir la distribución, diferencia, tendencia central, etc. de los datos.
No importa cuán grande sea el conjunto de datos, simplemente dibuje un histograma y podrá "ver" los secretos de los datos.
En este capítulo, dibujaremos un histograma utilizando una herramienta de software nueva, gratuita y versátil.
Próximamente la evaluación anual de los empleados 252
Hay varias formas de pedir dinero 254
Este es el récord de aumento salarial a lo largo de los años 255
Reflexión del histograma La frecuencia de aparición de cada conjunto de datos 262
La brecha entre diferentes intervalos del histograma es la brecha entre los puntos de datos 263
Instalar y ejecutar R 264
Voluntad Cargando datos en un programa R 265
R crea hermosos histogramas 266
Trazado de histogramas con subconjuntos de datos 271
Negociación un aumento de salario vale la pena 276
¿Qué significa para usted negociar un aumento? 277
10. Retorno
Predicción
Comprende todo y predice el futuro. El poder del análisis de regresión es ilimitado, siempre que lo utilice, puede ayudarle a predecir ciertos valores de resultados. Cuando se utiliza junto con experimentos controlados, el análisis de regresión también puede predecir el futuro. Los comerciantes están utilizando con entusiasmo el análisis de regresión para ayudarles a crear modelos y predecir el comportamiento de los clientes. Este capítulo está a punto de mostrarle que el uso sensato del análisis de regresión puede traer enormes beneficios.
¿Cómo piensas gastar el dinero? 280
Análisis con el objetivo de conseguir un gran aumento salarial 283
Espera un momento... ¡Calculadora de aumento salarial! 284
El secreto de este algoritmo es predecir el aumento salarial 286
Usa un diagrama de dispersión para comparar dos variables 292
Una línea recta puede indicar el objetivo para clientes 294
p>Utilice el gráfico promedio para predecir los valores en cada intervalo 297
La línea de regresión predice el aumento salarial real de las personas 298
El La línea de regresión es muy útil para datos con características de correlación lineal. Útil300
Necesitas una ecuación para hacer predicciones precisas304
Deja que R cree un objeto de regresión306
Ecuaciones de regresión. están estrechamente relacionados con los diagramas de dispersión 309
El algoritmo de la calculadora de aumento salarial es exactamente la ecuación de regresión 310
Su calculadora de aumento salarial no salió según lo planeado... 313
11. Error razonable
El mundo es complejo. No es raro que las predicciones sean inexactas. Sin embargo, si indica el margen de error al realizar un pronóstico, usted y su cliente no sólo conocerán el valor promedio del pronóstico, sino también la desviación típica causada por ese error. Señalar errores puede hacer que las predicciones y creencias sean más completas. A través de las herramientas que se enseñan en este capítulo, también sabrá cómo controlar los errores y cómo reducirlos tanto como sea posible, mejorando así la credibilidad de las predicciones.
El cliente estaba furioso 316
¿Qué hizo su algoritmo de predicción de aumento salarial? 317
Composición de clientes 318
El tipo que pidió un aumento salarial del 25% no está dentro del alcance del modelo 321
Cómo tratar con clientes que quiero predecir situaciones fuera del rango de datos 322
El tipo que fue despedido por usar la extrapolación se calmó 327
Solo resolviste parte del problema 328
Mira ante los datos distorsionados de los resultados del aumento salarial ¿Cómo se ve cuando te levantas? 329
Error oportunista = la desviación entre los resultados reales y las predicciones del modelo330
El error es bueno para usted y el cliente334
Entrevista sobre error oportunista335
Especifique el error cuantitativamente 336
Utilice la raíz del error cuadrático medio para expresar cuantitativamente la distribución residual 337
El modelo R sabe que hay un error cuadrático medio 338
El resumen del modelo lineal de R muestra la raíz del error cuadrático medio 340
El propósito fundamental de la segmentación es gestionar los errores 346
El excelente análisis de regresión tiene funciones explicativas y predictivas 350 p> p>
El modelo particionado maneja los errores mejor que el modelo original352
Tus clientes siguen regresando357
12. Base de datos relacional
¿Cómo organizar datos multivariables en constante cambio? Una hoja de cálculo tiene sólo dos dimensiones de datos: filas y
columnas. Si sus datos incluyen muchos aspectos, los formatos tabulares pueden quedar obsoletos rápidamente. En este capítulo,
verá cómo las hojas de cálculo pueden resultar difíciles de administrar datos multivariados y cómo los sistemas de administración de bases de datos relacionales
hacen que el almacenamiento y la recuperación de datos multivariados sean extremadamente fáciles.
"Data News" espera analizar las ventas 360
Estos son los datos de seguimiento de operaciones que guardan 361
Necesita conocer la relación entre las tablas de datos 362
Una base de datos es una serie de datos que tienen relaciones específicas entre sí365
Encuentra una ruta a través de varias relaciones para hacer las comparaciones necesarias366
Crea una hoja de cálculo a través de esta path366
Relaciona el número de artículos y ventas a través del resumen371
Parece que tu diagrama de dispersión está bien dibujado374
Copiar y pegar todos estos datos es una molestia 375
Administrar relaciones con una base de datos relacional 376
"Data News" usa su gráfico de relaciones para construir un RDBMS 377
"Data News" usa SQL para extraer datos 379
Los datos RDBMS se pueden comparar infinitamente 382
Estás en la portada 383
13 Organiza los datos de manera ordenada
Los datos ordenados no se pueden dividir, no se pueden aplicar fórmulas y ni siquiera se pueden leer. Es común que la gente los ignore
y los ignore, ¿verdad? En realidad, puedes hacerlo mejor. Siempre que vea claramente la apariencia de los datos que desea ver y luego utilice algunas herramientas de procesamiento de texto, puede ordenar los datos y convertir el deterioro en magia.
Acabo de recibir una lista de clientes 386 de un competidor que cerró.
El secreto oculto del análisis de datos 387
La empresa de headhunting Head First quiere ayudarse a sí misma El equipo de ventas obtuvo la lista388
La clave para limpiar datos desordenados es la preparación392
Una vez que los datos están organizados, se pueden arreglar393
Se # como delimitador 394
Excel divide los datos en varias columnas mediante delimitadores 395
Reemplace el carácter "^" con SUSTITUTO 399
Todos los "apellidos" Todo está ordenado 400
Es demasiado problemático reemplazar el patrón de nombre con SUSTITUIR 402
Usar fórmulas de texto anidado para procesar patrones complejos 403
R puede usar expresiones regulares 404 p>
Utilice el subcomando para organizar "nombres" 406
Ahora puede entregar la mercancía al cliente 407
Puede que aún no esté terminado... 408
Ordenar los datos para que los valores duplicados parezcan concentrados 409
Estos datos pueden provenir de una base de datos relacional 412
Eliminar nombres duplicados 413
Creaste un registro hermoso, ordenado y único 414
¡La empresa de cazatalentos Head First está reclutando todo tipo de talentos de una sola vez! 415
Adiós... 416
Apéndice A Epílogo
Diez consejos no tratados en el texto principal
Has ganado mucho . Sin embargo, la tecnología de análisis de datos cambia constantemente y el aprendizaje es infinito. Debido a la extensión limitada de este libro, todavía hay algunos conocimientos estrechamente relacionados que no se han presentado. Exploraremos los diez puntos de conocimiento principales en este apéndice.
Primero: Enciclopedia de conocimientos estadísticos 418
Segundo: Habilidades de Excel 419
Tercero: Principios gráficos del profesor de la Universidad de Yale Edward Tufte (Edward Tufte) 420
Cuarto: Tablas dinámicas 421
Quinto: Comunidad R 422
Cuarto: Regresión múltiple y no lineal 423
Ítem 7: Hipótesis nula-hipótesis alternativa Prueba 424
Ítem 8: Aleatoriedad 424
Ítem 9: Google Docs 425
Ítem 10: Tus habilidades profesionales 426
Iniciar R ! Apéndice B Instalación de R
Las potentes funciones de análisis de datos se basan en complejos mecanismos internos. Afortunadamente, sólo toma unos minutos instalar
e iniciar R, y este apéndice le mostrará cómo instalar R sin esfuerzo.
Apéndice C Instalación de herramientas de análisis de Excel
ToolPak
Algunas de las mejores funciones de Excel no están instaladas de forma predeterminada. Para realizar la optimización en el Capítulo 3 y el histograma en el Capítulo 9, debe activar Solver y Analysis ToolPak. Excel instala estas dos extensiones de forma predeterminada. Sin embargo, estos complementos no se activarán a menos que el usuario los opere activamente.