Catálogo de trabajos que explican el análisis de datos de forma sencilla y profunda

Contenido general

Prefacio I

1 Introducción al análisis de datos: descomposición de datos 1

2 Experimento: prueba de su teoría 37

p>

3 Optimización: Buscando el valor máximo75

4 Gráficos de datos: Los gráficos te hacen más inteligente111

5 Prueba de hipótesis: La hipótesis no es el caso139

6 Estadística bayesiana: cruce del primer nivel 169

7 Probabilidad subjetiva: digitalización de creencias 191

8 Heurística: análisis basado en la naturaleza humana 225

9 Histograma: Forma de los números 251

10 Regresión: Predicción 279

11 Error: Error razonable 315

12 Bases de datos relacionadas: ¿Te identificas? 359

13 Organización de datos: en orden 385

Apéndice A Epílogo: Diez consejos no cubiertos en el texto principal 417

Apéndice B Instalación de R: ¡Inicie R! 427

Apéndice C Instalar la herramienta de análisis de Excel: ToolPak 431

Tabla de contenido desglosada e introducción a cada capítulo

Prefacio

El cerebro Trata la actitud de análisis de datos. Por un lado, estás intentando aprender algunos conocimientos y, por otro lado, tu cerebro está ocupado desertando. Tu cerebro está pensando: "Será mejor que guardes espacio para cosas más importantes, como qué animales salvajes mantenerte alejado y si esquiar desnudo es una mala idea".

p>

En este caso, ¿cómo ¿Engañas a tu cerebro para que se dé cuenta de que comprender el análisis de datos es la base de tu vida

?

¿Quién es apto para leer este libro? II

Sabemos lo que estás pensando III

Metacognición V

Conquistar el cerebro VII

Léame VIII

El CEO del Grupo de Asesoramiento Técnico quiere que los analistas de datos lo ayuden a aumentar las ventas 3

El análisis de datos consiste en examinar la evidencia 4

Identificar el problema 5

Los clientes lo ayudarán identifique el problema 6

El director ejecutivo de Acme le brindó algunos comentarios8

Divida el problema y los datos en partes más pequeñas9

Ahora eche un vistazo y aprenda la situación 10

Bloque de evaluación 13

El análisis comienza desde el momento en que se interviene 14

Hacer sugerencias 15

Se redacta el informe 16

El director general aprecia su trabajo17

Una noticia 18

La opinión convencida del director general le lleva por mal camino 20

Sus suposiciones sobre el mundo exterior y su las opiniones convencidas son tus modelos mentales 21

Los modelos estadísticos dependen de los modelos mentales 22

Los modelos mentales deben incluir factores que no entiendes 25

El CEO admite que no No sé algo 26

Acme le envía una larga lista de datos sin procesar 28

Profundizando en los datos 31

Pan American Wholesale confirmó su impresión 32

Revisando tu trabajo 35

Tu análisis permitió al cliente tomar una decisión acertada 36

2 Experimenta

Prueba tu teoría

p>

¿Puedes revelar a los demás tus creencias más profundas? ¿Pruebas empíricas en progreso? Haz un buen experimento, otra vez

No hay manera de resolver el problema y revelar el verdadero funcionamiento de las cosas

como un buen experimento. Un buen experimento a menudo puede liberarlo de la dependencia ilimitada de los datos de observación y ayudarlo a aclarar las relaciones de causa y efecto. Los datos empíricos confiables harán que su análisis y juicio sean más convincentes.

¡El frío invierno para la industria cafetera ya está aquí! 38

La junta directiva de Starbucks se reunirá dentro de tres meses 39

Cuestionario Starbus 41

Asegúrese de utilizar el método comparativo 42

La comparación es el arma mágica para descifrar los datos de observación 43

¿Es el sentido del valor la razón de la caída de los ingresos por ventas? 44

Los pensamientos de un cliente típico 46

El análisis observacional está lleno de factores de confusión 47

Qué impacto puede tener la ubicación de la tienda en los resultados del análisis 48

Dividir fragmentos de datos y gestionar factores de confusión 50

¡La situación es peor de lo esperado! 53

Necesitas realizar un experimento para descubrir qué estrategia funciona mejor 54

El CEO de Starbucks está impaciente 55

Starbucks reduce los precios 56

Un mes después... 57

Basado en grupo de control 58

Evitando el despido 123 61

Hagámoslo de nuevo Un experimento 62

Un mes después... 63

El experimento aún se verá arruinado por factores de confusión 64

Elija los grupos con cuidado para evitar factores de confusión 65

Al azar seleccionar grupos similares 67

Entrevistas aleatorias 68

Listo, comienza el experimento 71

Los resultados están aquí 72

Starba Shi encontró un estrategia de ventas acorde con la experiencia 73

3. Buscando la máxima optimización

Hay algunas cosas que todo el mundo quiere tener más. Buscamos esto por todas partes. Si tan solo pudiéramos usar números para expresar las cosas que perseguimos constantemente: ganancias, dinero, eficiencia, velocidad, etc., la oportunidad de lograr metas más altas está justo frente a nosotros. Existe una herramienta de análisis de datos que puede ayudarnos a ajustar las variables de decisión, encontrar soluciones y puntos de optimización, para que podamos alcanzar nuestros objetivos en la mayor medida posible. Este capítulo utilizará dicha herramienta y la implementará a través del potente paquete de software de hoja de cálculo Solver.

Es hora de jugar con los juguetes de la bañera76

Las variables que puedes controlar están limitadas por restricciones79

Las variables de decisión son los factores que puedes controlar79

p>

Has encontrado un problema de optimización 80

Descubre el objetivo 81 con la ayuda de la función objetivo

Tu función objetivo 82

listas otras restricciones Combinación condicional de productos 83

Dibujar múltiples restricciones en el mismo gráfico 84

Aparecen opciones razonables en el área factible 85

Nuevas restricciones Cambió el área factible 87

Uso de hojas de cálculo para lograr la optimización 90

Solver resuelve el problema de optimización de una sola vez 94

Las ganancias cayeron por el suelo 97

Su El modelo solo describe la situación que usted especificó98

Corrija los supuestos de acuerdo con los objetivos del análisis99

Cuidado con las variables correlacionadas negativamente103

La nueva solución tendrá efecto inmediato108

Tus suposiciones se basan en la situación real cambiante 109

4. Datos gráficos

Los gráficos te hacen más inteligente

Tabla de datos Más de lo que necesitas . Sus datos son complejos y oscuros, y las variables son vertiginosas. Tratar con una montaña de hojas de cálculo no sólo es tedioso sino también una pérdida de tiempo. Por el contrario, a diferencia del simple uso de una hoja de cálculo, una imagen clara y realista que no utiliza mucho papel puede ayudarlo a deshacerse del problema de "una hoja

ciega su visión y no puede ver la montaña". .

El nuevo ejército necesita optimizar el sitio web 112

Los resultados están disponibles, el diseñador de información está fuera 113

Tres infografías enviadas por el diseñador de información anterior 114

¿Qué datos implican estas gráficas? 115

¡Datos incorporados! 116

Esta es la opinión no solicitada proporcionada por el diseñador anterior 117

Demasiados datos nunca serán tu problema 118

Hacer que los datos sean hermosos tampoco es una problema que quieres resolver119

La base de los gráficos de datos reside en la comparación correcta120

Tus gráficos ya son más útiles que aquellos que han quedado en el frío palacio123

Utilice diagramas de dispersión para explorar las razones 124

Los mejores gráficos son los gráficos multivariados 125

Muestre múltiples gráficos al mismo tiempo para reflejar más variables126

Los gráficos son Muy bien, pero el propietario del sitio web todavía no está satisfecho130

Por qué un buen diseño gráfico ayuda a pensar131

Los diseñadores experimentales se han pronunciado132

Los diseñadores experimentales tienen sus propias suposiciones135

Los clientes aprecian su trabajo136

¡Llegan pedidos de todas direcciones! 137

5. Prueba de hipótesis

Prueba de hipótesis

El mundo es tan complicado que es difícil distinguir entre verdad y falsedad. La gente necesita utilizar datos complejos y en constante cambio para predecir el futuro, pero es inevitable

que se vuelvan confusos después de un corte constante. Por esta razón, los analistas no aceptarán simplemente explicaciones superficiales, ni asumirán la verdad de estas explicaciones: mediante un razonamiento cuidadoso mediante el análisis de datos, los analistas pueden

p>Evaluar una gran cantidad de alternativas de respuesta con extraordinario detalle. y luego integrar toda la información disponible en varios modelos

El método de falsificación que aprenderemos a continuación es un método no intuitivo práctico y eficaz.

Dame un "skin"... 140

¿Cuándo empezaremos a producir nuevos skins para teléfonos móviles? 141

PodPhone no quiere que otros vean su próximo movimiento 142

Toda la información que conocemos 143

¿El análisis de Electric Skin coincide con los datos? ? 144

Electronic Skin obtuvo el "Memorando Estratégico" secreto 145

Las variables pueden estar correlacionadas positiva o negativamente 146

Varias situaciones en el mundo real La razón es una relación de red, no una relación lineal149

Suponga varias alternativas de PodPhone150

Utilice los datos disponibles para realizar pruebas de hipótesis151

Prueba de hipótesis El núcleo es la falsificación152

Utiliza diagnósticos para encontrar la hipótesis menos negativa160

Es imposible eliminar todas las hipótesis una por una, pero puedes determinar cuál es la hipótesis más fuerte163

Acabas de recibir un mensaje de texto con imagen... 164

¡Próximamente! 167

6. Estadística bayesiana

Cruzando el primer nivel

La recopilación de datos nunca se detiene. Debe asegurarse de que cada proceso de análisis haga uso completo de los datos recopilados que sean relevantes para el problema. Aunque ha aprendido el método de falsificación y es fácil manejar fuentes de datos heterogéneas, ¿qué debe hacer si encuentra un problema de probabilidad directa? Se trata de una herramienta de análisis extremadamente conveniente llamada regla de Bayes. Esta regla puede ayudarlo a utilizar datos básicos de probabilidad y fluctuación para obtener claridad.

El médico trae noticias molestas 170

Leamos el análisis de precisión punto por punto 173

¿Qué tan común es la gripe de lagarto? 174

Estás calculando falsos positivos 175

Estos términos tienen que ver con probabilidades condicionales 176

Necesitas calcular 177

1% de las personas contraen la gripe de los lagartos178

Su probabilidad de contraer la gripe de los lagartos sigue siendo muy baja181

Piense en probabilidades complejas con números enteros simples182

Recopilados después de nuevos datos, utilice Bayes ' regla para procesar la probabilidad básica 182

La regla de Bayes se puede usar repetidamente183

El segundo resultado de la prueba: negativo184

Las estadísticas de precisión para nuevas pruebas cambian185

Nueva información cambia tus probabilidades base186

¡Mucho más seguro! 189

7. Digitalizar creencias

Probabilidad subjetiva

Los datos virtuales no son mala idea. real. Sin embargo, estos números deben describir su estado mental y expresar sus creencias. La probabilidad subjetiva es una forma muy sencilla de integrar el rigor en la intuición. El método específico se presentará pronto. A medida que avance la explicación, aprenderá cómo utilizar la desviación estándar para evaluar la distribución de datos y aparecerá nuevamente una herramienta de análisis más poderosa que aprendió anteriormente.

Las empresas de inversión atrasadas necesitan sus servicios192

Los analistas se están criticando entre sí193

La probabilidad subjetiva refleja la creencia de los expertos198

La probabilidad subjetiva puede Muestra: No existe ningún desacuerdo real199

Probabilidad subjetiva de las respuestas de los analistas201

El director general no entiende lo que estás haciendo202

Los directores ejecutivos aprecian tu trabajo 207

La desviación estándar mide la desviación de un punto de análisis respecto de la media 208

Esta noticia te tomó por sorpresa 213

Regla de Bayes Es una buena forma de corregir probabilidades subjetivas217

El CEO sabe exactamente cómo lidiar con esta nueva información223

¡Los inversores bursátiles rusos se regocijan! 224

8. Heurística

Basada en la naturaleza humana

Los cambios en el mundo real dificultan a los analistas predecir las cosas. Siempre hay algunos datos que están fuera de nuestro alcance e incluso si están disponibles, los métodos de optimización suelen ser difíciles y requieren mucho tiempo. Afortunadamente, la mayoría de las actividades de pensamiento práctico de la vida no se llevan a cabo de la manera más racional, sino que utilizan información que no es completa ni incierta y se procesa en función de la experiencia. Tomar decisiones rápidamente. Qijuqi es que estas experiencias realmente pueden funcionar, por lo que también es una herramienta importante y necesaria para el análisis de datos.

Sloppy Ji presentó un informe al ayuntamiento 226

Sloppy Ji realmente limpió la ciudad 227

Sloppy Ji ha medido su trabajo Efecto 228

Su misión es reducir la cantidad de basura esparcida 229

Medir la cantidad de basura no es factible 230

Pregunta capciosa, respuesta simple 231

La estructura de la basura dispersa en la ciudad de Databang es compleja232

Es imposible establecer y aplicar un modelo unificado de medición de basura dispersa233

Las heurísticas son el puente entre la intuición y la optimización236

Uso del árbol de guardado rápido 239

¿Existe una forma más sencilla de evaluar los logros de Sloppy Set? 240

Todos los patrones fijos son instructivos244

Análisis completado, listo para enviar246

Parece que su análisis impresionó a los miembros del ayuntamiento249

p >

9. Histograma de forma numérica

¿Qué puede decir el histograma? Hay innumerables formas de representar datos gráficamente y los histogramas son una de las mejores. Los histogramas son algo similares a los gráficos de barras y pueden resumir datos de forma rápida y eficiente. Siguiente

Utilizarás este pequeño y práctico gráfico para medir la distribución, diferencia, tendencia central, etc. de los datos.

No importa cuán grande sea el conjunto de datos, simplemente dibuje un histograma y podrá "ver" los secretos de los datos.

En este capítulo, dibujaremos un histograma utilizando una herramienta de software nueva, gratuita y versátil.

Próximamente la evaluación anual de los empleados 252

Hay varias formas de pedir dinero 254

Este es el récord de aumento salarial a lo largo de los años 255

Reflexión del histograma La frecuencia de aparición de cada conjunto de datos 262

La brecha entre diferentes intervalos del histograma es la brecha entre los puntos de datos 263

Instalar y ejecutar R 264

Voluntad Cargando datos en un programa R 265

R crea hermosos histogramas 266

Trazado de histogramas con subconjuntos de datos 271

Negociación un aumento de salario vale la pena 276

¿Qué significa para usted negociar un aumento? 277

10. Retorno

Predicción

Comprende todo y predice el futuro. El poder del análisis de regresión es ilimitado, siempre que lo utilice, puede ayudarle a predecir ciertos valores de resultados. Cuando se utiliza junto con experimentos controlados, el análisis de regresión también puede predecir el futuro. Los comerciantes están utilizando con entusiasmo el análisis de regresión para ayudarles a crear modelos y predecir el comportamiento de los clientes. Este capítulo está a punto de mostrarle que el uso sensato del análisis de regresión puede traer enormes beneficios.

¿Cómo piensas gastar el dinero? 280

Análisis con el objetivo de conseguir un gran aumento salarial 283

Espera un momento... ¡Calculadora de aumento salarial! 284

El secreto de este algoritmo es predecir el aumento salarial 286

Usa un diagrama de dispersión para comparar dos variables 292

Una línea recta puede indicar el objetivo para clientes 294

p>

Utilice el gráfico promedio para predecir los valores en cada intervalo 297

La línea de regresión predice el aumento salarial real de las personas 298

El La línea de regresión es muy útil para datos con características de correlación lineal. Útil300

Necesitas una ecuación para hacer predicciones precisas304

Deja que R cree un objeto de regresión306

Ecuaciones de regresión. están estrechamente relacionados con los diagramas de dispersión 309

El algoritmo de la calculadora de aumento salarial es exactamente la ecuación de regresión 310

Su calculadora de aumento salarial no salió según lo planeado... 313

11. Error razonable

El mundo es complejo. No es raro que las predicciones sean inexactas. Sin embargo, si indica el margen de error al realizar un pronóstico, usted y su cliente no sólo conocerán el valor promedio del pronóstico, sino también la desviación típica causada por ese error. Señalar errores puede hacer que las predicciones y creencias sean más completas. A través de las herramientas que se enseñan en este capítulo, también sabrá cómo controlar los errores y cómo reducirlos tanto como sea posible, mejorando así la credibilidad de las predicciones.

El cliente estaba furioso 316

¿Qué hizo su algoritmo de predicción de aumento salarial? 317

Composición de clientes 318

El tipo que pidió un aumento salarial del 25% no está dentro del alcance del modelo 321

Cómo tratar con clientes que quiero predecir situaciones fuera del rango de datos 322

El tipo que fue despedido por usar la extrapolación se calmó 327

Solo resolviste parte del problema 328

Mira ante los datos distorsionados de los resultados del aumento salarial ¿Cómo se ve cuando te levantas? 329

Error oportunista = la desviación entre los resultados reales y las predicciones del modelo330

El error es bueno para usted y el cliente334

Entrevista sobre error oportunista335

Especifique el error cuantitativamente 336

Utilice la raíz del error cuadrático medio para expresar cuantitativamente la distribución residual 337

El modelo R sabe que hay un error cuadrático medio 338

El resumen del modelo lineal de R muestra la raíz del error cuadrático medio 340

El propósito fundamental de la segmentación es gestionar los errores 346

El excelente análisis de regresión tiene funciones explicativas y predictivas 350 p>

El modelo particionado maneja los errores mejor que el modelo original352

Tus clientes siguen regresando357

12. Base de datos relacional

¿Cómo organizar datos multivariables en constante cambio? Una hoja de cálculo tiene sólo dos dimensiones de datos: filas y

columnas. Si sus datos incluyen muchos aspectos, los formatos tabulares pueden quedar obsoletos rápidamente. En este capítulo,

verá cómo las hojas de cálculo pueden resultar difíciles de administrar datos multivariados y cómo los sistemas de administración de bases de datos relacionales

hacen que el almacenamiento y la recuperación de datos multivariados sean extremadamente fáciles.

"Data News" espera analizar las ventas 360

Estos son los datos de seguimiento de operaciones que guardan 361

Necesita conocer la relación entre las tablas de datos 362

Una base de datos es una serie de datos que tienen relaciones específicas entre sí365

Encuentra una ruta a través de varias relaciones para hacer las comparaciones necesarias366

Crea una hoja de cálculo a través de esta path366

Relaciona el número de artículos y ventas a través del resumen371

Parece que tu diagrama de dispersión está bien dibujado374

Copiar y pegar todos estos datos es una molestia 375

Administrar relaciones con una base de datos relacional 376

"Data News" usa su gráfico de relaciones para construir un RDBMS 377

"Data News" usa SQL para extraer datos 379

Los datos RDBMS se pueden comparar infinitamente 382

Estás en la portada 383

13 Organiza los datos de manera ordenada

Los datos desordenados son inútiles. Muchos recolectores de datos dedican mucho tiempo a organizarlos. No

Los datos ordenados no se pueden dividir, no se pueden aplicar fórmulas y ni siquiera se pueden leer. Es común que la gente los ignore

y los ignore, ¿verdad? En realidad, puedes hacerlo mejor. Siempre que vea claramente la apariencia de los datos que desea ver y luego utilice algunas herramientas de procesamiento de texto, puede ordenar los datos y convertir el deterioro en magia.

Acabo de recibir una lista de clientes 386 de un competidor que cerró.

El secreto oculto del análisis de datos 387

La empresa de headhunting Head First quiere ayudarse a sí misma El equipo de ventas obtuvo la lista388

La clave para limpiar datos desordenados es la preparación392

Una vez que los datos están organizados, se pueden arreglar393

Se # como delimitador 394

Excel divide los datos en varias columnas mediante delimitadores 395

Reemplace el carácter "^" con SUSTITUTO 399

Todos los "apellidos" Todo está ordenado 400

Es demasiado problemático reemplazar el patrón de nombre con SUSTITUIR 402

Usar fórmulas de texto anidado para procesar patrones complejos 403

R puede usar expresiones regulares 404

Utilice el subcomando para organizar "nombres" 406

Ahora puede entregar la mercancía al cliente 407

Puede que aún no esté terminado... 408

Ordenar los datos para que los valores duplicados parezcan concentrados 409

Estos datos pueden provenir de una base de datos relacional 412

Eliminar nombres duplicados 413

Creaste un registro hermoso, ordenado y único 414

¡La empresa de cazatalentos Head First está reclutando todo tipo de talentos de una sola vez! 415

Adiós... 416

Apéndice A Epílogo

Diez consejos no tratados en el texto principal

Has ganado mucho . Sin embargo, la tecnología de análisis de datos cambia constantemente y el aprendizaje es infinito. Debido a la extensión limitada de este libro, todavía hay algunos conocimientos estrechamente relacionados que no se han presentado. Exploraremos los diez puntos de conocimiento principales en este apéndice.

Primero: Enciclopedia de conocimientos estadísticos 418

Segundo: Habilidades de Excel 419

Tercero: Principios gráficos del profesor de la Universidad de Yale Edward Tufte (Edward Tufte) 420

Cuarto: Tablas dinámicas 421

Quinto: Comunidad R 422

Cuarto: Regresión múltiple y no lineal 423

Ítem 7: Hipótesis nula-hipótesis alternativa Prueba 424

Ítem 8: Aleatoriedad 424

Ítem 9: Google Docs 425

Ítem 10: Tus habilidades profesionales 426

Iniciar R ! Apéndice B Instalación de R

Las potentes funciones de análisis de datos se basan en complejos mecanismos internos. Afortunadamente, sólo toma unos minutos instalar

e iniciar R, y este apéndice le mostrará cómo instalar R sin esfuerzo.

Apéndice C Instalación de herramientas de análisis de Excel

ToolPak

Algunas de las mejores funciones de Excel no están instaladas de forma predeterminada. Para realizar la optimización en el Capítulo 3 y el histograma en el Capítulo 9, debe activar Solver y Analysis ToolPak. Excel instala estas dos extensiones de forma predeterminada. Sin embargo, estos complementos no se activarán a menos que el usuario los opere activamente.