Los libros de texto de pregrado y posgrado también sirven como libros de referencia para investigadores y profesores en campos relacionados. El tema del aprendizaje automático trata sobre cómo los programas informáticos mejoran automáticamente su rendimiento con la experiencia. El aprendizaje automático se ha utilizado con éxito en muchas áreas, desde programas de extracción de datos para detectar fraudes en transacciones con tarjetas de crédito, hasta sistemas de filtrado de información que capturan los intereses de lectura de los usuarios y automóviles que pueden conducirse solos en la autopista. Al mismo tiempo, las teorías y algoritmos básicos de este tema también han logrado grandes avances.
El objetivo de este libro de texto es demostrar los algoritmos y teorías centrales del aprendizaje automático. El aprendizaje automático se basa en resultados y conceptos de muchas disciplinas, incluidas la estadística, la inteligencia artificial, la filosofía, la teoría de la información, la biología, la ciencia cognitiva, la complejidad computacional y el control. El autor cree que la mejor manera de aprender el aprendizaje automático es mirar el aprendizaje automático desde la perspectiva de estas disciplinas y comprender los antecedentes, los algoritmos y los supuestos implícitos del problema. Esto ha sido difícil de hacer en el pasado debido a la falta de material fuente inclusivo en el campo. El objetivo principal de este libro es proporcionar dicha información.
Debido a la naturaleza multidisciplinaria del material, este libro no requiere que los lectores tengan los conocimientos correspondientes, pero introduce conceptos básicos de otras disciplinas, como estadística, inteligencia artificial, teoría de la información, etc. Cuando sea necesario. La introducción se centra en aquellos conceptos más estrechamente relacionados con el aprendizaje automático. Este libro puede utilizarse como libro de texto para estudiantes universitarios o de posgrado en informática e ingeniería, estadística y ciencias sociales, y como referencia para investigadores o profesionales de software.
La redacción de este libro sigue dos principios: primero, puede ser entendido por estudiantes universitarios; segundo, debe contener contenido que quiero que mis propios estudiantes de doctorado dominen antes de comenzar a estudiar el aprendizaje mediante dispositivos.
El tercer principio que guía la escritura de este libro es que debe reflejar un equilibrio entre teoría y práctica. La teoría del aprendizaje automático se esfuerza por responder "¿Cómo cambia el rendimiento del aprendizaje con la cantidad de muestras de entrenamiento dadas?" y "Para varias tareas de aprendizaje del mismo tipo: ¿qué algoritmo de aprendizaje es más adecuado utilizando información estadística, complejidad computacional y bayesiana?" Teoría de los resultados teóricos del análisis yessiano, este libro analiza esta cuestión teórica. Al mismo tiempo, este libro también cubre muchos aspectos prácticos: presenta los principales algoritmos en este campo y explica el proceso de operación de los algoritmos.
La implementación y los datos de algunos de estos algoritmos se pueden obtener en Internet a través del sitio web http://www.cs.cmu.edu/-Tom/mlbook.html, incluido el código fuente para el reconocimiento facial. y datos para redes neuronales, aprendizaje de árboles de decisión para análisis crediticio y clasificadores bayesianos para analizar documentos de texto. Agradezco a mis colegas que me ayudaron a crear estos recursos en línea: Jason Rennie, Paul Hsiung, Jeff Shufelt, Matt Glickman, Scott Davies, Joseph O'Sullivan, Ken Lang\Andrew McCallum y Thorsten Joachims.
Capítulo 1 Introducción
1.1 Descripción estándar de los problemas de aprendizaje
1.2 Diseño de un sistema de aprendizaje
1.2.1 Selección de la experiencia de capacitación
1.2 .2 Seleccionar la función objetivo
1.2.3 Seleccionar la representación de la función objetivo
1.2.4 Seleccionar el algoritmo de aproximación de la función
1.2.5 Diseño final
1.3 Algunas perspectivas y problemas del aprendizaje automático
1.4 Cómo leer este libro
1.5 Resumen y materiales de lectura complementarios
Aplicación
Capítulo 2 Aprendizaje de conceptos y la secuencia de lo general a lo particular
2.1 Introducción
2.2 Tareas de aprendizaje de conceptos
2.2.1 Definición de términos
2.2.2 Hipótesis de aprendizaje inductivo
2.3 Aprendizaje conceptual como búsqueda
2.4 Búsqueda: encontrar hipótesis extremadamente especiales
2.5 Espacio variante y candidato Algoritmo de eliminación
2.5.1 Representación
2.5.2 Algoritmo de eliminación post-lista
2.5.3 Una representación más concisa del espacio variante
2.5.4 Algoritmo de aprendizaje de eliminación de candidatos
Ejemplo de algoritmo
2.6 Descripción del espacio variante y eliminación de candidatos
2.6.1 El algoritmo de eliminación de candidatos convergerá a ¿La hipótesis correcta?
2.6.2 ¿Qué tipo de muestras de capacitación se necesitan en el siguiente paso?
2.6.3 Cómo utilizar el concepto de aprendizaje incompleto
2.7 Sesgo inductivo
2.7.1 Espacio de hipótesis de sesgo
2.7. 2 Estudiantes imparciales
2.7.3 La inutilidad del aprendizaje imparcial
2.8 Pequeños materiales de lectura complementarios y de inicio
Aplicación
Capítulo 3 Decisión Aprendizaje de árbol
3.1 Introducción
3.2 Representación del árbol de decisión
3.3 Aplicación del aprendizaje del árbol de decisión
3.4 Algoritmo básico de aprendizaje del árbol de decisión
p>3.4.1 ¿Qué atributo es el mejor atributo de clasificación?
3.4.2 Ejemplo
3.5 Búsqueda de espacio de hipótesis en el aprendizaje de árboles de decisión
3.6 Sesgo inductivo en el aprendizaje de árboles de decisión
3.6. define sesgo y sesgo preferido.
3.6.2 ¿Por qué se debe dar prioridad a las hipótesis breves?
3.7 Problemas comunes en el aprendizaje de árboles de decisión
3.7.1 Evitar el sobreajuste de datos.
3.7.2 Fusionar atributos de valor continuo
3.7.3 Otros indicadores para la selección de atributos
3.7.4 Manejo de muestras de entrenamiento con valores de atributos faltantes
3.7.5 Atributos de procesamiento con diferentes costos
3.8 Resumen y materiales de lectura complementarios
Aplicación
Capítulo 4 Redes neuronales artificiales
4.1 Introducción
4.2 Representación de redes neuronales
4.3 Problemas adecuados para el aprendizaje de redes neuronales
4.4 Perceptrón
4.4.1 Capacidad de representación de la percepción de la máquina
4.4.2 Reglas de entrenamiento del perceptrón
4.4.3 Descenso de gradiente y regla delta
Resumen
4.5 Multicapa red y algoritmo de retropropagación
4.5.1 Unidad de umbral diferenciable
Algoritmo de retropropagación
4.5.3 Derivación de la ley de retropropagación
4.6 Descripción del algoritmo de retropropagación
4.6.1 Convergencia y mínimos locales
4.6.2 Capacidades de representación de redes feedforward
4.6.3 Búsqueda en el espacio de hipótesis y Sesgo inductivo
Representación de capa oculta
4.6.5 Criterios de generalización, sobreajuste y detención
4.7 Ejemplo: reconocimiento facial
4.7.1 Tarea
Elementos de diseño
4.7.3 Aprendizaje de la representación de capas ocultas
4.8 Red neuronal artificial avanzada Tema
4.8.1 Otros opcionales funciones de error
4.8.2 Otros procesos opcionales de minimización de errores
Redes recursivas
4.8.4 Modificación dinámica de la estructura de la red
4.9 Resumen y materiales de lectura complementarios
Aplicación
Capítulo 5 Evaluación de hipótesis
5.1 Motivación
5.2 Precisión de la estimación de hipótesis
5.2.1 Tasa de error muestral y tasa de error real
5.2.2 Intervalo de confianza de la hipótesis de valor discreto
5.3 Bases de la teoría del muestreo
5.3.1 Error estimación de tasa y estimación de proporción binomial
Distribución binomial
Media y varianza
5.3.4 Estimadores, sesgo y varianza
Intervalos de confianza
5.3.6 Límites bilaterales y unilaterales
5.4 Métodos generales para inferir intervalos de confianza
5.5 Diferencia entre tasas de error de dos hipótesis
5.6 Comparación de algoritmos de aprendizaje
5.6.1 Prueba T pareada
Consideraciones reales
5.7 Resumen y lecturas complementarias
Aplicación
Capítulo 6 Aprendizaje bayesiano
6.1 Introducción
6.2 Regla de Bayes
6.3 Regla de Bayes y aprendizaje de conceptos
6.3. 1 Aprendizaje de conceptos bayesianos de fuerza bruta
6.3.2 Hipótesis de mapeo y aprendizaje consistente
6.4 Hipótesis de máxima verosimilitud y error mínimo al cuadrado
6.5 Hipótesis de máxima verosimilitud para la probabilidad prevista
6.6 Criterio de longitud mínima de descripción
6.7 Clasificador óptimo bayesiano
6.8 Algoritmo de Gibbs
6.9 Clasificador ingenuo de Bayes
6.10 Ejemplo: aprender a clasificar texto
6.11 Redes de creencias bayesianas
6.11.1 Independencia condicional
6.11.2 Implicaciones
6.11 3 Inferencia
6.11.4 Aprendizaje de la red de creencias bayesianas
6.11.5 Entrenamiento de ascenso de gradiente de la red bayesiana
6.11.6 Aprendizaje bayesiano La estructura de la red.
6.12 Algoritmo EM
6.12.1 Estimación de la media de k distribuciones gaussianas.
Expresión general del algoritmo 6.12.2em
Derivación del algoritmo 6.12.3k-medias
6.13 Resumen y materiales de lectura complementarios
Aplicación
Capítulo 7 Teoría del aprendizaje computacional
7.1 Introducción
7.2 Es posible aprender hipótesis aproximadamente correctas.
7.2.1 Marco del problema
7.2.2 Tasa de error de hipótesis
7.2.3 Hábitos que se pueden aprender de PAC
7.3 Complejidad limitada de la muestra de hipótesis del espacio
7.3.1 Aprendizaje desconocido y suposiciones inconsistentes
7.3.2 Las conjunciones de caracteres booleanos se pueden aprender a través de PAC.
7.3.3 Hábitos que se pueden aprender de otras categorías de conceptos de PAC
7.4 Complejidad de muestra del espacio de hipótesis infinito
7.4.1 Descomponer el conjunto de instancias.
7.4.2 Dimensión de Vapnik-Chervonenkis
7.4.3 Complejidad de la muestra y dimensión VC
7.4.4 Dimensión VC de la red neuronal
7.5 Modelo de aprendizaje con límite de error
7.5.1 Límite de error Find-S
7.5.2 Límite de error del algoritmo de reducción a la mitad
Mejor margen de error
Algoritmo de mayoría ponderada
7.6 Resumen y lectura complementaria
Aplicaciones
Capítulo 8 Aprendizaje basado en ejemplos
8.1 Introducción
Algoritmo de vecino más cercano 8.2 k
8.2.1 Algoritmo de vecino más cercano ponderado por distancia
8. Descripción del algoritmo de vecino más cercano 2k
Notas terminológicas
8.3 Regresión local ponderada
8.3.1 Regresión lineal local ponderada
8.3.2 Descripción de la regresión local ponderada
p>
8.4 Funciones de base radial
8.5 Razonamiento basado en casos
8.6 Comentarios sobre el aprendizaje pasivo y activo
8.7 Resumen y materiales de lectura adicionales p>
Aplicación
Capítulo 9 Algoritmo genético
9.1 Motivación
9.2 Algoritmo genético
9.2.1 Expresa una hipótesis.
Operador genético
9.2.3 Función de aptitud y selección de hipótesis
9.3 Ejemplo
9.4 Búsqueda en el espacio de hipótesis
9.5 Programación genética
9.5.1 Representación del programa
9.5.2 Ejemplo
9.5.3 Descripción de la programación genética
9.6 Evolución y Modelos de aprendizaje
Evolución lamarckiana
Efecto Baldwin
9.7 Algoritmos genéticos paralelos
9.8 Resumen y lectura complementaria
Aplicación
Capítulo 10 Conjunto de reglas de aprendizaje
10.1 Introducción
10.2 Algoritmo de cobertura de secuencia
10.2.1 Búsqueda general de columnas especiales
Varias variaciones de 10.2.2
10.3 Conjuntos de reglas de aprendizaje: resumen
10.4 Aprendizaje de reglas de primer orden
10.4.1 Bocina de primer orden cláusulas
10.4.2 Terminología
10.5 Aprendizaje de conjuntos de reglas de primer orden: foils
10.5.1 Especializaciones candidatas en foils Generar
10.5.2 Búsqueda guiada de foils
10.5.3 Aprendizaje de conjuntos de reglas recursivas
10.5.4 Resúmenes de foils
10.6 Como inducción deductiva inversa
10.7 Inducción inversa
10.7.1 Inducción de primer orden
10.7.2 Inducción inversa: caso de primer orden
10.7.3 Resumen de inducción inversa
10.7.4 Resumen, - inclusión e implicación
10.7.5 Procedimiento
10.8 Resumen y materiales de lectura complementarios
Aplicación
Capítulo 11 Análisis y aprendizaje
11.1 Introducción
11.2 Aprendizaje de la teoría del dominio perfecto: ProLogis-EBG
11.3 Explicación del aprendizaje basado en explicaciones p>
Nuevas funciones en 11.3.1
11.3.2 Aprendizaje deductivo
11.3.3 Sesgo inductivo en el aprendizaje basado en explicaciones
11.3.4 Aprendizaje del nivel de conocimiento
11.4 Aprendizaje del conocimiento del control de búsqueda basado en explicaciones
11.5 Resumen y materiales de lectura complementarios
Aplicación
p>
Capítulo 12 La combinación del aprendizaje inductivo y analítico
12.1 Motivación
12.2 Métodos de aprendizaje inductivo y analítico
12.2.1 Problemas de aprendizaje
12.2.2 Búsqueda espacial hipotética
12.3 Utilizar conocimientos previos para obtener hipótesis iniciales
12.3.1 Algoritmo ANN KB
12.3.2 Ejemplo
12.3.3 Descripción
12.4 Utilizar conocimientos previos para cambiar el objetivo de búsqueda
12.4.1 Algoritmo de función tangente
12.4.2 Ejemplo
12.4.3 Descripción
12.4.4 Algoritmo EBNN
12.4.5 Descripción
12.5 Utilizar conocimientos previos para ampliar los operadores de búsqueda.
12.5.1 algoritmo focl
12.5.2 Descripción
12.6 Estado de la investigación
12.7 Resumen y materiales de lectura complementarios
Aplicación
Capítulo 13 Fortalecimiento del aprendizaje
13.1 Introducción
13.2 Tareas de aprendizaje
13.3 Q Learning
13.3.1 Función q
Un algoritmo para aprender Q
13.3.3 Ejemplo
Convergencia de 13.3.4
13.3. 5 Estrategia experimental
13.3.6 Secuencia de actualización
13.4 Devoluciones y acciones inciertas
13.5 Aprendizaje por diferencia horaria
13.6 A partir del resumen en ejemplos
13.7 y programación dinámica
13.8 Resumen y materiales de lectura complementarios
Uso
Apéndice Convenciones de notación