1. Lenguaje de programación
Existen muchos lenguajes de programación de aprendizaje automático en la industria. Basándome en una experiencia laboral sencilla, descubrí que Python y SQL son lenguajes de programación de uso común. Los contenidos que deben dominarse incluyen: funciones agregadas, funciones matemáticas, funciones de cadena, funciones de conexión de tablas, declaraciones condicionales, etc.
2. Aprendizaje automático
El autor del libro de texto recomendado "Aprendizaje automático en la práctica" es Peter Harrington. Leer este libro requiere que los lectores dominen el lenguaje Python, además de algunos contenidos básicos de las bibliotecas de funciones Numpy, Scipy y matplotlib.
3. Estadística matemática
También hay algunas cosas que se utilizan con bastante frecuencia en estadística matemática. Por ejemplo, modelo de serie temporal, modelo ARMA, etc. Algunos indicadores de datos, como media, varianza, desviación estándar, coeficiente de variación, coeficiente de correlación, curva ROC y AUC, recuperación y precisión, validación cruzada, etc.
La diferencia entre minería de datos y aprendizaje automático
La minería de datos se preocupa menos por los detalles del algoritmo y más por la interpretación y la significancia estadística de los resultados; El aprendizaje automático parece estar más preocupado por el diseño del algoritmo y la optimización, el efecto sobre la clasificación, la agrupación o algún problema determinado, con menos consideración por la significación estadística.
Específicamente, un experto en minería de datos puede utilizar la regresión lineal o incluso el análisis de correlación, que los estudiosos del aprendizaje automático consideran un producto de principios del siglo XX para completar un trabajo práctico muy interesante y obtener ciertos resultados estadísticos. significado.