Algunas sugerencias para que los estudiantes junior aprendan minería de datos.

Algunas sugerencias para que los estudiantes junior aprendan minería de datos.

Mirando la confusión de los hermanos y hermanas menores que acababan de ingresar al laboratorio, aunque tuve algunas conversaciones esporádicas con ellos, no fueron lo suficientemente sistemáticas. Por lo tanto, doy algunas sugerencias para aprender minería de datos basadas en mi propia experiencia. Puede analizar problemas específicos según su propia situación como referencia. Espero que sea más profundo y más basado en la sesión anterior.

I. Los fundamentos de la escuela de posgrado y la minería de datos

En primer lugar, permítanme presentarles algunos temas que preocupan a todos, incluida cuál es la dirección de investigación de nuestro grupo y la tesis. -cuestiones relacionadas, big data y cuestiones relacionadas con el trabajo Preguntas, registro de hogares en Shanghai, etc.

1. ¿Cuál es la dirección de nuestra investigación?

La dirección de investigación de nuestro grupo es la minería de datos y la dirección de investigación de este artículo es el algoritmo de recomendación. Preste atención a la dirección general de la investigación, la diferencia y conexión entre la dirección de la investigación y la dirección del trabajo de tesis.

2. Cuestiones relacionadas con el papel

Los estudiantes de posgrado inevitablemente pensarán en una pregunta: ¿cuál es el significado de la escuela de posgrado? Personalmente, creo que la mayor importancia de estudiar un posgrado es ejercitar mis habilidades de pensamiento analítico sistemático y riguroso. Después de que el tutor da la dirección de investigación del artículo, cómo establecer una dirección de investigación más detallada, cómo recuperar información, cómo leer artículos en inglés, cómo proponer sus propias innovaciones, cómo hacer experimentos, cómo escribir un artículo, cómo revisar el trabajo, cómo enviarlo, cómo abandonar una clase, cómo dar un informe oral en inglés en una conferencia internacional y cómo comunicarse con sus compañeros son cuestiones que usted mismo debe considerar.

3. Big data y cuestiones relacionadas con el trabajo

¿Es la minería de datos una especialidad del big data? Por supuesto que pertenece. Hoy en día, lo ideal es utilizar big data para encontrar trabajo. ¿La clave es qué cursos tomar? Te he recomendado muchos libros antes, pero el efecto es exactamente el contrario. Como hay demasiados, no puedo leerlos todos y no sé el orden en el que leerlos. Solo rasqué la superficie y ni siquiera terminé el último libro como estudiante de posgrado.

(1) Garantía mínima

No importa lo que hagas en el futuro, es necesario dominar un lenguaje de programación, una base de datos, estructuras de datos y algoritmos.

MySQL de alto rendimiento

Estructura de datos y análisis de algoritmos: descrito en lenguaje Java

Algoritmo:/subject/19952400/

( 2 )Python y el aprendizaje automático

Programación de inteligencia colectiva

Minería de datos y análisis de sitios de redes sociales

Minería de datos: conceptos y técnicas

Documentación oficial de Python:/javase/8/docs/api/

Java EE:/javaee/6/api/

(4)Libros de Hadoop y Spark

Registro de big data: arquitectura y algoritmos

Guía autorizada de Hadoop

Big data desencadena una batalla a nivel empresarial

Programación Scala

Hadoop Sitio web oficial: http://spark.apache.org/

Sitio web oficial de Spark: http://spark.apache.org/

Sitio web oficial de Scala: http://www .scala-lang.org /

Descripción: Identifica el objetivo, ten paciencia y avanza paso a paso. Después de leer los libros recomendados anteriormente, la minería de datos es básicamente una introducción.

4. Problema de registro de hogares en Shanghai

El registro de hogares en Shanghai es un sistema de puntos. Si desea obtenerlo mientras está en la escuela, entonces la única forma es parametrizar la competencia anual de modelado de datos para graduados y ganar. La tasa de victorias sigue siendo muy alta. De hecho, si aprende bien Python, compra un libro sobre modelado matemático, lee algunos artículos premiados en los últimos años, investiga un tema durante la competencia y escribe un buen artículo, básicamente puede ganar el premio.

2. Minería de datos avanzada

La minería de datos implica muchas direcciones, pero generalmente se estudia desde tres direcciones: estadística matemática, bases de datos y almacenes de datos, y aprendizaje automático. Cuando quiero aprender una dirección, lo que más quiero es pedirle a alguien que me haga una lista de libros. Porque también haré una lista de libros para que estudies poco a poco.

1. Estadística matemática

Matemática pura (1): funciones de variables complejas, funciones de variables reales, análisis funcional, topología, transformación integral, variedades diferenciales, ecuaciones diferenciales ordinarias, ecuaciones diferenciales parciales , etc.

(2) Matemáticas aplicadas: matemáticas discretas (conjuntos, lógica, combinación, álgebra, teoría de grafos, teoría de números), matemáticas concretas, análisis de tensores, cálculo numérico, teoría de matrices, teoría de aproximación, investigación de operaciones, convexidad Optimización, transformada wavelet, análisis de series temporales, etc.

(3) Probabilidad: teoría de la probabilidad, teoría de la medida, proceso aleatorio, etc.

(4) Estadística: estadística, estadística multivariante, estadística bayesiana, simulación estadística, estadística no paramétrica, estadística paramétrica, etc.

2. Base de datos y almacén de datos

Concepto de sistema de base de datos

Implementación del sistema de base de datos

Almacén de datos

Sistemas distribuidos: concepto y diseño

3. Aprendizaje automático

Principios de comunicación; aprendizaje automático; procesamiento de lenguaje natural; reconocimiento de patrones; e imágenes; visión artificial; reconocimiento de voz; etc. (Puede leer todos los libros clásicos en esta área y agregará más más adelante).

Otros libros

(1)Linux

(2) Principios de red, principios de compilación, principios de combinación,

(3) JVM

(4) Lenguaje de modelado unificado

(5) Ingeniería de software

(6) Patrón de diseño

(7) Computación en la nube y Docker

(8) Computación paralela

(9) Análisis de requisitos

Tres. Aprendizaje y métodos

Como ingeniero de software, debes dominar las siguientes herramientas:

(1) Blog

Además de aprender, también debes pensar y resumir y poner todo en perspectiva. Los recuerdos olvidados se almacenan en caché, se serializan en texto y se registran en el blog.

(2) Idioma

Los lenguajes comúnmente utilizados para big data incluyen Java, Scala y Python. Si debe elegir dominar un idioma, elija Scala usted mismo y aprenda la JVM en profundidad. (3) Herramientas de desarrollo

Elijo IntelliJ IDEA para el desarrollo de Java y Scala, y Eclipse para el desarrollo de Python.

(4)GitHub

Insiste en programar todos los días y participa activamente en proyectos de código abierto.

(5)Linux

Ubuntu 12.04 LTS se usa comúnmente en el trabajo.

Por razones de tiempo, el resumen anterior aún es relativamente aproximado y es la primera versión. Se resumirá y mejorará en profundidad más adelante.

/script>