A grandes rasgos, cualquier proceso de extracción de información de una base de datos se denomina minería de datos. Desde esta perspectiva, la minería de datos es BI (Business Intelligence). Pero en términos profesionales, la minería de datos se refiere a limpiar los datos de origen y transformarlos en un conjunto de datos adecuado para la minería. La minería de datos completa la extracción de conocimientos sobre este conjunto de datos fijos y, finalmente, utiliza patrones de conocimiento apropiados para análisis y toma de decisiones adicionales. Desde esta perspectiva estrecha, podemos definir la minería de datos como el proceso de extraer conocimiento de una forma específica de conjunto de datos. La minería de datos a menudo selecciona uno o más algoritmos de minería para datos específicos y problemas específicos para descubrir reglas ocultas debajo de los datos. Estas reglas se utilizan a menudo para predecir y respaldar la toma de decisiones.
Funciones principales de la minería de datos
1. Clasificación: Establecer diferentes grupos para describir cosas en función de los atributos y características de los objetos que se analizan. Por ejemplo, el departamento bancario divide a los clientes en diferentes categorías según los datos anteriores. Ahora podemos usarlos para distinguir a los nuevos clientes que solicitan préstamos y adoptan los planes de préstamos correspondientes.
2. Agrupación: descubra las reglas inherentes de los pares de análisis y divida los objetos en varias categorías según estas reglas. Por ejemplo, los solicitantes se dividen en solicitantes de alto riesgo, solicitantes de riesgo medio y solicitantes de bajo riesgo.
3. Descubrimiento de reglas de asociación y patrones de secuencia: La asociación es una conexión tal que cuando sucede algo, también sucederán otras cosas. Por ejemplo, es probable que las personas que compran cerveza todos los días también compren cigarrillos, y la proporción puede describirse según el apoyo y la credibilidad de la asociación. A diferencia de una asociación, una secuencia es una asociación vertical. Por ejemplo, si el banco ajusta las tasas de interés hoy, el mercado de valores cambiará mañana.
4. Pronóstico: Capte el patrón de desarrollo del objeto de análisis y haga predicciones sobre tendencias futuras. Por ejemplo: juicio sobre el desarrollo económico futuro.
5. Detección de desviaciones: describe algunos casos extremos del objeto de análisis y revela las razones internas. Por ejemplo, entre los más de 654,38 millones de transacciones del banco, hubo 500 fraudes. Para operar de manera constante, los bancos deben conocer los factores internos de estos 500 casos y reducir los riesgos de operaciones futuras.
Cabe señalar que las funciones de minería de datos no existen de forma independiente, sino que están interrelacionadas y desempeñan un papel en la minería de datos.
Métodos y herramientas de minería de datos
Como nueva tecnología para procesar datos, la minería de datos tiene muchas características nuevas. En primer lugar, la minería de datos se enfrenta a cantidades masivas de datos, que también es la razón de la minería de datos. En segundo lugar, los datos pueden ser incompletos, ruidosos, aleatorios, con una estructura de datos compleja y de grandes dimensiones. Finalmente, la minería de datos es la intersección de muchas disciplinas, utilizando técnicas de estadística, informática, matemáticas y otras disciplinas. Los siguientes son algoritmos y modelos comunes y ampliamente utilizados:
(1) Métodos estadísticos tradicionales: ① Tecnología de muestreo: nos enfrentamos a una gran cantidad de datos y es imposible e innecesario analizar todos los datos. Por lo tanto, se debe realizar un muestreo razonable bajo la guía de la teoría. ②Análisis estadístico multivariado: análisis factorial, análisis de conglomerados, etc. ③Métodos de pronóstico estadístico, como análisis de regresión, análisis de series de tiempo, etc.
(2) Tecnología de visualización: utilice gráficos y otros métodos para expresar intuitivamente las características de los datos, como histogramas, etc. , que utiliza muchos métodos para describir datos estadísticos. Un problema difícil al que se enfrenta la tecnología de visualización es la visualización de datos de alta dimensión.
Requisitos de competencia profesional
Requisitos de competencia básicos
Los mineros de datos deben cumplir las siguientes condiciones básicas para poder completar tareas relevantes en proyectos de minería de datos.
1. Habilidades profesionales
Maestría o superior, especialización en minería de datos, estadística, bases de datos, dominio de tecnología de bases de datos relacionales y experiencia en desarrollo de sistemas de bases de datos.
Estar familiarizado con los algoritmos de minería de datos de uso común
Tener la base teórica de la estadística matemática y estar familiarizado con las herramientas y el software estadístico de uso común.
2. Conocimiento de la industria
Tener conocimiento relevante de la industria o familiarizarse rápidamente con el conocimiento relevante de la industria.
En tercer lugar, espíritu cooperativo
Tener un buen espíritu de equipo y ser capaz de trabajar de forma proactiva en estrecha colaboración con otros miembros del proyecto.
Cuarto, capacidades de relación con el cliente
Tener buenas habilidades de comunicación con el cliente, ser capaz de explicar claramente los puntos clave y las dificultades de los proyectos de minería de datos y ser bueno para ajustar los malentendidos y sobreestimaciones de los clientes. sobre la minería de datos espera.
Tener buenas capacidades de transferencia de conocimientos, lo que permite a los mantenedores de modelos comprender y dominar la metodología de minería de datos y las capacidades de implementación del modelado lo más rápido posible.
Requisitos funcionales avanzados
El personal de minería de datos debe cumplir las siguientes condiciones para mejorar la eficiencia de implementación de los proyectos de minería de datos y acortar el ciclo del proyecto.
Tener experiencia en la implementación de proyectos de almacenamiento de datos y estar familiarizado con la tecnología y los métodos de almacenamiento de datos.
Competente en lenguaje SQL, incluidas consultas complejas y ajuste de rendimiento.
Familiarizado con herramientas y tecnologías de desarrollo ETL.
Competente en diversas técnicas de gráficos estadísticos en el software de Microsoft Office, incluidos Excel y PowerPoint.
Sea bueno integrando los resultados de la minería con las operaciones y la gestión de los clientes, y brinde a los clientes planes operativos valiosos y factibles basados en los resultados de la minería de datos.
Campos de aplicación y empleo
Las aplicaciones actuales de la minería de datos se concentran principalmente en telecomunicaciones (análisis de clientes), comercio minorista (pronóstico de ventas), agricultura (pronóstico de datos de la industria), registros web ( personalización de páginas web), banca (fraude de clientes), electricidad (llamadas de clientes), biología (genes), cuerpos celestes (clasificación de estrellas), industria química, medicina, etc. Los problemas típicos que puede resolver actualmente incluyen marketing de bases de datos, segmentación de clientes, etc., análisis de perfiles, ventas cruzadas y otros comportamientos de análisis de mercado, así como análisis de abandono de clientes, calificación crediticia de clientes, detección de fraude, etc. aplicado en muchos campos. Si visita la famosa librería en línea de Amazon (www.amazon.com), encontrará que cuando seleccione un libro, habrá varias recomendaciones relacionadas "Los clientes que compraron este libro también lo compraron", esto es la minería de datos detrás del rol. de tecnología.
El objeto de la minería de datos son los datos acumulados en un determinado campo profesional; el proceso de minería es un proceso de interacción y repetición humano-computadora. Los resultados de la excavación deben aplicarse al mayor. Por lo tanto, todo el proceso de extracción de datos es inseparable de la experiencia en el dominio de la aplicación. "Los negocios primero, la tecnología después" es la característica de la minería de datos. Por lo tanto, aprender minería de datos no significa renunciar a sus conocimientos y experiencia profesionales originales. Por el contrario, tener experiencia en otras industrias es una gran ventaja para la minería de datos. Si tienes experiencia laboral en ventas, finanzas, maquinaria, manufactura, call center, etc. , puede mejorar su nivel profesional aprendiendo minería de datos y transformarse del rol transaccional original al rol analítico sin cambiar su especialización original. Desde su aparición a finales de los años 1980 hasta su aplicación generalizada a finales de los años 1990, la inteligencia empresarial (BI) con la minería de datos como núcleo se ha convertido en el nuevo favorito en TI y otras industrias.
Experto en recopilación y análisis de datos
Descripción del trabajo: la principal responsabilidad del especialista en recopilación y análisis de datos es recopilar datos de las operaciones de la empresa y luego extraer información periódica de ellos para guiar la dirección estratégica de la empresa. Esta ubicación a menudo se pasa por alto, pero es bastante importante. Debido a que la tecnología de bases de datos apareció por primera vez en el campo de la informática, y las bases de datos informáticas tienen las características de almacenamiento masivo, búsqueda rápida y análisis semiautomático, los especialistas en recopilación y análisis de datos aparecieron por primera vez en la industria informática y luego se expandieron a varias industrias con la popularidad. de aplicaciones informáticas. Este puesto generalmente se ofrece a personas que comprenden las aplicaciones de bases de datos y tienen ciertas capacidades de análisis estadístico. Los profesionales estadísticos con experiencia en informática o los profesionales de la informática que hayan estudiado minería de datos pueden estar calificados para este trabajo, pero es mejor tener cierta comprensión de las condiciones del mercado en su industria.
Asesoramiento para la búsqueda de empleo: debido a que muchas empresas persiguen intereses a corto plazo y no prestan atención a estrategias a largo plazo, muchas empresas nacionales actualmente no prestan suficiente atención a esta posición. Pero las grandes empresas y las empresas extranjeras conceden gran importancia a esta posición y, con el paso del tiempo, esta posición se irá calentando. Además, los especialistas en recopilación y análisis de datos pueden adquirir fácilmente experiencia en la industria y comprender fácilmente las condiciones clave de la industria, como las condiciones del mercado, los hábitos de los clientes, la distribución de canales, etc. Entonces, si desea iniciar un negocio en un banco, comenzar como especialista en recopilación y análisis de datos es una buena opción.
Analista de datos/mercado
1. El análisis de datos de mercado es un vínculo clave indispensable en la ciencia del marketing moderna: la industria donde más trabajan los analistas de datos/mercadotecnia: marketing directo (cliente directo). Marketing orientado) se ha convertido en el principal medio para que las empresas promuevan productos desde la década de 1990. Según la Asociación Canadiense de Marketing, la venta directa creó 470.000 puestos de trabajo en 1999. De 1999 a 2000, los puestos de trabajo aumentaron en 30.000. ¿Por qué la venta directa necesita tantos analistas? Por ejemplo, a medida que se intensifica la competencia empresarial, las empresas esperan obtener el máximo rendimiento de las ventas de la publicidad y esperan que más usuarios respondan a sus anuncios. Por eso tienen que hacer muchos análisis de mercado antes de publicar anuncios. Por ejemplo, basándose en sus propios productos, combinados con los ingresos familiares, la formación académica y las tendencias de consumo de los clientes del mercado objetivo, puede analizar qué familias o residentes de las zonas tienen más probabilidades de responder a los anuncios de ventas de la empresa, comprar los suyos propios productos o convertirse en clientes, de modo que los anuncios sólo puedan dirigirse a estas áreas específicas de clientes. Esta selección selectiva de anuncios en el mercado no sólo ahorra dinero sino que también aumenta el retorno de las ventas. Sin embargo, todos estos análisis se basan en bases de datos, mediante procesamiento, minería y modelización de datos, en los que el trabajo de los analistas de mercado es fundamental.
2. Fuerte adaptabilidad de la industria: casi todas las industrias aplicarán datos, por lo que, como analista de datos/mercado, no solo puede trabajar en la industria de TI tradicional de China, sino también en el gobierno, la banca, el comercio minorista y la medicina. , Servicios de fabricación, transporte y otros campos.
Situación actual y perspectivas
La minería de datos es una disciplina emergente que se adapta a las necesidades de la sociedad de la información y extrae información de bases de datos masivas. Es la intersección de estadística, aprendizaje automático, bases de datos, reconocimiento de patrones, inteligencia artificial y otras disciplinas. Todas las principales universidades nacionales han abierto cursos de minería de datos o temas de investigación. Los más famosos incluyen el Instituto de Tecnología Informática de la Academia de Ciencias de China, la Universidad de Fudan y la Universidad de Tsinghua. Además, las agencias gubernamentales y las grandes empresas también están empezando a prestar atención a esta área.
Según la encuesta y análisis de IDC de 62 empresas en Europa y América del Norte que han adoptado tecnología de inteligencia empresarial, se encontró que el retorno de la inversión promedio de estas empresas en tres años fue del 401%, de los cuales 25 % tuvo un retorno de la inversión de más del 600 %. Los resultados de la encuesta también muestran que si una empresa quiere tener éxito en un entorno complejo, los altos directivos deben poder controlar estructuras empresariales extremadamente complejas, lo cual es muy difícil sin hechos y datos detallados que lo respalden. Por lo tanto, a medida que la tecnología de minería de datos siga mejorando y madurando, será adoptada por más usuarios y permitirá que más administradores obtengan más inteligencia empresarial.
Según las previsiones de IDC (International Data Corporation), se espera que el tamaño del mercado de la industria de BI en 2004 sea de 654,38+0,4 mil millones de dólares. Ahora, cuando China se una a la OMC, China se abrirá gradualmente al mundo exterior en muchas áreas, como las finanzas y los seguros, lo que significa que muchas empresas enfrentarán una enorme presión competitiva por parte de las grandes multinacionales internacionales. El nivel de inteligencia empresarial adoptado por varias empresas de países desarrollados en el extranjero ha superado con creces el de China. El Palo Alto Management Group de Estados Unidos encuestó en 1999 a 375 empresas grandes y medianas de Europa, América del Norte y Japón sobre la adopción de tecnología de inteligencia empresarial. Los resultados muestran que el nivel de aplicación de la tecnología de inteligencia de negocios en el ámbito financiero ha alcanzado o está cerca del 70%, y en el campo del marketing ha alcanzado o está cerca del 50% en los próximos tres años, el nivel de adopción de esta tecnología. en todos los campos de aplicación aumentará aproximadamente un 50%.
Muchas empresas ahora consideran los datos como una riqueza valiosa y utilizan la inteligencia empresarial para descubrir la información oculta en ellos, obteniendo así enormes beneficios. En la actualidad, no existe un informe oficial de análisis estadístico de mercado sobre la propia industria de minería de datos en China, pero la minería de datos nacional se ha estudiado en varias industrias. Según las predicciones de los expertos extranjeros, en los próximos 5 a 10 años, con la creciente acumulación de datos y la aplicación generalizada de las computadoras, la minería de datos se convertirá en una industria en China.
Como todos sabemos, la competencia en el mercado laboral de TI se ha vuelto muy feroz y la minería de datos, la tecnología central del procesamiento de datos, ha recibido una atención sin precedentes. Las tecnologías de minería de datos e inteligencia empresarial se encuentran en la cima de la pirámide de toda la estructura empresarial de TI de toda la empresa. En la actualidad, el sistema de formación de talentos profesionales de minería de datos de mi país no es perfecto y la oferta de tecnología competente de minería de datos e inteligencia empresarial en el mercado de talentos es extremadamente pequeña. Por otro lado, las empresas, las agencias gubernamentales y las instituciones de investigación científica tienen una enorme demanda potencial de esos talentos, y la brecha entre la oferta y la demanda es enorme.
Si puede combinar técnicas de minería de datos con su experiencia actual, ¡definitivamente abrirá un mundo nuevo en su carrera!
Salario profesional
En la actualidad, la demanda de talento para el almacenamiento y la minería de datos nacionales es la misma que la de la mayoría de los puestos de TI, que son de gama baja y alta, y el segundo nivel está maduro, especialmente el almacenamiento de datos y la minería de datos de alta gama. Los talentos de minería de datos y almacenamiento de datos de alto nivel deben estar familiarizados con múltiples industrias, tener al menos 3 años de experiencia en DWH y BI a gran escala, hablar con fluidez la lectura y escritura en inglés y tener la capacidad de promover proyectos. Una persona así puede ganar más de 200.000 yuanes al año.
Certificación profesional
1. Industrias de aplicación y perspectivas profesionales de la certificación SAS
La certificación profesional global SAS es una certificación autorizada internacionalmente en el campo de la minería de datos y inteligencia empresarial. A medida que maduren el entorno y las aplicaciones de TI de China, habrá un enorme espacio para el desarrollo industrial en estos dos campos. Obtener la certificación profesional global de SAS sentará una buena base para que usted acumule una rica experiencia en el campo de las metodologías de análisis y minería de datos, y lo ayudará a abrir un nuevo mundo para el desarrollo profesional.
2. Período de validez de la certificación SAS
Actualmente no existe un período de validez específico para la certificación SAS de cinco niveles, pero los certificados de certificación que sean demasiado largos o demasiado antiguos se devaluarán. .
3. La relación entre la certificación de cinco niveles
La certificación de cinco niveles es una relación progresiva, es decir, solo aprobando las materias del examen del nivel superior se puede participar. en el examen de certificación del siguiente nivel.
4. Método de examen de certificación global de SAS
El examen es un examen por computadora, que dura 2 horas y contiene 70 preguntas objetivas.
Enlaces relacionados
Con el rápido desarrollo general de la industria logística de mi país, se han logrado ciertos avances en la construcción de la informatización logística. No importa si se trata del mercado de hardware de TI, de software o de servicios de información, la industria de la logística tiene una cierta escala de inversión, con una inversión total en los últimos dos años que oscila entre 2.000 y 3.000 millones de yuanes. El apoyo activo del gobierno al desarrollo de la industria logística moderna y la intensificación de la competencia en el mercado de la logística han contribuido efectivamente al desarrollo constante de la construcción de informatización logística.
El último informe de Analysys International, "Informe completo anual de informatización de la industria logística de China 2006" señala que la industria logística de China se está transformando de un modelo tradicional a un modelo moderno. El modelo logístico moderno guiará las necesidades de informatización. de la industria logística, y este El motor básico de esta transformación proviene de la demanda del mercado. Los datos del informe muestran que entre 2006 y 2010, la escala de inversión en TI por parte de las empresas de logística tradicionales superará los 10 mil millones de yuanes. De 2006 a 2010, la escala de inversión en TI de las empresas de logística de terceros superará los 2 mil millones de yuanes.
En la actualidad, los sistemas de software de aplicación industrial han planteado requisitos de aplicación más altos para el hardware de los equipos terminales a nivel operativo. Sin embargo, la integración de software y hardware generalmente no es ideal y, por lo tanto, la correspondencia es única. , las empresas presentarán sugerencias para la integración de equipos de software y hardware.
La investigación y el desarrollo de sistemas de software en la industria de la logística darán más consideración a la investigación de operaciones y la tecnología de extracción de datos, y los proveedores de servicios profesionales serán más propicios para resolver problemas de investigación y desarrollo.
La base teórica de la ciencia logística proviene de la investigación de operaciones, que concede gran importancia a encontrar correlaciones en el procesamiento de datos complejos (basados en sistemas de nivel de costo-servicio), por lo que la tecnología de minería de datos es más importante para los sistemas de software relacionados. .