Red de conocimiento de divisas - Preguntas y respuestas sobre Forex - ¿Qué hacen generalmente los ingenieros de minería de datos?

¿Qué hacen generalmente los ingenieros de minería de datos?

¿Qué hace un ingeniero de minería de datos?

La minería de datos, literalmente, significa encontrar cosas útiles en los datos. Lo que es útil depende de los objetivos comerciales específicos. Las más simples son las aplicaciones estadísticas, como los datos de comercio electrónico, como las estadísticas de Taobao sobre qué provincia compra más trajes de baño y qué provincia tiene más sujetadores para niñas. Además, en función de la navegación, los clics, la recopilación, las compras y otros comportamientos del usuario, se puede inferir que la edad, el sexo, el poder adquisitivo, los intereses y los pasatiempos del usuario pueden representar el retrato de una persona, lo que equivale a utilizar estos atributos extraídos para describir. una persona. Estas siguen siendo las cosas más simples, y hay cosas más profundas, como la predicción (acciones).

La minería de datos a menudo es inseparable del aprendizaje automático. Como clasificación, agrupación, minería de reglas de asociación, recomendaciones personalizadas, predicción, neurología. red, aprendizaje profundo, etc.

¿Minería de datos? +? Tecnología de procesamiento del lenguaje natural (NLP) +? Aprendizaje automático/aprendizaje profundo (ML/ DL)

(1) Entre ellos , El conocimiento empresarial se refiere específicamente a recomendaciones personalizadas, publicidad computacional, búsqueda, finanzas en Internet, etc. La PNL y el CV son tecnologías de campo para procesar datos de texto, imágenes y videos respectivamente, y pueden entenderse como extraer datos no estructurados y convertirlos en datos estructurados; la tecnología ml / dl final pertenece a la teoría del aprendizaje modelo

(2) Cuando la empresa selecciona puestos, no existe un conjunto estándar de títulos de trabajo y todo está hecho. Hay dos direcciones generales. aprender principalmente tecnologías en un campo determinado, como ingenieros de procesamiento de lenguaje natural, ingenieros de visión por computadora, ingenieros de aprendizaje automático, etc. El otro es aplicar tecnologías en varios campos a escenarios comerciales para resolver necesidades comerciales. Ingeniero de sistemas de recomendación El título específico no es importante, lo importante es el contenido del trabajo habitual;

PD: En la industria de Internet, la aplicación exitosa de tecnologías relacionadas con la minería de datos se produce principalmente en los campos de recomendación y publicidad computacional, los datos involucrados son principalmente texto, por lo que la tecnología NLP es más importante. En cuanto a la tecnología CV, se utiliza principalmente en el campo de la inteligencia artificial (vehículos no tripulados, reconocimiento facial, etc.), y mi comprensión es limitada. por lo que habrá descripciones menos relevantes;

Tres habilidades básicas para puestos de minería de datos

1 Habilidades de ingeniería

(1) Conceptos básicos de programación: debes dominar. dos lenguajes, uno grande y otro pequeño. El grande se refiere a C++ o Java, el pequeño se refiere a Python o script de shell; necesita dominar el lenguaje básico de la base de datos;

Recomendación: MySQL+Python+; c++; el lenguaje es solo una herramienta, solo mira la sintaxis;

Libros recomendados: C++ primer plus

(2) Plataforma de desarrollo: Linux

Recomendación : Domine los comandos comunes y los principios de compilación del código fuente en Linux;

Libros recomendados: Cocina privada de Linux

(3) Fundamentos de la estructura de datos y el análisis de algoritmos: Domine las estructuras de datos comunes y operaciones (tablas lineales, colas, columnas, cadenas, árboles, gráficos, etc.) y dominar estructuras y operaciones de datos de uso común (tablas lineales, colas, columnas, cadenas, árboles, gráficos, etc.) Algoritmos informáticos (algoritmos de clasificación, algoritmos de búsqueda, programación dinámica, recursividad, etc.);

Sugerencia: codificar más y responder preguntas en la plataforma OJ;

Libros recomendados: Dahua Data Structure y Sword Pointing Offer.

(4) Plataforma de procesamiento masivo de datos: Hadoop (modelo de computación mr, desarrollo de Java) o Spark (modelo de computación rdd, desarrollo de Scala), este último es muy recomendable.

Recomendación: Principalmente disponible. Si tengo la energía, puedo mirar el código fuente para aprender sobre el mecanismo de programación del clúster y cosas similares.

Libros recomendados: "Big Data Spark Enterprise-level Practical Combat"

2. Capacidades de algoritmos

(1) Fundamentos matemáticos: teoría de la probabilidad, estadística matemática, álgebra lineal, proceso estocástico, teoría de optimización.

Sugerencia: Debes entenderlos. Aunque no puedas tener una base sólida, al menos debes dominar el sistema teórico de cada materia. Cuando se trata de puntos de conocimiento correspondientes, puedes entenderlos fácilmente consultando la información.

(2) Aprendizaje automático/aprendizaje profundo: domine los modelos de aprendizaje automático más utilizados (regresión lineal, regresión logística, SVM, perceptrón; árbol de decisión, bosque aleatorio, GBDT, XG boost ¿Bayes? KNN, K-means). , EM, etc.); dominar las teorías comunes del aprendizaje automático (sobreajuste, validación cruzada, selección de modelos, fusión de modelos, etc.).

); Dominar los modelos comunes de aprendizaje profundo (CNN, RNN, etc.);

Sugerencia: el dominio aquí se refiere a estar familiarizado con la fórmula de derivación y conocer los escenarios aplicables del modelo;

Libros recomendados: Métodos de aprendizaje estadístico, aprendizaje automático, práctica de aprendizaje automático, UFLDL.

(3) Procesamiento del lenguaje natural: dominar métodos comunes (tf-idf, word2vec, LDA);

3. Experiencia empresarial

(1) Comprender. Recomendación y cálculo de publicidad;

Libros recomendados: Práctica del sistema de recomendación y cálculo de publicidad.

(2) Familiarícese con escenarios comerciales relevantes participando en competencias de minería de datos, como Kaggle, Alibaba Tianchi, datacastle, etc.

Si quieres aprender sobre minería de datos, puedes leer este artículo "Guía de empleo en la era de la IA: Introducción a la minería de datos y la búsqueda de empleo"

上篇: Cómo hacer un aborto sin dolor 下篇: ¿Qué existencias hay en relojes inteligentes?
Artículos populares