Red de conocimiento de divisas - Preguntas y respuestas sobre Forex - Algoritmos de minería de datos y sus casos de aplicación en la vida

Algoritmos de minería de datos y sus casos de aplicación en la vida

Algoritmos de minería de datos y sus casos de aplicación en la vida

Cómo identificar spam, cómo juzgar si una transacción es falsa, cómo juzgar la calidad y el grado del vino tinto, cómo Scan King reconoce el texto, cómo juzgar si trabajos anónimos son de manos de expertos famosos, cómo juzgar si una célula es una célula tumoral, etc. Parecen muy profesionales y difíciles de responder. Sin embargo, si sabe un poco sobre minería de datos, puede tener la sensación de que su futuro es brillante.

En este artículo, principalmente quiero presentar brevemente los algoritmos de minería de datos y los tipos que incluyen. Luego, interpreta su verdadera existencia a través de casos accesibles y vívidos de la realidad. ? En términos generales, los algoritmos de minería de datos incluyen cuatro tipos: clasificación, predicción, agrupación y asociación. Los dos primeros pertenecen al aprendizaje supervisado y los dos últimos pertenecen al aprendizaje no supervisado, que pertenecen al reconocimiento y descubrimiento de patrones descriptivos.

El aprendizaje supervisado es aprendizaje supervisado, es decir, hay variables objetivo, por lo que es necesario explorar la relación entre las variables características y las variables objetivo, y aprender y optimizar el algoritmo bajo la supervisión de las variables objetivo. Por ejemplo, el modelo de calificación crediticia es un aprendizaje supervisado típico y la variable objetivo es "si se incumple o no". El propósito del algoritmo es estudiar la relación entre variables características (demográficas, atributos de activos, etc.). ) y la variable objetivo.

La mayor diferencia entre los algoritmos de clasificación y los algoritmos de predicción es que las variables objetivo de los primeros son discretas (como si están vencidos, si son células tumorales, si son spam, etc.), mientras que las variables objetivo de este último son continuas. En términos generales, los algoritmos de clasificación específicos incluyen regresión logística, árbol de decisión, KNN, discriminación bayesiana, SVM, bosque aleatorio, red neuronal, etc.

Algoritmo de previsión Algoritmo de previsión, su variable objetivo es generalmente una variable continua. Los algoritmos comunes incluyen regresión lineal, árboles de regresión, redes neuronales, SVM, etc.

Aprendizaje no supervisado El aprendizaje no supervisado significa que no existe una variable objetivo y se basa en los propios datos para identificar los patrones y características inherentes entre las variables. Por ejemplo, el análisis de correlación se utiliza para encontrar la correlación entre el proyecto A y el proyecto b a través de datos. Por ejemplo, el análisis de conglomerados se utiliza para dividir todas las muestras en varios grupos estables y distinguibles según la distancia. Se trata de reconocimiento y análisis de patrones sin supervisión de la variable objetivo.

El propósito del análisis de conglomerados es subdividir muestras de modo que las características de las muestras del mismo grupo sean similares y las características de las muestras de diferentes grupos sean bastante diferentes. Los algoritmos de agrupación comunes incluyen kmeans, agrupación de linaje, agrupación de densidad, etc.

Análisis de correlación El propósito del análisis de correlación es descubrir la relación intrínseca entre proyectos. A menudo se refiere al análisis de la cesta de la compra, es decir, qué productos los consumidores suelen comprar al mismo tiempo (como bañadores, protector solar), lo que ayuda a los comerciantes a agrupar las ventas.

Casos y aplicaciones basadas en minería de datos Los cuatro tipos de algoritmos mencionados anteriormente (clasificación, predicción, clustering y asociación) son relativamente tradicionales y comunes. Existen otras clasificaciones de algoritmos y escenarios de aplicación interesantes, como filtrado colaborativo, análisis de valores atípicos, redes sociales, análisis de texto, etc. A continuación, me gustaría presentarles la existencia real de la minería de datos en la vida diaria basada en diferentes tipos de algoritmos. A continuación se muestran algunos ejemplos interesantes que se pueden imaginar y que están estrechamente relacionados con la vida.

Estudio de casos basados ​​en modelos de clasificación: Me gustaría presentar dos casos, uno es la clasificación y juicio del spam, y el otro es la aplicación en el campo biomédico, es decir, el juicio y discriminación de células tumorales.

¿Cómo distingue el sistema de correo electrónico si un correo electrónico es spam? Esto debería pertenecer a la categoría de minería de textos, que normalmente se distingue por el método ingenuo de Bayes. El principio fundamental es determinar si el texto del cuerpo del correo electrónico aparece con frecuencia en los correos electrónicos no deseados. Por ejemplo, si el cuerpo del correo electrónico contiene palabras como "reembolso", "factura" y "promoción", la probabilidad de que el correo electrónico sea considerado spam será mayor.

En términos generales, determinar si un correo electrónico es spam debe incluir los siguientes pasos.

Primero, divida el cuerpo del correo electrónico en combinaciones de palabras, suponiendo que un correo electrónico contenga 100 palabras.

En segundo lugar, basándose en la probabilidad condicional bayesiana, calcule la probabilidad de que el correo electrónico de 100 palabras ya sea un correo electrónico no deseado y un correo electrónico normal. Si los resultados muestran que la probabilidad de recibir correos electrónicos no deseados es mayor que la de los correos electrónicos normales. Entonces el correo electrónico se clasificará como spam.

¿Cómo determinar si las células son células tumorales a juicio médico tumoral? Las células tumorales son diferentes de las células normales. Pero se requiere un médico con mucha experiencia para juzgar a través de diapositivas patológicas. Si se utiliza el aprendizaje automático, el sistema puede identificar automáticamente las células tumorales. En este momento, la eficiencia mejorará rápidamente.

Además, mediante el método subjetivo (médico) + objetivo (modelo) para identificar células tumorales, los resultados se validan de forma cruzada y la conclusión puede ser más fiable.

¿Cómo hacerlo? Identificación mediante modelos de clasificación. En resumen, hay dos pasos. En primer lugar, se utilizan una serie de indicadores para describir las características de la celda, como el radio, la textura, el perímetro, el área, la suavidad, la simetría, la concavidad, etc. , datos que constituyen las características de la celda. En segundo lugar, basándose en una amplia tabla de características celulares, se establece un modelo de clasificación para juzgar las células tumorales.

Un caso basado en modelos predictivos. Aquí, principalmente quiero presentar dos casos. Es decir, juzgar y predecir la calidad del vino tinto a través de características químicas. La otra es predecir y juzgar las fluctuaciones y tendencias del precio de las acciones a través de motores de búsqueda.

¿Cómo juzgar la calidad del vino tinto? Los experimentados dirán que lo más importante del vino tinto es su sabor. El sabor se ve afectado por muchos factores como el año, el lugar de origen, el clima, el proceso de elaboración, etc. Sin embargo, los estadísticos no tienen tiempo para probar una variedad de vinos tintos. Consideran que la calidad del vino tinto se puede juzgar muy bien a través de algunas propiedades químicas. Y ahora muchas empresas vitivinícolas hacen esto: controlan la calidad y el sabor del vino tinto mediante el seguimiento del contenido de componentes químicos en el vino tinto.

Entonces, ¿cómo juzgar la calidad del vino?

El primer paso es recolectar muchas muestras de vino tinto, organizar y probar sus propiedades químicas, como acidez, contenido de azúcar, contenido de cloruro, contenido de azufre, contenido de alcohol, valor de PH, densidad, etc.

El segundo paso es predecir y juzgar la calidad y el grado del vino tinto mediante el modelo de árbol de regresión de clasificación.

El volumen de búsqueda en los motores de búsqueda y los precios de las acciones fluctúan. Una mariposa en una selva tropical de América del Sur puede provocar un tornado en Texas en dos semanas batiendo sus alas de vez en cuando. ¿Sus búsquedas en línea afectarán la fluctuación del precio de las acciones de la empresa?

Hace mucho tiempo se ha demostrado que el volumen de búsqueda de palabras clave en Internet (como influenza) puede predecir el brote de influenza en un área determinada con 1 o 2 semanas de anticipación que los Centros para el Control y la Prevención de Enfermedades. Prevención.

De manera similar, algunos estudiosos han descubierto que los cambios en el volumen de búsquedas de una empresa en Internet afectarán significativamente las fluctuaciones y tendencias del precio de las acciones de la empresa. Esta es la llamada teoría de la atención del inversor. Según esta teoría, el número de búsquedas de una empresa en los motores de búsqueda representa el grado en que la acción atrae la atención de los inversores. Por lo tanto, cuando aumenta la frecuencia de búsqueda de una acción, indica que los inversores están prestando más atención a la acción, lo que facilita que los inversores individuales compren la acción, lo que conduce aún más a un aumento de los precios de las acciones y a rendimientos positivos de las acciones. Esto ha sido verificado por numerosos artículos.

Un caso basado en análisis de correlación: los pañales de cerveza de Wal-Mart Los pañales de cerveza son una historia muy, muy antigua. La historia es la siguiente. Walmart ha descubierto un fenómeno interesante: combinar pañales y cerveza puede aumentar considerablemente las ventas de ambos. La razón es que las mujeres estadounidenses suelen cuidar a sus hijos en casa, por lo que a menudo les piden a sus maridos que les compren pañales en el camino a casa después del trabajo, y sus maridos también compran su cerveza favorita al mismo tiempo. Wal-Mart descubrió esta correlación en los datos y yuxtapuso los dos productos, aumentando así considerablemente las ventas relacionadas.

Los pañales de cerveza se centran principalmente en la correlación entre productos. Si una gran cantidad de datos muestra que los consumidores compran el producto A, por cierto también comprarán el producto B. Entonces existe una correlación entre a y b. En los supermercados, a menudo vemos ventas combinadas de dos productos, lo que probablemente sea el resultado del análisis de correlación.

Un caso basado en el análisis de clusters: La segmentación de clientes minoristas es relativamente común. La función de la segmentación es dividir efectivamente los grupos de clientes de modo que los miembros dentro de los grupos sean similares pero existan diferencias entre los grupos. El propósito es identificar diferentes grupos de clientes y luego diseñar e impulsar con precisión productos para diferentes grupos de clientes, ahorrando así costos de marketing y mejorando la eficiencia del marketing.

Por ejemplo, los clientes minoristas de los bancos comerciales se segmentan y la distancia entre clientes se calcula en función de las variables características de los clientes minoristas (características demográficas, características de activos, características de pasivos y características de liquidación). Luego, agrupe a los clientes similares en una categoría según la distancia, segmentando así de manera efectiva a los clientes. Todos los clientes se dividen en preferencias de gestión financiera, preferencias de fondos, preferencias de demanda, preferencias de bonos gubernamentales, balanceadores de riesgos, preferencias de canales, etc.

Un caso basado en un análisis de valores atípicos: cuando se utiliza Alipay para detectar fraude en transacciones de pago, o cuando se paga con tarjeta de crédito, el sistema determinará en tiempo real si el comportamiento de deslizamiento de la tarjeta es fraudulento. Se juzga juzgando la hora, el lugar, el nombre del comerciante, el monto, la frecuencia y otros factores al deslizar la tarjeta. El principio básico aquí es buscar valores atípicos. Si se considera que su tarjeta de crédito es anormal, la transacción puede cancelarse.

El juicio sobre los valores atípicos debe basarse en la base de reglas de fraude. Hay dos tipos de reglas posibles: reglas de eventos y reglas modelo. La primera son las reglas del evento, como si el momento de pasar la tarjeta es anormal (deslizar la tarjeta temprano en la mañana), si la ubicación de deslizar la tarjeta es anormal (deslizar la tarjeta en un lugar poco frecuente), si el comerciante que pasa la tarjeta es anormal (en la lista negra comerciantes de retiro de efectivo), si la cantidad de deslizamiento de la tarjeta es anormal (si se desvía del valor promedio normal multiplicado por la desviación estándar) y si la frecuencia de deslizamiento de la tarjeta es anormal (deslizamiento intensivo de tarjetas de alta frecuencia). En segundo lugar, las reglas del modelo determinan algorítmicamente si una transacción es fraudulenta. Generalmente, los modelos se construyen a partir de datos de pago, datos del vendedor y datos de liquidación para juzgar los problemas de clasificación.

Un caso basado en el filtrado colaborativo: el comercio electrónico adivina lo que te gusta y recomienda lo que te gusta en el motor de comercio electrónico, que debería ser el más familiar para todos. Al comprar en el centro comercial JD.COM o en Amazon, siempre aparecerá "Adivina lo que te gusta", "Recomendado cuidadosamente según tu historial de navegación", "Los clientes que compraron este producto también compraron este producto", "Vio esto El cliente del producto finalmente compró el producto." Estos son los resultados del funcionamiento del motor de recomendación.

Entre ellas, me gustan mucho las recomendaciones de Amazon. A través de "las personas que compraron los productos también compraron los productos", a menudo puedo encontrar algunos libros con mayor calidad y mayor reconocimiento. En términos generales, el "adivina que te gusta" del comercio electrónico (es decir, el motor de recomendaciones) se basa en el filtrado colaborativo y crea un conjunto de bases de reglas que se adaptan a sus propias características. Es decir, el algoritmo considerará las elecciones y comportamientos de otros clientes al mismo tiempo y construirá una matriz de similitud de productos y una matriz de similitud de usuarios basada en esto. En base a esto, encuentre los clientes más similares o los productos más relevantes para completar las recomendaciones de productos.

Análisis de caso basado en redes sociales: Clientes semilla y redes sociales en telecomunicaciones surgieron por primera vez en el ámbito de las telecomunicaciones. Es decir, a través de los registros telefónicos de las personas se pueden delinear las redes de relaciones de las personas. Las redes en el campo de las telecomunicaciones generalmente analizan la influencia del cliente en relación con la rotación de clientes y la difusión de productos.

A partir de los registros de llamadas podemos establecer un sistema de indicadores de influencia del cliente. Los indicadores utilizados probablemente incluyan los siguientes: primer contacto, segundo contacto, tercer contacto, frecuencia promedio de llamadas, volumen promedio de llamadas, etc. Los resultados del análisis basado en la influencia social muestran que la pérdida de clientes de alto impacto conducirá a la pérdida de clientes relacionados. En segundo lugar, en términos de difusión de productos, elegir clientes de alta influencia como punto de entrada para la comunicación puede promover fácilmente la difusión y penetración de nuevos paquetes.

Además, las redes sociales también tienen muchas aplicaciones y casos en bancos (redes de garantía), seguros (fraude de pandillas) e Internet (redes sociales).

Basado en casos de análisis de texto, principalmente quiero presentar dos casos. Una es una aplicación similar a "Scan King" que escanea directamente documentos en papel y los convierte en documentos electrónicos. Creo que mucha gente lo ha usado. Aquí presentaré brevemente el principio. La otra es que siempre hay rumores en el mundo de que los primeros ochenta y los últimos cuarenta capítulos de "A Dream of Red Mansions" no fueron todos escritos por Cao Xueqin. Déjame decirte desde un punto de vista estadístico.

Reconocimiento de personas: la aplicación Scan King reconocerá automáticamente rostros al tomar fotografías. Algunas aplicaciones como Scan King pueden escanear libros y luego convertir automáticamente el contenido escaneado en texto. Estos pertenecen al reconocimiento de imágenes y al reconocimiento óptico de caracteres. El reconocimiento de imágenes es más complejo, mientras que el reconocimiento de caracteres es más fácil de entender.

Después de comprobar cierta información, el principio general del reconocimiento de caracteres es el siguiente, tomando el carácter S como ejemplo.

Primero reduzca la imagen del personaje al tamaño de píxel estándar, como 12*16. Tenga en cuenta que las imágenes están compuestas de píxeles y las imágenes de personajes incluyen principalmente píxeles en blanco y negro.

En segundo lugar, extrae el vector de características del personaje. Cómo extraer características de personajes mediante una proyección de histograma bidimensional. Es decir, proyectar el personaje (imagen de 12*16 píxeles) horizontal y verticalmente. Hay 12 dimensiones en dirección horizontal y 16 dimensiones en dirección vertical. De esta manera, se calculan respectivamente el número acumulado de píxeles negros en cada fila de píxeles en la dirección horizontal y el número acumulado de píxeles negros en cada columna de píxeles en la dirección vertical. Por lo tanto, se obtiene un vector de características de 12 dimensiones en dirección horizontal y 16 dimensiones en dirección vertical. Esto forma un vector de características de caracteres de 28 dimensiones.

En tercer lugar, basándose en los vectores de características de los personajes anteriores y mediante el aprendizaje de redes neuronales, los personajes se pueden reconocer y clasificar de manera efectiva.

Obras literarias y estadísticas: La propiedad de "Un sueño de mansiones rojas" es un debate muy sonado que sigue sin resolverse. Con respecto al autor de "Un sueño de mansiones rojas", generalmente se cree que los primeros 80 capítulos fueron escritos por Cao Xueqin y los últimos 40 capítulos fueron escritos por Gao E. De hecho, el principal problema es determinar si hay diferencias significativas en la redacción y el uso de oraciones entre los primeros 80 capítulos y los últimos 40 capítulos.

Esto entusiasmó aún más a un grupo de estadísticos. Algunos estudiosos hacen juicios contando la frecuencia de sustantivos, verbos, adjetivos, adverbios, palabras funcionales y la correlación entre diferentes partes del discurso. Algunos estudiosos utilizan palabras funcionales (ruzhi, qi o yi, liao, de, bu, ba, bie, hao) para juzgar la diferencia en el estilo de escritura. Algunos estudiosos hacen juicios estadísticos basados ​​en diferencias en la frecuencia de aparición de escenas (flores, árboles, comida, medicinas, poesía). En resumen, se cuantifica principalmente a través de algunos indicadores y luego se compara si existen diferencias significativas entre los indicadores para juzgar el estilo de escritura.

Lo anterior es el contenido relevante de los algoritmos de minería de datos y los casos de aplicación en la vida compartidos por el editor. Para obtener más información, puede seguir a Global Ivy y compartir más información útil.

上篇: ¿Qué significa copiar la tarea? ¿Qué significa copiar la tarea al comprar en línea? 下篇: ¿A qué distancia está la estación de autobuses de Wuxi de Dingshang Crown Hotel?
Artículos populares