Análisis de modelos RFM y segmentación de clientes
Según la investigación de Arthur Hughes, una organización estadounidense de investigación de mercados de bases de datos, hay tres elementos mágicos en la base de datos de clientes, que constituyen los mejores indicadores del análisis de datos: actualidad, frecuencia. y moneda.
Modelo RFM: R (reciente) representa la distancia desde la última compra del cliente, F (frecuencia) representa el número de compras realizadas por el cliente en el período reciente y M (monetario) representa el monto de la compra. del cliente en el período reciente. Generalmente, los datos originales constan de tres campos: ID del cliente, hora de compra (formato de fecha) y monto de la compra. Se procesan mediante software de minería de datos, se ponderan (considerando el peso) para obtener la puntuación RFM y luego se segmenta el cliente. Se realizan clasificación de nivel y puntuación de valor a nivel de cliente, etc., para lograr el marketing de base de datos.
Aquí tomamos prestado nuevamente el diagrama de clasificación del cliente de RFM RFM@data mining y análisis de datos.
Las herramientas software utilizadas en este análisis: IBM SPSS Statistics 19, IBM SPSS Modeler14.1, Tableau7.0, EXCEL y PPT.
Debido a que el análisis RFM es solo una pequeña parte del proyecto, también enfrenta capacidades masivas de procesamiento de datos, lo que requiere memoria de computadora y capacidad de disco duro.
La siguiente es algo de experiencia en minería y procesamiento de datos masivos: (solo para plataformas operativas de computadoras personales)
Generalmente, los datos que obtenemos son archivos de texto en formato comprimido y deben ser descomprimidos, y todos ellos son unidades de almacenamiento de más de Gbytes. Generalmente es mejor almacenarlo en un disco duro móvil con fuente de alimentación externa; si el cliente no se lo dice, probablemente no sepa cuántos registros y campos hay;
La instalación predeterminada de El software de minería Modeler generalmente requiere el intercambio de datos con la unidad c y se deben reservar al menos 100 G de espacio; de lo contrario, no habrá espacio suficiente durante el proceso de lectura de datos.
Ten paciencia al procesar datos masivos. Es común esperar más de 30 minutos para obtener resultados, especialmente durante el muestreo, la fusión de datos, la reconstrucción de datos y el modelado de redes neuronales. De lo contrario, sería una tragedia interrumpir solo un minuto, jaja;
La fase de preparación y el tiempo de preprocesamiento de datos de la minería de datos representan el 70% de todo el proyecto. Lo que digo aquí es que si se trata de un conjunto de datos muy grande, el tiempo puede representar más del 90%. Por un lado, el procesamiento lleva mucho tiempo, por otro lado, solo puede ser procesado por esta computadora y varias computadoras no pueden funcionar al mismo tiempo;
Aportando más diferencias, esta es la experiencia que siempre he destacado. Por lo tanto, los datos masivos requieren el uso de técnicas de muestreo para visualizar los datos y realizar operaciones de preprocesamiento. Recuerde: a veces, incluso si los datos de la muestra son normales, puede haber algún problema con todos los datos. Se recomienda utilizar "|" para almacenar delimitadores de datos;
No se puede dejar de enfatizar lo importante que es un proyecto de minería de datos, así como la comprensión de la industria y los conocimientos del negocio por parte del ingeniero de minas. Una buena extracción de datos debe estar orientada al mercado. Por supuesto, el personal de TI también debe tener un buen mecanismo de comunicación con el personal del mercado.
La minería de datos enfrentará la comprensión del diccionario de datos y la capa semántica, y la gestión y comprensión de los metadatos obtendrá el doble de resultado con la mitad del esfuerzo. De lo contrario, cuando se complete la reconstrucción de datos, el problema desaparecerá. volcado y comenzado de nuevo, lo cual será una tragedia;
Cada vez que hago minería de datos masiva, visito Weibo con más frecuencia. Realmente no es tan rápido como yo, así que solo puedo esperar en Weibo, ¡jaja!
Las ideas principales para convertir el análisis RFM tradicional en análisis RFM empresarial de telecomunicaciones:
El modelo RFM y la segmentación de clientes aquí son solo una pequeña parte del proyecto de minería de datos. Supongamos que obtenemos un conjunto de datos de comportamiento de recarga de clientes de un mes (en realidad, seis meses de datos), primero usamos el software IBM Modeler para construir un proceso de análisis:
La estructura de datos cumple completamente con los requisitos del análisis RFM, allí ¡Son 30 millones de registros de transacciones cada mes!
Primero, utilizamos el nodo Resumen de RFM y el nodo Análisis de RFM del modelo RFM de la herramienta de minería para generar R (recencia), F (frecuencia) y M (dinero).
Luego use el nodo de análisis RFM para completar la reconstrucción y organización de los datos básicos del modelo RFM;
Ahora tenemos la puntuación reciente, la puntuación de frecuencia, la puntuación de moneda y la puntuación de RFM. del modelo RFM aquí, la puntuación RFM se divide en cinco partes iguales y la puntuación RFM obtenida ponderando 100, 10 y 1 muestra 125 cubos RFM.
El modelo RFM tradicional se completa aquí, pero hay demasiados segmentos de marketing específicos (125) y es necesario identificar las características y comportamientos de los clientes, por lo que es necesario segmentar aún más los grupos de clientes.
Además, el modelo RFM es en realidad solo un método de procesamiento de datos, que también se puede completar utilizando tecnología de reconstrucción de datos. Es solo que el módulo RFM solidificado aquí es más simple y directo, pero podemos usarlo. RFM para crear datos Utilice este módulo para reconstruir los datos, en lugar de RFM.
Podemos importar los datos obtenidos al software Tableau para realizar análisis descriptivos: (el software de minería de datos es muy débil en resultados descriptivos y de tabulación, jaja)
También podemos analizar diferentes análisis comparativos de bloques: análisis de medios, análisis de categorías de bloques, etc.
En este momento, podemos ver la conveniencia de las herramientas de visualización de Tableau.
A continuación, continuamos utilizando herramientas de minería para agrupar los tres campos R, F y m. El análisis de conglomerados utiliza principalmente Kohonen, K-means y algoritmos de dos pasos:
En este momento, debe considerar si utilizar las tres variables R (reciente), F (frecuencia) y M (moneda) directamente o convertirlas porque las escalas de medición de los tres campos R, F y M son. diferente, es mejor comparar las tres variables. Estandarice las variables, como la puntuación Z (en situaciones reales, puede elegir el método de interpolación lineal, el método de comparación, el método de evaluación comparativa, etc.). Otra consideración: cómo considerar los pesos de R, F y M, ¡obviamente son diferentes en el marketing real!
Algunas investigaciones muestran que Hughes y Arthur creen que los pesos de las variables RFM son los mismos, por lo que no dieron divisiones diferentes. A través del análisis empírico de las tarjetas de crédito, Stone y Bob creen que los pesos de cada indicador son diferentes, y se debe asignar el valor más alto, el segundo más cercano y el más bajo.
Aquí utilizamos el método de ponderación: método de ponderación simple, WR=2 WF=3 WM=5 (la situación real debe ser determinada por expertos o especialistas en marketing para elegir qué método de agrupación y número de agrupaciones se necesitan); para repetir ¡Pruebe, evalúe y compare cuál de los tres métodos es más ideal!
La siguiente figura muestra los resultados de la agrupación rápida:
Y los resultados de la agrupación del algoritmo neuronal de Kohonen:
A continuación, debemos determinar los resultados de la agrupación y La importancia del análisis de clases: aquí podemos usar las reglas C5.0 para determinar las características de diferentes grupos:
Mapa de características de agrupación en dos etapas de dos pasos:
Utilizar la evaluación nodo de análisis para determinar la capacidad de reconocimiento del modelo de reglas C5 .0;
Los resultados son bastante buenos. Podemos elegir tres métodos de agrupación por separado o elegir un resultado de agrupación que sea más fácil de interpretar.
Aquí elegimos los resultados de agrupación de Kohonen y escribimos los campos de agrupación en el conjunto de datos. ¡Podemos importar los datos al software SPSS para el análisis medio y enviarlos al software Excel para facilitar su uso!
Después de generar los resultados, importe los datos a Excel, compare las tres categorías de R, F y M con el valor promedio del campo y use el formato condicional del software Excel para obtener la tendencia comparada. con el valor promedio! Identifique los tipos de clientes según la clasificación del Cubo de Rubik del modelo RFM: mediante el análisis RFM, los grupos de clientes se dividen en seis niveles: clientes importantes retenidos, clientes importantes retenidos, clientes generalmente importantes, clientes generales y clientes sin valor (es posible que el el primer nivel no existe);
Otra consideración es calcular las puntuaciones estandarizadas de R, F y M en función de los resultados de agrupación, y luego clasificar las puntuaciones integrales para identificar el nivel de valor para el cliente de cada categoría. ;
En este punto, si estamos satisfechos con el análisis del modelo RFM y la segmentación de clientes, ¡probablemente el análisis haya terminado! Si todavía tenemos una base de datos con información de antecedentes de los clientes, podemos usar los resultados de agrupación y las puntuaciones de RFM como variables independientes para otros esfuerzos de modelado de minería de datos.