Red de conocimiento de divisas - Preguntas y respuestas sobre Forex - Una revisión de los algoritmos de agrupación en clústeres de minería de datos

Una revisión de los algoritmos de agrupación en clústeres de minería de datos

Texto | Su Hen

Fuente | Zhihu

Este artículo se centra en los principios, procesos de aplicación, técnicas de aplicación, métodos de evaluación y casos de aplicación de algoritmos de agrupación. Consulte la información relevante para obtener detalles específicos del algoritmo. El objetivo principal de la agrupación es la agrupación de clientes.

1. Agrupación y clasificación

La clasificación es "aprendizaje supervisado" y se sabe de antemano qué categorías se pueden dividir.

El clustering es "aprendizaje no supervisado" y no se sabe de antemano en qué categorías se clasificará.

Por ejemplo, manzanas, plátanos, kiwis, móviles, teléfonos.

Según diferentes características, nuestros clusters se dividirán en manzanas, plátanos y kiwis, mientras que los teléfonos móviles y teléfonos son productos digitales.

Clasificación significa que cuando juzgamos "fresa", la clasificamos como "fruta".

Entonces, la explicación popular es: la clasificación es aprender la capacidad de juzgar los datos del conjunto de entrenamiento y luego hacer juicios de clasificación sobre datos desconocidos; la agrupación es clasificar cosas similares en una categoría y no requiere; datos de entrenamiento para aprender.

Explicación académica: La clasificación se refiere a analizar un grupo de objetos en la base de datos para encontrar sus atributos comunes. Luego se dividen en diferentes categorías según el modelo de clasificación. La clasificación de datos primero establece un modelo de clasificación basado en los datos de entrenamiento y luego clasifica los datos de prueba en la base de datos o genera una descripción más apropiada basada en estas descripciones de clasificación.

Agrupar significa que los datos de la base de datos se pueden dividir en una serie de subconjuntos significativos, a saber, clases. La distancia entre individuos de la misma categoría es pequeña, mientras que la distancia entre individuos de diferentes categorías es grande. El análisis de conglomerados a menudo se denomina "aprendizaje no supervisado".

2. Aplicaciones comunes de los clusters

Nuestras aplicaciones prácticas incluirán:

Marketing: Agrupación de clientes

Seguros: Búsqueda de grupos de clientes con altas reclamaciones por seguros de automóviles

Planificación urbana: buscando el mismo tipo de propiedades

Por ejemplo, si haces análisis de compradores y análisis de vendedores, definitivamente escucharás el concepto de cliente agrupación, Según los estándares, se dividen en clientes de alto valor, clientes de valor general y usuarios potenciales, y se proporcionan diferentes planes de marketing para clientes de diferentes valores;

También hay clientes con altos reclamos de seguro , que son la mayor preocupación de las compañías de seguros, también es un problema que afecta la rentabilidad de las compañías de seguros;

Además, cuando se hacen bienes raíces, las áreas inmobiliarias calientes y las áreas inmobiliarias frías se agrupan. de la ubicación geográfica, precio e instalaciones circundantes del inmueble.

3. k-means

(1) Supongamos k clusters (2) El objetivo es encontrar clusters compactos.

A. Inicializar clústeres aleatoriamente

B. Asignar datos al clúster más cercano

C Repetir el cálculo de los clústeres

Repetir hasta la convergencia.

Ventajas: optimización local

Desventajas: problemas con clusters no convexos.

¿Dónde K=?

K & lt=tamaño de muestra

Depende de la distribución de datos y la resolución deseada

AIC, DIC

Agrupación jerárquica Las clases evitan este problema.

4. Evaluar la agrupación

Robustez

¿Qué tal la agrupación? ¿Está demasiado agregado?

Muchas veces depende de qué hacer después de la agregación.

5. Casos

Caso 1: Gráfico de nube de agrupación de vendedores

Autor: Su Heng autoriza la reimpresión

Enlace original: /dataman/ 20397891

上篇: La forma en que la psicología del turismo entiende a los huéspedes siempre es correcta. 下篇: Problemas de iluminación fuera de los estudios de fotografía
Artículos populares