Red de conocimiento de divisas - Apertura de cuenta en divisas - Detección de anomalías (ii): método estadístico tradicional

Detección de anomalías (ii): método estadístico tradicional

La eficacia de los métodos estadísticos depende en gran medida de si las suposiciones del modelo estadístico hechas a partir de los datos proporcionados son ciertas.

La idea general de los métodos estadísticos para la detección de anomalías es aprender un modelo generativo que sea adecuado para un conjunto de datos determinado y luego identificar objetos en la región de baja probabilidad del modelo como valores atípicos.

Por ejemplo, los puntos distintos de 3 en la distribución normal son puntos anormales y los puntos que exceden 2 Q en el diagrama de caja son puntos anormales.

Según cómo se especifica y aprende el modelo, los métodos estadísticos para la detección de anomalías se pueden dividir en dos categorías amplias: métodos paramétricos y métodos no paramétricos.

Los métodos paramétricos suponen que los objetos de datos normales se generan a partir de distribuciones paramétricas con parámetros. La función de densidad de probabilidad de una distribución paramétrica da la probabilidad de un objeto generado por esa distribución. Cuanto menor sea el valor, más fácil será convertirse en un valor atípico.

Los métodos no paramétricos no asumen un modelo estadístico a priori, sino que intentan determinar el modelo a partir de los datos de entrada. Los métodos no paramétricos generalmente suponen que el número y la naturaleza de los parámetros son flexibles y no predeterminados (por lo que los métodos no paramétricos no significan que el modelo sea completamente no paramétrico y que el modelo no se pueda aprender de los datos sin parámetros).

Los datos que contienen un solo atributo o variable se denominan metadatos. Suponemos que los datos se generan mediante una distribución normal y luego podemos aprender los parámetros de la distribución normal a partir de los datos de entrada e identificar puntos con baja probabilidad como valores atípicos.

Suponiendo que el conjunto de datos de entrada lo es, las muestras en el conjunto de datos obedecen a la distribución normal, es decir, podemos encontrar la suma de parámetros en función de las muestras.

Después de calcular los parámetros, podemos calcular la probabilidad de que el punto de datos obedezca la distribución en función de la función de densidad de probabilidad. La función de densidad de probabilidad de la distribución normal es

Si la probabilidad calculada está por debajo del umbral, el punto de datos puede considerarse un valor atípico.

El umbral es un valor empírico. Puede elegir el umbral que maximice el valor del índice de evaluación en el conjunto de verificación (es decir, que tenga el mejor efecto) como umbral final.

Por ejemplo, en el principio 3sigma comúnmente utilizado, si los puntos de datos están fuera de rango, es probable que estos puntos sean puntos anormales.

Este enfoque también se puede utilizar para la visualización. El diagrama de caja es una visualización estadística simple de la distribución de datos, formada utilizando los cuartiles superior e inferior (Q1 y Q3) y el punto medio del conjunto de datos. Los valores atípicos generalmente se definen como datos inferiores a Q1-1,5 iqr o superiores a q 31,5 iqr.

Utilice Python para dibujar un diagrama de bloques simple:

Los datos que involucran dos o más atributos o variables se denominan datos multivariados. Muchos métodos de detección de anomalías univariados se pueden ampliar para manejar datos multivariados. La idea central es transformar la tarea de detección de anomalías de múltiples variables en un problema de detección de anomalías de una variable. Por ejemplo, si la detección de valores atípicos univariados basados ​​en la distribución normal se extiende a casos multivariables, se puede obtener la media y la desviación estándar de cada dimensión. Para dimensiones:

La función de densidad de probabilidad al calcular la probabilidad es

Esto es cuando las características de cada dimensión son independientes entre sí. Si existe correlación entre características, se utilizará una distribución gaussiana multivariada.

En muchos casos, se supone que los datos se generan mediante una distribución normal. Cuando los datos reales son complejos, esta suposición es demasiado simple y se puede suponer que los datos se generan mediante una distribución de parámetros mixtos.

En los métodos no paramétricos de detección de anomalías, un modelo de "datos normales" aprende de los datos de entrada en lugar de asumir a priori. En términos generales, los métodos no paramétricos hacen menos suposiciones sobre los datos, por lo que pueden usarse en más situaciones.

Ejemplo: utilice histogramas para detectar valores atípicos.

El histograma es un modelo estadístico no paramétrico de uso común que se puede utilizar para detectar valores atípicos. El proceso incluye los siguientes dos pasos:

Paso 1: construir el histograma. Construya un histograma utilizando los datos de entrada (datos de entrenamiento). Los histogramas pueden ser univariados o multivariados (si los datos de entrada son multidimensionales).

Aunque los métodos no paramétricos no asumen ningún modelo estadístico a priori, a menudo requieren que el usuario proporcione parámetros para aprender de los datos. Por ejemplo, el usuario debe especificar el tipo de histograma (ancho o profundidad) y otros parámetros (número de cuadros en el histograma o tamaño de cada cuadro, etc.).

). A diferencia de los métodos de parámetros, estos parámetros no especifican el tipo de distribución de datos.

Paso 2: Detectar valores atípicos. Para determinar si un objeto es un valor atípico, se puede examinar con respecto al histograma. El método más simple es que si un objeto cae dentro de un cuadro en el histograma, se considera normal; de lo contrario, se considera un valor atípico.

Para un enfoque más sofisticado, se puede utilizar un histograma para dar a cada objeto una puntuación atípica. Por ejemplo, la puntuación atípica de un objeto es el recíproco del volumen de la caja en la que cae el objeto.

Una desventaja de utilizar histogramas como modelo no paramétrico para la detección de valores atípicos es que es difícil elegir un tamaño de cuadro apropiado. Por un lado, si el tamaño de la caja es demasiado pequeño, muchos objetos normales caerán en cajas vacías o dispersas y, por tanto, se confundirán con valores atípicos. Por otro lado, si el tamaño de la caja es demasiado grande, los objetos atípicos pueden penetrar en algunas cajas frecuentes y así "pretender" ser normales.

El nombre completo de BOS es: puntuación de valores atípicos basada en histograma. Es una combinación de métodos univariados que no pueden modelar dependencias entre características, pero es rápido y amigable para grandes conjuntos de datos. El supuesto básico es que cada dimensión del conjunto de datos es independiente entre sí. Luego, cada dimensión se divide en contenedores. Cuanto mayor sea la densidad del contenedor, menor será la puntuación de anomalía.

Proceso del algoritmo HBOS:

1. Crear un histograma de datos para cada dimensión de datos. Calcule la frecuencia de cada valor y calcule la frecuencia relativa para datos categóricos. Dependiendo de la distribución de los datos numéricos, se utilizan los dos métodos siguientes:

Histograma de ancho estático: un método de construcción de histograma estándar que utiliza k cuadros de igual ancho dentro del rango de valores. La frecuencia (número relativo) de muestras que caen en cada contenedor se utiliza como estimación de la densidad (altura del contenedor). Complejidad del tiempo:

2. Histograma de ancho dinámico: primero ordene todos los valores y luego coloque un número fijo de valores consecutivos en un cuadro, donde n es el número total de instancias y k es el número de cuadros; histograma El área del cuadro en la figura representa el número de instancias. Debido a que el ancho del cuadro está determinado por el primer y último valor del cuadro, el área de todos los cuadros es la misma, lo que permite calcular la altura de cada cuadro. Esto significa que las cajas de grandes luces tienen alturas bajas, es decir, baja densidad, excepto en un caso, cuando el número de cajas superiores a k es igual, se permite exceder el valor en la misma caja.

Complejidad del tiempo:

2. Calcular un histograma independiente para cada dimensión, donde la altura de cada caja representa una estimación de la densidad. Luego, para que la altura máxima sea 1 (garantizando el mismo peso para cada característica y valor atípico), se normaliza el histograma. Finalmente, calcule el valor HBOS de cada instancia mediante la siguiente fórmula:

Proceso de deducción:

Suponiendo que la densidad de probabilidad de la I-ésima característica de la muestra P es, entonces la probabilidad La densidad de P se puede calcular de la siguiente manera: El logaritmo de ambos lados: cuanto mayor es la densidad de probabilidad, menor es la puntuación de anomalía. Para facilitar la puntuación, multiplique ambos lados por "-1": Finalmente:

1. Los métodos estadísticos de detección de anomalías aprenden modelos a partir de datos para distinguir los objetos de datos normales de los valores atípicos. Una ventaja de utilizar métodos estadísticos es que la detección de anomalías es estadísticamente inobjetable. Por supuesto, esto sólo es cierto si los supuestos estadísticos hechos sobre los datos satisfacen restricciones prácticas.

2.HBOS funciona bien en la detección de anomalías globales, pero no puede detectar valores atípicos locales. Pero HBOS es mucho más rápido que los algoritmos estándar, especialmente en grandes conjuntos de datos.

上篇: Quiero fan fiction sobre Sesshomaru y Suzu 下篇: ¿Son iguales Changheng Medicine y Changheng Credit?
Artículos populares