Modelo BP de red neuronal
El modelo de red neuronal de retropropagación de errores se conoce como modelo de red neuronal BP (Back-Propagation).
En 1974, el Dr. Pall Werbas propuso un algoritmo de aprendizaje de retropropagación de errores en su tesis doctoral. Un equipo de científicos dirigido por Rumelhart y McCelland propuso un algoritmo completo de aprendizaje de retropropagación de errores, que fue ampliamente aceptado. En el libro "Procesamiento distribuido paralelo, exploración de la microestructura de la cognición" publicado en 1986, hicieron un análisis detallado y una introducción del algoritmo de aprendizaje de retropropagación de errores y llevaron a cabo una discusión en profundidad sobre las capacidades potenciales de este algoritmo.
La red BP es una red neuronal jerárquica con tres o más capas. Las neuronas entre las capas superior e inferior están completamente conectadas, es decir, cada neurona de la capa inferior está conectada a cada neurona de la capa superior, pero no hay conexión entre las neuronas de cada capa. El networking lo enseñan los profesores. Cuando se proporciona un par de patrones de aprendizaje a la red, los valores de activación de las neuronas se propagan desde la capa de entrada a la capa de salida a través de la capa oculta, y cada neurona de la capa de salida obtiene la respuesta de entrada de la red. Luego, de acuerdo con la dirección de reducir el error entre la salida esperada y la salida real, los pesos de conexión se corrigen capa por capa desde la capa de entrada hasta la capa oculta, y finalmente se devuelven a la capa de entrada, por lo que se denomina "Error Algoritmo de aprendizaje de propagación hacia atrás ". Con la corrección continua de la retropropagación de errores, también se mejora la precisión de la respuesta de la red al patrón de entrada.
Las redes BP se utilizan principalmente en los siguientes aspectos:
1) Aproximación de funciones: aprender una red para aproximar una función utilizando patrones de entrada y los correspondientes patrones de salida esperados;
2) Reconocimiento de patrones: asociarlo con patrones de entrada con patrones de salida específicos deseados;
3) Clasificación: clasificar patrones de entrada de una manera definida y apropiada;
4) Compresión de datos : Reducir la dimensionalidad del vector de salida para facilitar la transmisión o el almacenamiento.
En la aplicación práctica de las redes neuronales artificiales, entre el 80% y el 90% de los modelos de redes neuronales artificiales utilizan la red BP o sus variantes, que también es la parte central de la red directa y encarna la mayor esencia de la red neuronal artificial. parte de las redes neuronales.
2. Principio del modelo BP
Tomemos la red BP de tres capas como ejemplo para ilustrar los principios de aprendizaje y aplicación.
1. Definición de datos
p es el modo de aprendizaje (xp, dp), p = 1, 2,..., p
Modo de entrada; matriz X[ N][P]=(x1,x2,…,XP);
Matriz de patrón objetivo d[M][P]=(d1, d2,…,dP).
Estructura de red BP de tres capas
El número de nodos neuronales en la capa de entrada es S0=N, I = 1, 2,..., S0;
Neuronas de capa oculta El número es S1, j=1, 2,..., s 1;
Función de activación neuronal f 1[s 1];
Matriz de peso w 1[s 1][ s0];
Vector de desviación b1[S1].
El número de nodos neuronales en la capa de salida S2=M, k = 1, 2,..., S2;
La función de activación neuronal F2[S2]; p>
Matriz de pesos w2[S2][s 1];
Vector de desviación b2[S2].
Parámetros de aprendizaje
¿Error de objetivo? ;
Valor de actualización de peso inicial δ0;
Valor de actualización de peso máximo δδmax;;
El valor de actualización de peso aumenta en múltiples η+;
El valor de actualización de peso se reduce en múltiples η-.
2. Definición de función de error
La fórmula de cálculo del error del p-ésimo modo de entrada es
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China.
Y2kp es el resultado del cálculo de la red BP.
Derivación de 3.3. Fórmula de aprendizaje de la red BP
La idea rectora de la fórmula de aprendizaje de la red BP es corregir el peso w y la desviación b de la red para que la función de error disminuya a lo largo de la dirección del gradiente negativo hasta que se alcance la precisión del error de salida. de la red alcanza el requisito de precisión objetivo.
Fórmula de cálculo de la salida de cada capa
Capa de entrada
y0i=xi, i=1, 2,..., S0;
Capa oculta
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
y1j=f1(z1j),
j=1, 2, …, s 1;
Capa de producción
Nuevas tecnologías y modelos para la evaluación de recursos minerales de China
y2k=f2(z2k),
k=1, 2,…,S2.
Fórmula de error del nodo de salida
Nueva tecnología y nuevo modelo de evaluación de recursos minerales de China
Derivación de la capa de salida fórmula de gradiente de nodo
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
e es una función de múltiples Y2M, pero solo un y2k está relacionado con wkj, y cada Y2M es independiente de entre sí.
En...
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales de China
Reglas
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales de China Modo de evaluación de recursos minerales
Deje que el error del nodo de la capa de salida sea
δ2k =(dk-y2k)F2′(z2k),
Regla
China Nuevas tecnologías y modelos para la evaluación de recursos minerales
Del mismo modo.
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
Derivación de la fórmula de gradiente de nodos de capa oculta
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
Es una función del año 2000. Para un determinado w1ji, corresponde a un y1j, que está relacionado con todos los y2k. Por lo tanto, solo existe la suma de k en la fórmula anterior, entre las cuales
Nuevas tecnologías y nuevos modelos para la evaluación de los recursos minerales de China
Reglas
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales de China Modelo
Dejemos que los errores de nodos de capas ocultas se conviertan
Nueva tecnología y nuevo modelo para la evaluación de recursos minerales de China
Reglas
Nueva tecnología y nuevo modelo para la evaluación de recursos minerales de China Tecnología y nuevos modelos
Del mismo modo.
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
4. Utilizar el algoritmo BP elástico (RPROP) para calcular los valores de corrección δW y δb del peso W y el sesgo. b.
En 1993, Martin Riedmiller y Heinrich Braun de Alemania propusieron un algoritmo de retropropagación elástica: el algoritmo elástico BP en su artículo "Método adaptativo directo para el aprendizaje rápido de retropropagación: algoritmo RPROP". Este método intenta eliminar los efectos nocivos de los gradientes en los tamaños de los pasos de peso y, por lo tanto, solo considera el signo del gradiente para indicar la dirección de las actualizaciones de peso.
El tamaño del cambio de peso sólo está determinado por el "valor de actualización" especial del peso.
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
Entre ellos, representa la información de gradiente agregada en todos los modos (aprendizaje por lotes) del conjunto de patrones, y (t) representa la enésima o t veces aprendiendo.
Las actualizaciones de peso siguen la siguiente regla: si la derivada es positiva (aumentando el error), el peso se reduce en su valor actualizado. Si la derivada es negativa, el valor actualizado aumenta.
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
El algoritmo RPROP realiza una modificación directa del tamaño del paso de peso en función de la información del gradiente local. Para cada derecho, lo presentamos
Cada valor de actualización determina de forma independiente el tamaño del valor de actualización de peso. Este es un proceso adaptativo basado en correlación simbólica, que se basa en
actualizar la información del gradiente local de la función de error e de acuerdo con las siguientes reglas de aprendizaje.
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
Donde 0 < η-< 1
En cada momento, si el gradiente de la función objetivo cambia es signo, lo que significa que la última actualización fue demasiado grande, el valor de actualización debe reducirse mediante un factor de reducción del valor de actualización ponderado η- si el gradiente de la función objetivo mantiene su signo, el valor de actualización debe aumentarse multiplicando el ponderado; actualizar el valor por un factor η+.
Para reducir el número de parámetros libremente ajustables, el coeficiente de aumento eta+ y el coeficiente de disminución eta– se ajustan a valores fijos.
η+=1.2,
η-=0.5,
Estos dos valores han conseguido buenos resultados en un gran número de prácticas.
El algoritmo RPROP utiliza dos parámetros: el valor de actualización de peso inicial δ 0 y el valor de actualización de peso máximo δ max.
Cuando comienza el aprendizaje, todos los valores de actualización se establecen en el valor inicial δ0, porque determina directamente el tamaño del paso de peso anterior, que debe seleccionarse en función del valor inicial del peso en sí. por ejemplo δ0 = 0,1 (configuración predeterminada).
Para evitar que el peso sea demasiado grande, establezca el límite del valor máximo de actualización de peso δ δ max, y el límite superior predeterminado se establece en
max = 50,0.
max = 50,0.
p>
En muchos experimentos, se descubre que al establecer el valor máximo de actualización de peso max en un valor relativamente pequeño, como
δmax = 1,0.
Podemos lograr Rendimiento fluido con reducción de errores.
5. Calcular el peso de corrección W y la desviación b.
Aprendizaje T-ésimo, fórmula de corrección de peso w y sesgo b
W(t)= W(t-1)+δW(t),
b(t)= b(t-1)+δb(t),
Donde t es el número de aprendizaje.
6. Completa con éxito las condiciones de 6. Aprendizaje de la red BP: la suma de cuadrados de los errores acumulados para cada aprendizaje.
Nuevas tecnologías y nuevos modelos de evaluación de recursos minerales en China
Error medio de cada estudio
Nuevas tecnologías y nuevos modelos de evaluación de recursos minerales en China p>
Cuando el error promedio MSE <ε, el aprendizaje de la red BP finaliza con éxito.
7. Predicción de la aplicación de la red BP
Al aplicar la red BP, proporcione la entrada de la red a la capa de entrada, aplique la red BP dada y el peso w y el sesgo obtenidos por la BP. aprendizaje en red b. La entrada de la red pasa por el proceso de "propagación hacia abajo" desde la capa de entrada a la capa de salida, y se calcula la salida prevista de la red BP.
8. Función de activación neuronal f
Función lineal
f(x)=x,
f′(x)= 1 .
El rango de entrada (-∞, +∞) y el rango de salida (-∞, +∞) de f(x).
Generalmente se utiliza en la capa de salida, lo que permite que la red genere cualquier valor.
Función tipo S S(x)
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
El rango de entrada de f(x) (- ∞, +∞ ) y el rango de salida (0, 1).
f′(x)= f(x)[1-f(x)],
El rango de entrada (-∞, +∞) y salida de f′(x ) rango(0,).
Generalmente utilizado en la capa oculta, puede hacer que la entrada en el rango de (-∞, +∞) se convierta en la salida de red de (0, 1). Para entradas más grandes, el factor de amplificación es menor. Para entradas más pequeñas, el factor de amplificación es menor. El factor de amplificación de entrada es mayor, por lo que se puede utilizar para manejar y aproximar relaciones de entrada/salida no lineales.
Cuando se usa para el reconocimiento de patrones, se puede usar en la capa de salida para producir una salida binaria cercana a 0 o 1.
Función sigmoidea tangente hiperbólica
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
El rango de entrada de f(x) (-∞, +∞ ) y rango de salida (-1, 1).
f′(x)= 1-f(x)f(x),
El rango de entrada (-∞, +∞) y el rango de salida (-∞, +∞ ) de f′(x) 0,1).
Generalmente utilizado en la capa oculta, puede hacer que la entrada en el rango de (-∞, +∞) se convierta en la salida de red de (-1, 1). Para entradas más grandes, el factor de amplificación es. más pequeño para entradas más pequeñas, el factor de amplificación es menor. Para las entradas, el factor de amplificación es mayor, por lo que puede usarse para procesar y aproximar relaciones de entrada/salida no lineales.
Función de paso
Tipo 1
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
El rango de entrada de f(x ) es (-∞, +∞), el rango de salida es {0, 1}.
f′(x)= 0.
Tipo 2
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
f( x ) tiene un rango de entrada de (-∞, +∞) y un rango de salida de {-1, 1}.
f′(x)= 0.
Función de pendiente
Tipo 1
Nuevas tecnologías y nuevos modelos para la evaluación de recursos minerales en China
El rango de entrada (-∞, +∞) y el rango de salida [0, 1] de f(x).
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
El rango de entrada (-∞, +∞) y el rango de salida de f′(x) son {0, 1}.
Tipo 2
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
El rango de entrada (-∞, +∞) y el rango de salida de f(x )[-1,1].
Nuevas tecnologías y modelos para la evaluación de recursos minerales en China
El rango de entrada (-∞, +∞) y el rango de salida {0, 1} de f′(x).
3. Algoritmo general
1. La red BP de tres capas (incluida la capa de entrada, la capa oculta y la capa de salida) inicializa el algoritmo general con peso W y sesgo b.
(1) Parámetros de entrada X[N][P], S0, S1, f1[S1], S2, F2[S2]
(2) Calcular el modo de entrada X; Las matrices de valor máximo y mínimo Xmax[N] y xmin[N] de cada variable de [N][P];
(3) El peso de la capa oculta es W1 y se inicializa la desviación b1.
Caso 1: La función de activación de capa oculta f() es una función tangente hiperbólica en forma de S.
1) Calcular el vector de rango xrng[N] de cada variable en el modo de entrada X[N][P]
2) Calcular el vector de distancia media de cada variable en; el modo de entrada x xmid [n];
3) Calcular los factores de amplitud Wmagw y b;
4) Generar una matriz de números aleatorios S0×1-dimensional RAND [S1] uniformemente distribuido en [-1] entre;
5) Genere una matriz de números aleatorios distribuida normalmente RANDNR [S1 × S0] [S0] con una media de 0 y una varianza de 1. El rango de números aleatorios es aproximadamente [-1, 1];
6) Calcular W[S1][S0] y B[s 1];
7) Calcular el peso de inicialización de la capa oculta (w 1[s 1][S0];
8) Calcular el sesgo de inicialización b 1[s 1] de la capa oculta
9)) Salida W1[S1][S0; ], b1[S1].
Caso 2: La función de activación de la capa oculta f() es toda una función en forma de S.
1) Calcular el vector de rango xrng[N] de cada variable en el modo de entrada X[N][P]
2) Calcular el vector de distancia media de cada variable en; el modo de entrada x xmid [n];
3) Calcular los factores de amplitud Wmagw y b;
4) Generar una matriz de números aleatorios S0×1-dimensional RAND [S1] uniformemente distribuido en [-1] entre;
5) Genere una matriz de números aleatorios distribuida normalmente RANDNR [S1 × S0] [S0] con una media de 0 y una varianza de 1. El rango de números aleatorios es aproximadamente [-1, 1];
6) Calcular W[S1][S0] y B[s 1];
7) Calcular el peso de inicialización de la capa oculta (w 1[s 1][S0];
8) Calcular el sesgo de inicialización b 1[s 1] de la capa oculta
9) Salida W1[S1][S0]; , b1[S1].
Caso 3: La función de activación de capa oculta f() es otra función.
1) Calcular el vector de rango xrng[N] de cada variable en el modo de entrada X[N][P]
2) Calcular el vector de distancia media de cada variable en; el modo de entrada x xmid [n];
3) Calcular los factores de amplitud Wmagw y b;
4) Generar una matriz de números aleatorios S0×1-dimensional RAND [S1] uniformemente distribuido en [-1] entre;
5) Genere una matriz de números aleatorios distribuida normalmente RANDNR [S1 × S0] [S0] con una media de 0 y una varianza de 1. El rango de números aleatorios es aproximadamente [-1, 1];
6) Calcular W[S1][S0] y B[s 1];
7) Calcular el peso de inicialización de la capa oculta (w 1[s 1][S0];
8) Calcular el sesgo de inicialización b 1[s 1] de la capa oculta
9) Salida W1[S1][S0]; , b1[S1].
(4) Genere el peso W2 de esta capa e inicialice el sesgo b2.
1) Generar una matriz de números aleatorios dimensional S2×S1 W2 [S2] [S1] distribuida uniformemente entre [-1]
2) Generar una distribución uniforme entre [-1]; ] , 1] Matriz de números aleatorios S2×1-dimensional B2[S2];
3) Salida W2[S2][S1], b2[S2].
2. Aplique el algoritmo BP elástico (RPROP) para conocer el algoritmo general del peso W y el sesgo B de la red BP de tres capas (incluida la capa de entrada, la capa oculta y la capa de salida).
Función: Train3BP_RPROP(S0, x, p, S1, W1, b1, f1, S2, W2, b2, f2, d, TP).
(1) Parámetros de entrada
p es el modo (xp, dp), p = 1, 2,..., p
Tres capas; Estructura de la red BP;
Parámetros de aprendizaje.
(2) Inicialización del aprendizaje
1);
2) Inicialice los valores de gradiente de cada capa W y B a matrices cero.
(3) Calcule la salida y0, y1, y2 de cada capa y el primer error medio de aprendizaje MSE desde el modo de entrada x
(4) Ingrese al ciclo de aprendizaje
Epoch=1
(5) Determine si cada error de aprendizaje cumple con el requisito de error objetivo.
Si es una PYME