Idea básica del método de descenso en gradiente
Definición
El método de descenso de gradiente es un algoritmo de optimización de primer orden. El descenso de gradiente se utiliza para encontrar el mínimo local de una función. El punto de paso especificado debe buscarse iterativamente en la dirección opuesta al gradiente (o gradiente aproximado) correspondiente al punto actual de la función. Si busca iterativamente en la dirección positiva del gradiente, se acercará al punto máximo local de la función. Este proceso se denomina método de ascenso del gradiente.
Usar
El descenso de gradiente es un método iterativo que se puede utilizar para resolver problemas de mínimos cuadrados (lineales y no lineales). El método de descenso de gradiente y el método de mínimos cuadrados son los métodos más utilizados para resolver los parámetros del modelo de algoritmo de aprendizaje automático, es decir, problemas de optimización sin restricciones. Al resolver para el valor mínimo de la función de pérdida.
Utilizando el método de descenso de gradiente para resolverlo de forma iterativa, se pueden obtener la función de pérdida mínima y los valores de los parámetros del modelo. Por otro lado, si necesita encontrar el valor máximo de la función de pérdida, debe iterar utilizando el método de ascenso de gradiente. En el aprendizaje automático, basándose en el método básico de descenso de gradiente, se han desarrollado dos métodos de descenso de gradiente comúnmente utilizados, a saber, el método de descenso de gradiente estocástico y el método de descenso de gradiente por lotes.
Principio
Encuentra la derivada parcial de la posición actual, que es el gradiente. La dirección del gradiente normal es similar a la dirección cuesta arriba, lo que aumenta la función de valor. Al bajar la montaña, debe minimizar lo más rápido posible para obtener el valor mínimo del gradiente negativo. Esto es un descenso en gradiente.
El ascenso del gradiente es la derivada directa y el descenso del gradiente es el valor negativo del ascenso del gradiente. Como no sé cómo bajar la montaña, necesito dar un paso a la vez y continuar resolviendo la derivada parcial de la posición actual. Paso a paso, cuando lleguemos al punto más bajo, podremos obtener una solución óptima aproximada.