Comprender el alto sesgo y la alta varianza
Este blog se ha movido a /people/cactusgame/posts.
La primera vez que encontré los conceptos de alto sesgo y alta varianza cuando estaba estudiando el desajuste y el sobreajuste en el aprendizaje automático. La explicación de Andrew fue muy clara y me resultó fácil recordar las conclusiones del sobreajuste (alta varianza) y del desajuste (alto sesgo). Pero no entiendo muy bien los detalles de estos dos conceptos. Por ejemplo,
Dado que el modelo ideal nunca se puede entrenar y el modelo de entrenamiento solo se puede entrenar, los resultados predichos por el modelo de entrenamiento y los resultados del modelo teórico (es decir, la realidad) deben existir entre ellos. Definitivamente queremos que el error sea lo más pequeño posible, de modo que cuando este modelo entrenado se aplique a otros conjuntos de datos, el error sea menor. Entonces aquí viene el problema. ¿Qué pasa si este error es grande?
Supongamos que queremos entrenar un modelo de mercado de valores. El objetivo del modelo es predecir el rendimiento de una acción al día siguiente. Si la devolución es una compra normal, en caso contrario es una venta. Nuestro modelo quiere ganar una fortuna todos los días y predecir con precisión el aumento y la caída diarios, por lo que se centra en el rendimiento del día siguiente y no le importan las estrategias a medio y largo plazo, como duplicar cada año.
Los dos modelos entrenados anteriormente tienen un gran error con el modelo de "predicción de Dios" que esperamos. Para reducir los errores de predicción, es necesario analizar las causas de los errores. Los errores aquí incluyen:
He visto esta imagen en muchos artículos y su fuente original está en la referencia. Este ejemplo es muy claro, pero cuando lo miré por primera vez, hubo un problema que no entendí:
Cuando vi esta imagen por primera vez, entendí que los puntos azules en la imagen significaban que cada disparo El resultado es que un modelo de entrenamiento hace diferentes predicciones Y para diferentes entradas x. Si se entiende de esta manera, la alta varianza detrás de esto no se puede explicar. De hecho, cada punto azul representa los datos de predicción de un modelo de entrenamiento, es decir, un modelo de entrenamiento se entrena en función de diferentes conjuntos de entrenamiento y luego este modelo de entrenamiento genera un resultado de predicción. Si este proceso se repite n veces, equivale a tomar n veces. Suponemos que la relación funcional real es Y = f (x) y el resultado previsto del modelo de entrenamiento es p (x), entonces
Archivo de referencia: