¿Cuáles son los puntos clave del segundo juego entre Lee Sedol y AlphaGo desde la perspectiva del Go?
No tengo mucho tiempo para escribir una respuesta larga, así que hablaré brevemente sobre el punto que siento más profundamente:
Hay lagunas obvias en el algoritmo utilizado. por ajedrecistas profesionales para juzgar la situación.
El algoritmo utilizado por los ajedrecistas profesionales para juzgar la situación se puede resumir aproximadamente en una frase: estimar el número de puntos (tamaño del sitio) de diferencia entre los dos lados.
¿Qué pasa si los límites del territorio no están completamente determinados? Si hay un funcionario de primera mano, se otorgará al bando de primera mano. Si hay dos funcionarios de segunda mano, se otorgará a cada persona.
Entonces existen algunas ambigüedades, como ¿en cuántas mallas se convierte un trozo de potencial grueso? Esto sólo se puede hacer sintiendo.
Al observar las explicaciones en varias plataformas hoy en día, el juicio de Ke Jie es probablemente el más preciso. En el medio juego, Ke Jie anotó unos 15 puntos en el tablero negro. Gu Li una vez juzgó la ventaja de Xiao Li, e incluso cuando no había muchos funcionarios, todavía pensaba que era un buen movimiento. Kim Myung-wan es casi igual. McClemmon no escuchó atentamente su juicio, que parecía ser un poco más preciso que el de Gurley. En el movimiento 128, Mi Yuting pensó que todavía era un buen movimiento (en ese momento, Ke Jie ya había juzgado que las negras estaban claramente por delante). No he visto Go TV en absoluto, así que agregue más.
Independientemente de quién sea el juicio más preciso, simplemente podemos echar un vistazo a los juicios de todas las partes en la mano blanca 128. Algunos Ke Jie dijeron que el ajedrez de las negras estaba una cabeza por delante, otros dijeron que el ajedrez estaba bien y algunos incluso dijeron que el ajedrez de las blancas era ligeramente superior. ¡Estos ajedrecistas profesionales pueden diferir en más de un punto al juzgar la misma situación! Esto simplemente demuestra los enormes errores que pueden surgir de la ambigüedad del algoritmo anterior.
Entonces pensemos en dónde puede ocurrir el error. Primero, se otorga al primero en actuar. Sin embargo, en el tablero de ajedrez, "hacer el primer movimiento" es un concepto relativo y no es raro ver movimientos inversos. Incluso en algunos casos, no es raro que las personas luchen duro y decidan tomar la iniciativa. En segundo lugar, juicio confuso. El problema es mayor. Las diferencias de los ajedrecistas profesionales a la hora de juzgar el grosor de una pieza de ajedrez pueden conducir a resultados completamente diferentes.
¿Cómo juzga la situación AlphaGo? Parte del portafolio estratégico de AlphaGo es la red de valor. El principio de esta parte no está claro a mi nivel. Para facilitar la comprensión, consideramos el método de juicio de la generación anterior de IA, Zen: estimar la "tasa de ganancias" a través de una gran cantidad de muestras aleatorias. Por ejemplo, en una partida de ajedrez hay 120 movimientos. En este momento, AlphaGo completa aleatoriamente una partida de ajedrez y luego determina qué lado gana la partida completada aleatoriamente. Repita este proceso muchas veces, digamos 100.000 veces, y luego 30.000 veces ganan las negras y 70.000 ganan las blancas, entonces se estima que la tasa de victorias de las blancas es del 70%.
Por supuesto, la red de valor de AlphaGo es mucho más avanzada que el método de Zen, lo que hace que la tasa de ganancia estimada sea más precisa.
AlphaGo no simula las partidas de ajedrez restantes de forma completamente aleatoria, sino que se refiere a los registros del juego anterior y utiliza el selector de movimientos para encontrar los puntos más probables para asegurar la velocidad
Del efecto Juzgar De lo anterior, el efecto de estimar la tasa de ganancias es realmente muy bueno. Y creo que este método de juicio es esencial.
¿Por qué? En primer lugar, debe quedar claro que, aunque en teoría, en una determinada situación, o las negras deben ganar o las blancas deben ganar. Sin embargo, dado que Go no puede ser realmente exhaustivo, sólo podemos recurrir a estimar la probabilidad o estimar la diferencia entre los dos lados como los jugadores de ajedrez humanos. Sin embargo, en muchos casos, la diferencia de malla no tiene sentido.
Por ejemplo (debería haber una imagen aquí), Black determinó que el número de mallas es 70, lo cual no tiene potencial. White determina que el número de mallas es 40 mallas, y hay un gran espacio abierto con potencial de 40 mallas. Si las negras irrumpen inmediatamente y sobreviven, el potencial de 40 goles sólo podrá convertirse en 10 goles reales y las negras ganarán. Si las negras no logran anotar, las blancas quedarán rodeadas de 40 hoyos y las blancas ganarán. Las negras también pueden elegir una eliminación superficial conservadora, luego el potencial de las blancas de 40 mallas se puede convertir en aproximadamente 25 mallas. En esta situación, si eliges una eliminación superficial, aunque al final la brecha se reducirá, las posibilidades de ganar son en realidad muy pequeñas. Desafortunadamente, en esta situación, es difícil para los jugadores de ajedrez profesionales estimar con precisión la probabilidad de ganar y sobrevivir, pero AlphaGo puede hacerlo. Por lo tanto, los ajedrecistas humanos con ilusiones sintieron que no se estaban quedando atrás y que no había posibilidad de lograr un gran avance, por lo que optaron por eliminar el ajedrez blanco y el espacio vacío. Como resultado, el potencial de 40 goles de las blancas se convirtió. en 25 goles, y las negras sólo tenían 5 goles más en el tablero, perdiendo así. AlphaGo estimó que la tasa de victorias por entrada era del 40%, mientras que la tasa de victorias por eliminación superficial era sólo del 25%, por lo que decidió participar.
Independientemente de la victoria o derrota final, elegir entrar es obviamente una mejor estrategia.
En otras palabras, si está sólo "dos ojos por delante" y tiene una tasa de ganancia del 80%, y si está "cinco ojos por delante" y tiene una tasa de ganancia del 70%, el primero tiene una ventaja mayor, pero los humanos pensarán que este último tiene una ventaja mayor. Éste puede ser el destino de los ajedrecistas humanos.
Lamentablemente, es imposible para los humanos estimar la tasa de ganancias a través de una gran cantidad de muestras aleatorias.