logo

AlphaZero: Inteligencia artificial progresa sola en ajedrez y gana a Stockfish 8 (1)

A la inteligencia artificial de Google basada en redes neuronales, AlphaZero, le enseñaron las reglas de juego del ajedrez. Y la pusieron a jugar durante 4 horas contra sí misma. A la vuelta… parecía haber superado lo que sabíamos del ajedrez.

8 de diciembre de 2017 (actualizado 12/12/2017)

Antes de comenzar, he aquí alguno de los comentarios al respecto del juego desplegado por AlphaZero:

“AlphaZero ha hecho más que simplemente adquirir maestría en el juego, ha alcanzado nuevas cotas de formas consideradas inconcebibles.Chessbase

“Tras leer el estudio y, especialmente, tras ver las partidas, pensé: Bueno, siempre me he preguntado cómo sería si una raza superior aterrizara en la tierra y nos enseñara cómo juegan ellos al ajedrez, y ahora siento que ya lo sé”.

Peter Heine Nielsen (analista de Carlsen), en Chess.com

“El conocimiento entero del ajedrez, aprendido y superado por AlphaZero de DeepMind en 4 horas” Daily Telegraph

Saber cómo juegan los humanos es irrelevante

Parece una frase de Harold Finch, en la serie Person of interest. Primero fueron las damas. Luego llegó el turno del Go. Ahora le ha tocado al ajedrez. Para progresar en un juego con reglas sencillas, saber cómo juegan los humanos es irrelevante.[i] Quién sabe, quizá hasta puede ser mejor no saberlo…

AlphaZero sólo necesitó 4 horas de autoaprendizaje con refuerzo para superar a Stockfish.

A las 4 horas de autoaprendizaje (300.000 pasos) AlphaZero superó en Elo a Stockfish 8.

En el proceso, primero recibiría las reglas básicas de juego: movimientos, capturas… Tabula rasa, o casi. Luego comenzaría con partidas de movimientos aleatorios (sin sentido). Conforme pasara el tiempo iría “dándose cuenta” de algunos detalles. Por ejemplo, jugar con el rey por delante de las piezas era muy peligroso: habría que protegerlo. No coronar dama también solía ser bastante poco recomendable: mejor casi siempre pedir queen. Y así fue perfeccionando su juego.

En otro momento debió “comprender” que las piezas que quedaban fuera de juego – torres en las esquinas, alfiles atrapados por peones – perdían gran parte de, o prácticamente todo, su “valor relativo”. Esto sería trascendental en varias partidas que ganó, dado que Stockfish se quedó con este tipo de alfiles encerrados.

En mi opinión, este detalle es muy interesante, y quizá para apreciarlo a fondo con libertad haya que dejar de lado las partidas históricas entre humanos. Luego comentaré algo más al respecto.

Victoria por 64-36

AlphaZero ha conseguido derrotar a uno de los principales motores de ajedrez, Stockfish 8, en un match – bastante injusto, eso sí – jugado a 100 partidas. El resultado fueron 28 victorias, 0 derrotas (!) y 72 empates, para un puntaje total de 64 a 36.

La calidad de juego desplegada ha sido en algunos momentos bastante “sorprendente”, alcanzando cotas difíciles de imaginar (si hablamos de un programa). Sobre todo, parecía muy poco materialista.

Así lo exponían en Chess24:

Cómo no, la empresa subsidiaria de Google, DeepMind, está detrás del asunto. Los investigadores de la Universidad de Cornell subieron el 5 de diciembre a Arxiv el preprint del artículo Mastering chess and shogi by self-play with a general reinforcement learning algorithm donde expone el desarrollo del algoritmo de aprendizaje por refuerzo (reinforcement learning) de AlphaZero. En él aparecen listadas 10 partidas contra Stockfish 8 que finalizaron con victoria y que han dado bastante que hablar. Analizaremos algunas de ellas.

No fue un encuentro justo

Aunque el encuentro en sí quede en un segundo plano, la verdad es que no se lo pusieron fácil a Stockfish (SF). Podría hablarse, incluso, de que fue muy injusto y no le permitió ofrecer la mejor versión de su juego. Podría ser comparado con algo así como ir a correr por un terreno con obstáculos, donde el otro sabe dónde están, conoce buenos atajos, y además sale con ventaja.

Básicamente, las partidas eran a 1 minuto por jugada (no muy allá para SF), jugó en un hardware no recomendado para él (PC de 64 núcleos), carecía de libros de aperturas y, al parecer, tampoco tenía bases de finales. Podrías decir: “Bueno, pero AlphaZero también, ¿no?”. Sí, pero si lo de las bases de datos se confirma es una carencia muy seria para SF, que (hasta donde conozco) queda “vendido” en los finales sin estas tablas.

Puede parecer que la potencia de cálculo marcaría la diferencia, pero lo que hace AlphaZero no es calcular con fuerza bruta. Así, el cálculo de 80.000 posiciones por segundo, frente a los 70 millones de Stockfish, no es lo relevante. AlphaZero se concentra en las posibilidades más prometedoras – su búsqueda es selectiva -, y eso le basta.

Por otro lado, la diferencia de otros motores de ajedrez, AlphaZero no tenía motivos para evitar las posiciones bloqueadas/cerradas. ¿Por qué habría de hacerlo? Para los programas que estamos acostumbrados a ver, la estrategia es algo difícil de manejar. Juego bloqueado y poca táctica no son sus mejores amigos.

Así, en una de las partidas que ganó con negras, AlphaZero no lo hizo nada mal con su estrategia.

¿Qué parece más sorprendente?

El tema de la coordinación de piezas parece portentoso. Pero la profundidad en la ponderación de ciertos factores dinámicos de medio-largo plazo (están ahí durante bastante tiempo, si uno los maneja adecuadamente) parece de ciencia-ficción. Es sólo una opinión, que argumentaré en la siguiente entrega.

Para mí lo más sorprendente es que haya sido capaz de jugar líneas principales de apertura – como la India de dama – que exigen sacrificios de uno o dos peones a medio/largo plazo. Sacrificios que deberían estar basados en una comprensión profunda de los factores dinámicos relevantes del medio juego. Y todo ello sin conocer ejemplos humanos, claro está. Para mí es muy sorprendente.

Sería interesante en este aspecto saber si realmente AlphaZero está sólo contando los peones que entrega, o también está ponderando notablemente el “valor real” de las piezas del otro bando que quedan seriamente inactivas. Algo similar a lo que ocurría en las partidas de Mikhail Tal: “Entrego el alfil, pero esa torre de la esquina no juega… Por lo tanto, realmente no tengo material de menos.” En la segunda parte entraremos en detalles.

Por fin, cabe hacerse la pregunta de hasta qué punto ha podido penalizar (o no) a los humanos haber mantenido una evolución histórica del ajedrez muy diferente a la planteada por AlphaZero. En particular, hasta hace 15-20 años apenas se jugaban tales posiciones con fianchettos cruzados con sacrificio de peón en d5.

Quizá esto representa una laguna importante, en el aspecto de que no hemos podido percibir hasta épocas muy recientes profundos factores dinámicos de medio/largo plazo surgidos de posiciones con fianchettos cruzados de este tipo.

Respecto a los motores de ajedrez, también parece haber un problema sensible con la poda Alfa-Beta vs árbol de búsqueda de Monte Carlo (MCTS, o simulación estocástica; ej: “esta jugada ganará el 30% de las veces, en 1000 intentos”). Pero eso es otra historia…Las “lecturas” que hace AlphaZero de este tipo de posiciones con doble fianchetto con sacrificio de peón en d5 similar a la que formulamos hoy (siglo XXI). Pero, repito, nosotros se las hemos incluido a nuestros programas, “ella” lo ha descubierto.

La estrategia profunda de AlphaZero (1): versión Alejandro Magno

En La estrategia profunda de AlphaZero en versión Alejandro Magno detallo el tema con posiciones concretas y una analogía mental: intentar atacar a Alejandro Magno, de forma planificada, en una batalla. Viene a ser una visión general de la posible estrategia profunda [quizá ya ganadora] de AlphaZero para estas posiciones.

Aperturas

Que las piezas blancas sigan siendo favoritas – 25 victorias de AlphaZero fueron con este color – no es ninguna novedad.

Pero lo que resulta curioso es ver las aperturas que fueron más favorecidas por AlphaZero y las menos favorecidas. Así, tenemos que la apertura Inglesa o el Gambito de dama alcanzaron una notable representación. Por el contrario, la defensa Francesa perdió color con el paso del tiempo de entrenamiento. También muestra la India de rey, aunque mirando la imagen la notación transcrita es la de la defensa Grünfeld…

Tiempo de aprendizaje que AlphaZero dedicó a cada una de las 12 principales aperturas de ajedrez. Fuente: artículo citado.

¿Seguiría progresando AlphaZero si siguiera jugando contra sí misma?

Primero hay que estimar si es posible “progresar” objetivamente. Así, para el juego de las damas se conoce que la estrategia desarrollada por el programa Chinook es la óptima: las damas están resueltas y llevan a un empate; no hay margen de mejora. Sin embargo, el ajedrez aún presenta esta posibilidad.

Por otro lado, tenemos el tema de progresar “jugando contra sí misma”. En contra de lo intuitivo que puede parecer para la gente, en realidad es algo que no puede darse como cierto.

Uno de los puntos interesantes, comentado por Håkon Hapnes Strand en Quora, es el de explotación – explotar lo aprendido – versus exploración – seguir investigando nuevas posibilidades -.

Hablando de diferentes disciplinas, muchos humanos nos quedamos más bien en el primer punto, ya que el segundo implica salir de la zona de confort y puede tener importantes consecuencias a corto plazo (resultados, pérdida de financiación…). Para continuar su avance cualitativo, AlphaZero necesitaría explotar lo que ya “comprende” pero, al mismo tiempo, tendría que seguir transitando nuevos caminos.

Una de las claves radica en el momento en que alcanzó la meseta:

Fuente: artículo citado.

“La parte interesante de este experimento es lo que ocurre después de 200.000 iteraciones o así. El algoritmo de entrenamiento podría fácilmente permanecer para siempre en un óptimo local y nunca progresar, más allá de una estrategia subóptima. Sin embargo, “afinada” adecuadamente, podría continuar progresando después de millones de iteraciones. No lo sabes realmente hasta que lo pruebas.”

¿A qué se va a destinar esta IA?

Los entornos complejos del mundo real no tienen reglas tan sencillas como el ajedrez, un juego complejo en el que pueden listarse todos los factores relevantes (saber que están presentes en una posición y ponderarlos es lo difícil para nosotros). Como citan los autores del artículo: “Estos sistemas están altamente afinados para sus dominios, y no pueden ser generalizados para otros problemas sin un significativo esfuerzo humano”.

Así, ámbitos como la medicina – he oído algo sobre las enfermedades oculares crónicas, por ejemplo – están interesados. Igualmente, se plantean proyecciones éticas y sociales.

Por otro lado, DeepMind intenta también “formalizar la inteligencia humana”. Así que en el futuro… quién sabe.

Las partidas

Algunas partidas fueron sensacionales y dan la impresión de un avance cualitativo en la comprensión del ajedrez. Reproduciremos algunas, de forma salteada.

Partida 8: pieza fuera de juego y dura iniciativa en el otro lado (1)

Nota: en orden a lo comentado en otras ocasiones – al peón no se le llama “pieza” y su jugada se escribe como si fuera una simple casilla, algo tan injusto como este match con Stockfish –  voy a utilizar la letra P para representar al peón.

13.Pb4

Las blancas han entregado un peón, pero a cambio han conseguido dejar al alfil negro encerrado por varios peones (Pc4, Pc6). El caballo blanco va a llegar a e4, vía d2 y la dama a g4. Todos estos temas son bastante conocidos por las partidas entre humanos; pero AlphaZero no lo sabía, claro.

17.Cc5!

Ahora el alfil negro de b7 no podrá jugar. Puesto que se encuentra en el flanco de dama (izquierda del tablero), las blancas redirigirán su juego al otro lado (al flanco de rey, a la derecha). Técnicamente, las negras jugarán con un alfil menos, algo que debió descubrir AlphaZero en su entrenamiento. Y que, obviamente, extraña que Stockfish – y otros módulos – aún permitan. Aquí las máquinas aún parecen un grave problema con el “valor real” de las piezas.

La cuestión clave es ¿cuánto “vale” realmente ese alfil negro? Recordemos que el valor “relativo”, es relativo a la capacidad de movimiento – de forma primigenia, el valor relativo de las piezas surgiría en un tablero vacío -. Es decir: capacidad de moverse de la pieza, de crear amenazas, coordinarse con otras piezas para buscar un objetivo común, etc. En este orden de cosas, el rey también tiene un valor – 3 ó 4 puntos son valores históricamente aceptados – y los peones tienen valores relativos diferentes, ya estén en el centro, en las bandas o cercanos a la promoción.

En contraposición, el “valor material” es el valor fijo que tiene una pieza cuando sale del tablero: alfil y caballo valdrían 3 puntos, etc. Sirve para guiarse en un proceso de cambios de piezas (“gano un punto”, etc).

El tema es que esa pieza ahora quizá podría valer como un peón. Y no hay perspectivas de cambio. En una situación estándar, no sería fácil “ponderar” o “medir” el valor de ese alfil, porque probablemente podría regatear en algún momento a los peones. Pero aquí hay muy pocas posibilidades de que eso ocurra: ¡los peones negros de c6, b5 y e6 se van a quedar muuucho rato en esas casillas!

Esta situación puede compararse con la alcanzada en la partida 9, donde tampoco el alfil puede valer mucho:

Luego lo comentaremos. Realmente lo difícil de estas situaciones suele ser poder forzarlas (y ganar), ya que en el proceso deberemos evitar reactivar ese alfil encerrado. Será justo lo que haga maravillosamente AlphaZero, al jugar en la mitad derecha del tablero (lejos del alfil negro de casillas blancas) y por las casillas negras (inaccesibles al alfil también, estas casillas servirán para entrar con la dama).

30.Df6!

Si ahora el negro cambia damas no podrá evitar la entrada de la torre blanca. Ejemplo: 32.Ta1, para entrar en a7, y si las negras tratan de evitarlo con 32…Ta8 las blancas toman la valiosa columna d – punto de entrada en d7 – con 33.Td1!

Es cierto que en este caso las negras pueden modificar la estructura de peones – avanzar Pe6 a e5 – para así poner a jugar el alfil. Pero entonces ocurre algo, a elegir entre dos posibilidades,  bastante grave:

Simplemente desplazar la torre blanca a e7 deja todo amenazado. Pero dar el jaque con 35.Td8+ llevaría a una situación curiosa, tras el previsible cambio de torres: los alfiles negros – ambos – quedarán también sin juego, expuestos a los rocambolescos giros del “destino”:

Con jugadas naturales puede llegarse a esta divertida posición desde la anterior. Creo que las negras apenas pueden hacer gran cosa por evitarlo.

36.Ac1

Se prepara la invasión Ag5-f6, al tiempo que se evita que las negras puedan disponer su alfil de casillas negras en g7 (ya que seguiría Dh4, con doble toque a la torre negra y al peón h7). Como “plan oculto”, la maniobra de doblaje Th4 y Dh3 será fortísima, al amenazar el truco Axg6. Ante ello, las negras pueden defender e6 con la torre y jugar la dama a g7 (evitando el sacrificio Axg6, al controlar la dama negra la entra de la torre blanca en h8).

Pero llegar a esta situación también es desesperado, ya que las negras no disponen de jugada – técnicamente, están en “Zugzwang” – mientras el blanco intenta Ag5-f6:

41.Tc1!

Una jugada típica de prevención. Las blancas quieren jugar 42.Ag5, pero sin permitir 42… Dd4!, que ahora habría sido muy buena. Para ello defienden su dama, con lo que las negras perderían la torre tras 43.Axd8. El resto fue sencillo para AlphaZero.

El artículo continúa aquí:

AlphaZero vs Stockfish: la increíble 5ª partida

REFERENCIAS

[i] Lo decía Daniel Marín, respecto del Go, en Las diferencias entre AlphaGo Fan, AlphaGo Lee, AlphaGo Master y AlphaGo Zero : “AlphaGo Zero ha demostrado que el aprendizaje supervisado de las versiones anteriores de AlphaGo, cómo juegan los humanos, era irrelevante. Toda una sorpresa para muchos expertos.”



Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Si continúas utilizando este sitio, aceptas el uso de las cookies. Más información

Las opciones de cookie en este sitio web están configuradas para "permitir cookies" para ofrecerte una mejor experiéncia de navegación. Si sigues utilizando este sitio web sin cambiar tus opciones o haces clic en "Aceptar" estarás consintiendo las cookies de este sitio.

Cerrar