Una IA ha aprendido que debe comprar 10.000 Magikarp jugando a Pokémon Rojo, pero eso dice más de nosotros que de ella

Un entrenamiento exhaustivo ha arrojado comportamientos inesperados para una IA

1 octubre 2024, 14:30

Actualizado 2 octubre 2024, 12:47

Juan Sanmartín

El culmen de la tecnología actual lo representan las inteligencias artificiales, las cuales crean suspicacias y esperanza a partes iguales. Mientras el debate sigue candente, hay quienes han optado por utilizar su potencial para descubrir hasta qué punto una IA es capaz de superar una leyenda del videojuego como Pokémon Rojo.

Ese ha sido el objetivo que se propuso el usuario Peter Whidden, el cual utilizó el clásico sistema de aprendizaje automático para que el programa obtuviese los datos necesarios con los que evaluar su rendimiento. Han sido más de 50.000 horas de pruebas, de ensayo y error para determinar los límites de la IA, junto a una gran cantidad de anécdotas curiosas.

20.000 partidas simuladas a lo largo de cinco años, con un coste de 1.000 dólares, han sido necesarias para que la IA consiguiese llegar hasta únicamente hasta el Mt. Moon, pero no nos adelantemos a los acontecimientos. El mencionado aprendizaje automático permite que el sistema tome las imágenes del título de Game Freak para valorar qué decisión tomar a continuación.

Xataka

Elon Musk dice que toda la energía del mundo provendrá de paneles solares cuando la gente entienda la "escala Kardashev"

Al tratarse de un juego con un final a alcanzar, es preciso que la IA aprenda que no todo consiste en avanzar, sino que debe hacerlo con un método específico para no perder la partida. Un sistema de puntuació fue creado por Whidden para recompensar a través de diversas acciones. Por ejemplo, capturar un Pokémon equivale a un punto, ganar una batalla son tres puntos y conquistar un Gimnasio son cinco puntos.

Eso sí, la IA comenzó su periplo sin ninguna directriz de lo que debe hacer, pero se incentivó su curiosidad a través de un registro de pantallazos de Pokémon Rojo. Comparando las imágenes, la IA recibía más puntos si detectaba diferencias entre ellas, ya que se traduce en una novedad visual. Para lograr acelerar el proceso, se generaron sesiones aceleradas de dos horas, con 40 partidas al mismo tiempo jugándose de forma simultánea para comprobar los resultados. Eso sí, en tiempo real esa cantidad apenas equivale a seis minutos.

Applesfera

Un ladrón se dio a la fuga con un Ferrari 812 GTS de 500.000 euros. No sabía que dentro había un pequeño aparato de Apple de apenas 100 euros

Tras descubrir el entorno del laboratorio del profesor Oak, la IA consiguió salir al exterior de Pueblo Paleta, pero aquí se produjo el primer problema. Los NPC que caminan por el escenario cambiaban la disposición de la escena lo suficiente como para que a la IA le resultase novedosa la imagen. De esta forma, se quedó atascada en el inicio.

"Esta es una paradoja que nos encontramos en la vida real. La curiosidad nos lleva a nuestros mayores descubrimientos, pero al mismo tiempo nos hace vulnerables a las distracciones y nos mete en problemas. Como humanos, podemos reflexionar sobre nuestras propias fuentes de motivación intrínsecas, pero no podemos cambiarlas facilmente."

Esta reflexión de Whidden se contrapone a la propia naturaleza de la inteligencia artificial, pues solo hizo falta realizar algunos ajustes para encauzarla. Se aumentó la cantidad de píxeles distintos entre imágenes necesarios para activar la recompensa y así continuó la aventura. Tras atravesar la primera ruta y llegar a Ciudad Verde, una vez más todo se complicó.

La IA no ganaba los combates, sino que huía de ellos porque su recompensa en cuanto a exploración era nula. Por ello, Whidden decidió introducir un factor nuevo, el cual tomaba los niveles de los Pokémon del equipo para valorar positivamente cuanto más alta fuese la cifra. De esta forma los combates comenzaron a ser ganados. No solo eso, sino que la captura de criaturas también comenzó.

Xataka

Los números de las carreteras españolas no están puestos al azar: obedecen a un sistema que se remonta a 1760

En este momento se produjeron avances significativos aprendidos completamente por parte de la IA. El primero de ellos es que llegase a la conclusión de que permitir evolucionar a los Pokémon le beneficiaba, ya que en un principio decidía cancelar las transformaciones. Por otro lado, pudo aprender a cambiar de ataque al aprender que quedarse sin PP en un movimiento le impedía combatir con efectividad.

El Bosque Verde y los entrenadores rivales no supusieron un obstáculo real, por lo que varias pruebas después la IA ya se encontraba en mitad de Ciudad Plateada, aunque los problemas regresaron. No calibraba de ninguna forma qué combates debía librar y cuáles no, pues se presentaba en enfrentamientos con sus Pokémon muy debilitados. Para solucionar este inconveniente, Whidden volvió a introducir un valor más.

En este caso se le restaban puntos si perdía los combates, pero la IA insistía en seguir luchando para quedarse impasible una vez la derrota se consumaba; es decir, no pulsaba el botón para confirmar que había perdido y la pantalla quedaba estática con el mismo diálogo. Ni por esas entraba en vereda el programa para acudir a un Centro Pokémon, por lo que tocaba investigar todavía más a fondo.

Para sorpresa de su propio creador, la IA experimentaba una vez por sesión una vivencia tan traumática que se negaba a repetirla. Resulta que, viendo el gameplay repetido, la IA entraba en un Centro Pokémon, interactuaba con el ordenador y depositaba sus Pokémon por error. Esto suponía una pérdida enorme de puntos por suma de niveles, por lo que un trauma fue creado y le hizo evitar de cualquier forma entrar en tan horrendos edificios.

En Vida Extra

Spider-Man 2 y el uso del lenguaje inclusivo, ¿qué es lo que está pasando? Todo lo que necesitas saber

Una vez más, se realizó un ajuste para que solo existiese el premio cuando los niveles subiesen, lo cual desembocó en que, ahora sí, la IA visitase con regularidad los Centros Pokémon.

"Hasta este punto, la IA ha tenido un gran éxito utilizando sólo los movimientos primarios y ha aprendido a confiar exclusivamente en ellos. Ahora necesita utilizar algo más. Esta cuestión puede parecer trivial, pero incluso los seres humanos luchan con el mismo problema fundamental. Nuestra experiencia y nuestros prejuicios nos ayudan a tomar decisiones y a resolver problemas más rápidamente, pero también limitan nuestro pensamiento y obstaculizan nuestra capacidad para abordar un problema desde un nuevo ángulo."

300 días en tiempo simulado y 100 ensayos de aprendizaje automático después, la IA descubrió cómo vencer a Brock al utilizar movimientos de tipo agua contra sus Pokémon de tipo roca. El primer Gimnasio había sido superado lo cual ya era un logro total para Whidden.

"Sinceramente, esto supera mis expectativas de lo que creía que sería posible cuando empecé este proyecto. Hizo falta un gran número de experimentos para llegar hasta aquí, pero seguí sorprendiéndome cada vez que comprobaba un entrenamiento y descubría que la IA había alcanzado un nuevo nivel, me atrevería a decir que ha sido una experiencia muy gratificante."

La estupidez más grande de toda la aventura de la IA llegó en el instante en el que entró por la puerta del Centro Pokémon previo al Mt. Moon y se topó con el tipo que vende un Magikarp por 500 Pokécuartos. Una estafa piramidal en toda regla, pero como el pez cuenta con cinco niveles más que el resto de su equipo, la IA siempre lo compró en todas las pruebas realizadas. Tan absurda fue la situación que lo hizo más de 10.000 veces, aunque este también es un reflejo de nuestro comportamiento.

Tal y como vemos en la imagen, hay una equiparación de objetivos y resultados entre la IA y la humanidad. El ser humano busca sobrevivir consiguiendo alimentos escasos, de la misma forma que la IA pretende avanzar en Pokémon Rojo sumando más niveles. A pesar de que la comida basura nos da los nutrientes que necesitamos, sabemos que son perjudiciales para nuestra salud, y aún así persistimos en comprarla. La IA replica esa torpeza chocando con el mismo muro a pesar de conocer el resultado.

Con todo, el viaje llegó a su fin. La IA se vio incapaz de avanzar en el Mt. Moon, ya que un pasillo que debe ser cruzado es demasiado uniforme visualmente, por lo que el valor de exploración no obtenía recompensa. 50.000 horas más tarde, la IA no supo salir de la oscuridad de la cueva, aunque llegó a conseguir al poderoso Blastoise si las pruebas aumentaban más allá de las dos horas.

Varias conclusiones significativas aparecieron tras el análisis posterior de Whidden. En primer lugar, se dio cuenta de la clara tendencia de la IA a explorar los escenarios en el sentido contrario a las agujas del reloj y siempre por las esquinas. En segundo lugar, detectó un curioso patrón al inicio de cada partida.

Y es que la IA realizaba la misma pulsación exacta de botones para llegar hasta su encuentro con el primer Pokémon salvaje y lo conseguía capturar con un solo intento de lanzamiento de Pokéball. Absolutamente asombroso, ya que logró generar por si sola el sistema RNG (RNG Abuse), el cual consiste en "que el usuario sigue ciertos pasos en el juego en el momento justo, dadas una condiciones iniciales, para que el juego genere ese Pokémon con las características que él planeó".

O lo que es lo mismo, averiguó qué condiciones son necesarias para provocar que la primera Pokéball sea, a la práctica, una Master Ball. Este formato de juego es muy utilizado entre la comunidad speedrun, pero ella sola supo como crearla de la nada. Aquí tenéis un gráfico que muestra las capturas que realizó.

Los Pokémon que representan las regiones más gruesas fueron capturados miles de veces, mientras que los Pokémon que representan las regiones más delgadas pueden haber sido capturados sólo un puñado de veces.

Un detalle a tener en cuenta es que la única condición impuesta desde el inicio es que la IA comenzase a jugar tras recibir a Squirtle y haber entregado el correo al Profesor Oak. Esta imposición tuvo que realizarse a raíz de que la IA, sencillamente, nunca viajaba hacia atrás, ya que no hallaba recompensa en repetir zonas ya visitadas.

Whidden ha considerado que, en un futuro, quizás no sea mala idea dar el salto al aprendizaje transferido. Se trata de otro método de experimentación que permite que un aprendizaje adquirido se reutilice para mejorar el rendimiento de una tarea relacionada. Otra opción sería el uso del aprendizaje por refuerzo jerárquico, lo cual se traduce en crear pequeñas tareas que se apilen en un objetivo a largo plazo.

Un enorme trabajo por parte de Peter Whidden que ha trabajado durante horas para ofrecer resultados prometedores, circunstancias únicas y un reflejo de quiénes somos nosotros. Al fin y al cabo, las IA no se han creado solas.

En VidaExtra | Todos los juegos de la serie principal de Pokémon ordenados de peor a mejor

En VidaExtra | Todos los videojuegos de Pokémon: de la saga principal a los spin-offs y aplicaciones

Ver todos los comentarios en https://www.vidaextra.com

VER 0 Comentario

Portada de Vida Extra