MuZero, la inteligencia artificial que aprende por ensayo/error y que Google está usando para mejorar los algoritmos de YouTube

DeepMind es una compañía de desarrollo de inteligencia artificial propiedad de Google que, desde hace unos años, se ha impuesto la misión de optimizar y acelerar el proceso de aprendizaje de las IAs.

Hace cuatro años, DeepMind lanzó AlphaGo, una inteligencia artificial que logró vencer a un maestro humano de Go (un juego complejo que, por sus características de estrategia, siempre se le había resistido a la IA más convencional).

AlphaGo logró eso gracias a haber sido entrenada durante meses en el análisis de miles de partidas jugadas entre humanos. Sin embargo, sólo un año después, DeepMind presentaba a su sucesora: AlphaGo Zero, que sólo necesitó tres días de entrenamiento para vencer 100 veces seguidas a su predecesora.

El secreto de este monumental avance fue la apuesta por una técnica denominada 'aprendizaje por refuerzo', que permite a las IAs a aprender una tarea por ellas mismas sin conocer las reglas de dicha tarea (las normas del ajedrez, por ejemplo), sino únicamente el objetivo deseado (comerse al 'rey' del contrario).

Los siguientes desarrollos de DeepMind. AlphaZero y el recién lanzado MuZero. han seguido optando por (y mejorando) el aprendizaje por refuerzo, y ahora Google está aplicando su capacidad de aprendizaje para tareas mucho más allá de los juegos de mesa y los videojuegos.

Así, la compañía del buscador ha empezado a aplicar los avances de MuZero a la mejora de su propia tecnología, usando esta IA para encontrar una nueva forma de codificar videos... y así reducir los costos de YouTube:

"Si nos fijamos en el tráfico de datos en Internet, la mayor parte del mismo son vídeos, por lo que si logramos comprimir el vídeo de forma más eficaz podremos emprender un ahorro masivo... y los experimentos iniciales con MuZero [...] nos entusiasman bastante en ese sentido".

Un vistazo a…
'Sgroogled.com': cuando MICROSOFT lanzaba anuncios ANTI-GOOGLE

Todo se reduce al ensayo/error

Pero, ¿cómo se logra eso de que una IA aprenda a hacer algo sin que nadie se lo explique? El científico jefe de DeepMind, David Silver, lo explica en declaraciones a la BBC:

"El mundo real es desordenado y complicado, y nadie nos da instrucciones sobre cómo funciona. Sin embargo, los seres humanos somos capaces de formular planes y estrategias sobre qué hacer a continuación".

"[MuZero] parte de la nada, tan recurriendo al ensayo/error, logra ambos descubren las reglas de su mundo y utilizarlas para lograr un rendimiento sobrehumano".

Por supuesto, en el caso de una IA el ensayo/error puede suponer, por ejemplo, jugar millones de partidas de un videojuego, tomando nota de qué decisiones le condujeron en cada caso a la victoria o a la derrota, privilegiando así unas y descartando otras hasta que su estrategia sea absolutamente perfecta.

Y cualquier tarea informática puede ser planteada en formato de videojuego: piensa en uno que te permite ganar más puntos a medida que logras un vídeo más ligero sin perder calidad de imagen, y así entenderás cómo está usando YouTube las capacidades de MuZero.

Ver todos los comentarios en https://www.genbeta.com

VER 4 Comentarios

Portada de Genbeta