Sora nos acerca más a la 'IA general'... pero no por generar vídeos, sino por simular mundos

En el mundo de la inteligencia artificial, el reciente lanzamiento de Sora por parte de OpenAI ha marcado, para muchos, un antes y un después con el lanzamiento de Sora.

Sin embargo, lo verdaderamente revolucionario de Sora no radica en su habilidad para crear vídeos ultrarrealistas de alta calidad, sino en su potencial como simulador del mundo físico... y en cómo eso podría acercarnos a la 'IA General'.

Sora combina modelos de difusión, similares a los utilizados en DALL-E 3, con una arquitectura de transformadores, similar a la que permite funcionar a ChatGPT. Esto le permite procesar secuencias temporales de imágenes como si fueran textos, lo que a su vez se traduce en:

Vídeos con una adherencia impresionante al texto.
Creación de nuevos vídeos a partir de videos existentes.
Posibilidad de prolongar los vídeos agregando transiciones a nuevas escenas.
Capacidad de crear bucles.

Cuando hablamos de 'transiciones a nuevas escenas' no nos referimos a un fundido a negro, sino a esto:

Sora no es simplemente un modelo de generación de video; es una ventana hacia la creación de mundos interactivos 3D y la simulación de interacciones físicas realistas

Y cosas así sólo son posibles porque el análisis de grandes cantidades de vídeos permitirían a la IA, en teoría, aprender implícitamente las reglas físicas que gobiernan nuestro mundo.

No es que sea Sora sea perfecto, ni mucho menos: todavía demuestra estar sujeto a limitaciones, como reconocer correctamente la causa y el efecto en sus simulaciones.

Sin embargo, sus capacidades emergentes, como la coherencia a largo plazo y la persistencia de objetos, incluso cuando están ocultos o salen de cuadro, son pasos hacia una simulación del mundo más precisa.

Y es esto lo que hace que Sora abra todo tipo de posibilidades, desde la creación de contenidos cinematográficos hasta el desarrollo de entornos de juegos interactivos.

Más aún, es un paso significativo hacia la realización de la AGI, la 'verdadera inteligencia artificial'. Y es que, al simular aspectos del mundo físico y comprender las interacciones dentro de éste, Sora establece las bases para modelos que puedan entender y simular la realidad, un paso crucial en este salto a la nueva etapa de la IA.

En Genbeta

Estas son las alternativas a Sora de OpenAI con las que ya puedes ir creando vídeos mediante IA. Esto es lo que ofrecen

Pero, incluso antes dar ese (polémico) paso, y por mucho que la tecnología de Sora puede inducir al optimismo sobre las capacidades futuras de la IA, claro, también tendrá que enfrentar retos éticos: Sora suscita preguntas sobre las implicaciones éticas y de seguridad, especialmente en la generación de desinformación y la necesidad de métodos de detección de videos generados por IA.

Aprender como niños

En X, el español José Luis Clavo, director de IA en Diverger, se posiciona sobre este modo de crear 'modelos del mundo' en IAs a través de vídeo:

"Es frecuente que la inteligencia artificial busque inspiración en los mecanismos de aprendizaje de las personas. [...] Una fuente de inspiración es cómo aprendemos de niños.

De los distintos estímulos que tenemos, la visión ocupa un papel destacado en muchos casos; por ejemplo, aprendemos los efectos de la física de forma intuitiva. Enseguida sabemos que un objeto va a caer si lo soltamos.

Los modelos actuales aprenden del texto a niveles bastante avanzados, pero son incapaces de aprender del vídeo. No solo los modelos aprenderían otras cosas que no están en el lenguaje, es que volumen de información en video disponible para entrenar estos modelos es muchísimo mayor que el de texto".

En Genbeta

Por qué los expertos temen al 'invierno de la inteligencia artificial' en 2024

De vídeos a modelos de mundo sí, pero no así

Sin embargo, hay expertos como Yann LeCun, jefe de Inteligencia Artificial en Meta, que critican la idea de modelar mundos mediante la generación de píxeles como algo "ineficiente y destinado al fracaso".

LeCun menciona, en una publicación en X de hace unas horas, que en el pasado, a pesar de los intentos de aplicar técnicas avanzadas como la inferencia bayesiana, los modelos generativos que intentan predecir el mundo a nivel de píxel no han logrado éxitos.

Casualmente, el mismo día en que OpenAI presentaba Sora, Meta presentaba V-JEPA, un nuevo modelo no generativo desarrollado para enseñar a las IAs a comprender y modelar el mundo físico mediante la visualización de vídeos (es decir, sólo se centra en analizar lo que ocurre en los vídeos, no en generarlos).

Se recurrió a eliminar partes de los vídeos atendiendo a los cambios espaciotemporales que pudieran mostrar, para que el modelo de IA desarrollara una comprensión más profunda de la escena.

De esta forma, a diferencia de los modelos generativos, que intentan rellenar los píxeles desaparecidos, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, según el resumen del 'paper' publicado por Meta.

Imagen | Marcos Merino mediante IA

En Genbeta | Así de increíble ha sido la evolución de la IA para generar vídeos en solo un año: Sora vuelve a repetir lo que hizo ChatGPT