Sora, guía a fondo: qué es, cómo funciona y lo mejor que puedes hacer con el 'ChatGPT' generador de vídeos de OpenAI

OpenAI ha estrenado un nuevo modelo de inteligencia artificial capaz de generar vídeos tan realistas y detallados que engañan

En estos días en los que Google dejaba atrás Bard en favor de Gemini y podíamos ver los últimos logros de su inteligencia artificial, OpenAI ha dado un golpe encima de la mesa demostrando que en la carrera de la IA, la empresa va por delante de la competencia, al menos en cuanto a resultados y proyectos se refiere. Qué mejor ejemplo que Sora, su última creación.

Tanto si ya has oído hablar de Sora como si es tu primera vez y no tienes muy claro qué puede hacer, su funcionamiento o simple y llanamente, cómo y cuándo podrás probarla, en este artículo recopilamos y resumimos lo más importante de Sora, la impresionante nueva inteligencia artificial de OpenAI diseñada para crear vídeos.

Qué es Sora y cómo funciona

Como el ínclito ChatGPT o DALL-E, Sora es un modelo generativo con inteligencia artificial creado por OpenAI capaz de generar vídeos cortos de hasta 60 segundos a partir de una descripción de texto. Es decir, que tú le escribes lo que quieres crear, lo envías y ella se encarga de todo lo demás.

Una de las claves es que puedes emplear lenguaje natural como el que usarías con una persona cualquiera y Sora te entenderá, ya que ha sido entrenada para ello. Así, permite que introduzcas prompts con instrucciones con todo lujo de detalles sobre los personajes, el tipo de movimiento o la ambientación. Obviamente, también dependerá de tu experiencia y pericia redactando estos comandos.

Su funcionamiento es similar a otros sistemas que hemos visto que pasan de texto a imágenes como el propio DALL-E o MidJourney, pero en este caso generando imágenes en movimiento. No es la primera vez que vemos algo similar, ya que ya existen otras herramientas similares como Pika o Runway, pero sus resultados difieren notablemente. De hecho, el resultado es un vídeo tan detallado y realista que a veces cuesta distinguirlo de uno hecho a la vieja usanza.

Para conseguirlo cuenta con un entrenamiento exhaustivo e intensivo detrás conformado por un extenso catálogo de vídeos. La pregunta del millón es: ¿de dónde los ha sacado?. La práctica de usar vídeos sin permiso ya se ha traducido en demandas importantes contra OpenAI, que parece preferir pedir perdón que permiso. Su base se inspira en los Grandes Modelos de Lenguaje (LLMs), pero en lugar de Tokens, emplea zonas visuales (visual patches). Así, convierte en vídeos la compresión y descompresión de esas zonas de forma consecutiva a lo largo del tiempo. Para implementar el entendimiento del lenguaje, han empleado las mismas que para DALL - E 3.

Esto lo ha conseguido porque es un modelo entrenado con una enorme biblioteca de vídeos, de forma que sabe reconocer movimientos, descripciones y cualquier cosa que le pidas, y será capaz de recrearlos en vídeo. Sabrá a lo que te refieres cuando le hables de tipos de personas, de vestimenta, de accesorios o de efectos visuales.

En Genbeta

Así de increíble ha sido la evolución de la IA para generar vídeos en solo un año: Sora vuelve a repetir lo que hizo ChatGPT

Cómo probar Sora

Aunque Sora se ha anunciado y ya hemos podido verlo en acción, OpenAI explica que todabía se encuentra en fase de formación del equipo rojo. ¿Qué significa exactamente? Que está siendo sometido a pruebas complejas y controvertidas para asegurarse de que no genere contenido dañino o inapropiado.

No obstante, OpenAI también proporciona acceso limitado a una serie de personas compuesta por artistas visuales, diseñadores o cineastas para recibir su feedback y así mejorar el modelo para que sea más útil para profesionales del área creativa. En teoría, una buena medida para que sea vista como una herramienta para beneficiarse de ella en el proceso creativo y no como una amenaza.

Eso sí, por el momento desconocemos cuándo Sora será lanzado oficialmente para uso público y empresarial.

Lo mejor que puedes hacer con Sora

Teniendo en cuenta que no hemos podido meterle mano al estar restringido y que las demos de OpenAI dejan con ganas de más, el CEO de la empresa se ofreció a poner a prueba el software con prompts propuestos al momento por otras personas en X/Twitter. Aquí tienes algunos de los mejores:

Un mago con un sombrero de punta y una túnica azul con estrellas blancas lanzando un hechizo que dispara un rayo desde su mano y sostiene un viejo tomo en la otra mano

Captura De Pantalla 2024 02 17 A Las 10 10 51

Un mitad pato, mitad dragón vuela a través de una hermosa puesta de sol con un hámster vestido con equipo de aventura en su espalda

Captura De Pantalla 2024 02 17 A Las 10 13 12

Altman vuelve a introducir el prompt para obtener un vídeo todavía mejor:

Captura De Pantalla 2024 02 17 A Las 10 15 54

Un recorrido a pie de calle por una ciudad futurista en armonía con la naturaleza y al mismo tiempo cyperpunk / alta tecnología. La ciudad debería estar limpia, con tranvías futuristas avanzados, hermosas fuentes, hologramas gigantes y robots por todas partes. Haz que el video sea de un guía turístico humano del futuro que muestra a un grupo de extraterrestres la ciudad más genial y gloriosa que los humanos son capaces de construir.

Captura De Pantalla 2024 02 17 A Las 10 14 29

Una carrera de drones futurista al atardecer en el planeta Marte

Captura De Pantalla 2024 02 17 A Las 10 16 52

Dos golden retrievers haciendo podcasts en la cima de una montaña

Captura De Pantalla 2024 02 17 A Las 10 18 54

Una clase de cocina para hacer ñoquis caseros organizada por una abuela influencer, ambientada en una cocina rústica de la Toscana con iluminación cinematográfica