Mientras OpenAI se afana en probar ChatGPT-4 para comprobar su seguridad y anuncia las principales funcionalidades de su futura IA multimodal GPT-5 para competir de tú a tú con Gemini, ciertamente parece que la compañía de nuevo encabezada por Sam Altman quiere continuar liderando una industria que casi iniciaron ellos, y cuya evolución asusta un poco pues hasta el 60% de los puestos de trabajo del mundo podrían peligrar a manos de la IA.
Sea como fuere, y mientras OpenAI da forma a ese buscador que tanto se ha rumoreado para jugar también en casa de Google, lo cierto es que la empresa con base en San Francisco, California, nos acaba de presentar su primera herramienta de IA para crear vídeo sintético a partir de texto de forma directa. Casi magia, vaya…
La propia OpenAI la presenta en su sitio web con la denominación de Sora, hablando muy bien de un modelo que todavía tendrá que crecer:
Sora es un modelo de IA que puede crear escenas realistas e imaginativas a partir de instrucciones de texto. […] Puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y cumpliendo con las indicaciones del usuario.
Dice la empresa de Altman que por ahora están en fase de “enseñar a la IA a comprender y simular el entorno físico en movimiento”, aunque en realidad parece que Sora funciona ya la mar de bien atendiendo a los vídeos que nos presentan como ejemplos, todos ellos generados mediante IA a partir de instrucciones de texto plano sin más fantasías.
Sora es por ahora una herramienta en desarrollo y no accesible, pero OpenAI ha querido compartir sus avances con nosotros para que los primeros betatesters puedan ir probándola y ofreciendo sus comentarios para completar su desarrollo y mejorarla al máximo antes de una lanzamiento comercial.
Respecto a sus capacidades, puede generar vídeos de hasta un minuto de duración cumpliendo con las indicaciones que le ofrezcamos a través de texto, manteniendo además la calidad visual y el entorno generado con cierto criterio. De hecho, es que Sora puede generar escenas complejas, múltiples personajes incluyendo animales o cosas, así como crear movimientos y mantener los detalles precisos del fondo de la escena.
Dice la empresa norteamericana que “el modelo comprende no sólo lo que el usuario ha pedido, sino también cómo existen y funcionan esas cosas en el mundo real”, algo que nos parece bastante impresionante.
Obviamente en un producto no terminado, por ahora tiene algunas lagunas. A veces se pierde simulando las físicas en las escenas más complejas, pudiendo además confundirse con las causas y efectos de ciertos movimientos o acciones. Algunos ejemplos que hemos visto en los vídeos son movimientos físicamente imposibles, duplicación o desaparición de sujetos e incluso velas que no se apagan al soplar…
Tendrá que mejorar y la velocidad que vas esto lo hará rapidísimo, pero el futuro que nos quieren ir adelantando desde OpenAI no sé definirlo. Ahora mismo, me debato entre tres adjetivos: impresionante, interesante o aterrador.
Con información de Vanguardia