Veo vs Sora
En la conferencia I/O, Google presentó Veo, una herramienta de inteligencia artificial especializada en la generación de videos. Un proyecto anunciado unos meses después del de OpenAI (Sora).
Es, en resumen, la respuesta del pastor a la pastora. A mediados de febrero, OpenAI causó sensación al presentar Sora, una inteligencia artificial generativa capaz de crear videos. El anuncio se realizó al día siguiente del lanzamiento de Gemini 1.5, con el fin de interrumpir la comunicación de Google. Hoy, es el turno de la respuesta de la empresa de Mountain View.
Durante la conferencia Google I/O 2024, que se celebra este 14 de mayo en Estados Unidos, Demis Hassabis presentó el rival hecho en Google de Sora: Veo. Al igual que Sora, Veo está diseñado para producir videos que pueden alcanzar un alto grado de fotorrealismo, gracias a un simple prompt, es decir, una instrucción escrita del usuario.
TE PUEDE INTERESAR: La Google I/O 2024: ¿Fin de la era Android? Google apuesta por la IA
Pero Veo también puede aceptar instrucciones de otro tipo: pueden ser fotografías o videos, lo que le da a la herramienta una dimensión multimodal. La herramienta puede manejar diferentes estilos y también proporcionar una serie de iteraciones sobre un mismo video, si se le dan prompts adicionales, exactamente como ChatGPT, por ejemplo.
Videos 1080p y de más de un minuto con Veo
«Nuestro equipo ha logrado avances increíbles en el campo de la generación de videos», se felicitó Demis Hassabis, quien dirige DeepMind, una de las filiales de Google especializadas en IA. El interesado indicó además que la calidad visual de los resultados alcanza la alta definición (1080p), con una duración que puede superar el minuto.
Una precisión notable, donde OpenAI ha dicho que Sora se limita a 60 segundos. Además, Demis Hassabis sugirió que Veo podría tener próximamente nuevas mejoras, para generar escenas más largas o para recibir diversas funcionalidades, aunque los detalles en este aspecto aún son escasos.
En el escenario, se proyectaron varias secuencias en la pantalla, con una mención que aseguraba que los visuales no fueron retocados después de los prompts. En X (antes Twitter), la cuenta de DeepMind también publicó varios tuits en dos hilos de discusión. En cada mensaje, la filial de Google ofrece un prompt y un resultado en video.
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Demis Hassabis también aprovechó para aclarar algunas cosas. Ciertamente, OpenAI atrajo la atención a principios de año con Sora. Pero insistió en la inversión a largo plazo de Google en la IA generativa de videos. En el escenario, citó varios proyectos en los que los equipos del grupo han trabajado: GQN, Phenaki, Walt, VideoPoet o Lumiere.
Veo está disponible a título experimental en Gemini, en la sección para convertir texto en video.