Google lanza Veo, su modelo de video generativo, y adelanta a OpenAI

Google lanza Veo, su modelo de video generativo, en una vista previa privada para empresas, adelantándose al esperado Sora de OpenAI, que aún no tiene fecha de lanzamiento.

Por Redacción Kenja6 de diciembre de 2024, 8:00 p. m.

Google ha tomado la delantera en la carrera por la creación de videos generativos con el lanzamiento de Veo, su modelo de inteligencia artificial capaz de generar clips de video de alta calidad en resolución 1080p. Tras haber sido presentado en mayo, Veo ahora está disponible en vista previa privada a través de la plataforma Vertex AI de Google, superando a Sora, la oferta de OpenAI que aún no se ha lanzado al mercado.

Veo promete revolucionar la creación de contenido, permitiendo a las empresas generar videos de diversos estilos visuales y cinematográficos a partir de indicaciones de texto o imágenes. Si bien los primeros anuncios de Google mencionaban que los videos podían durar “más de un minuto”, no se han especificado límites de duración para esta versión preliminar.

Los resultados son impactantes: los videos generados son tan realistas que es difícil distinguirlos de material grabado con cámaras reales. Por ejemplo, un clip de un perro es especialmente impresionante; los detalles en el movimiento del pelaje y el collar se mantienen consistentes durante toda la secuencia, un desafío técnico que demuestra el nivel de refinamiento de Veo.

Sin embargo, el modelo no es perfecto. En un ejemplo de un concierto generado por IA, se nota cómo la luz atraviesa la mano de una persona en la esquina superior izquierda del video, un error que resalta los límites actuales de esta tecnología.

Además de Veo, Google ha anunciado que la última versión de su generador de imágenes por texto, Imagen 3, estará disponible para todos los clientes de Google Cloud a partir de la próxima semana. Imagen 3, inicialmente lanzado en la AI Test Kitchen en agosto, ahora incluye herramientas como edición fotográfica basada en indicaciones y la capacidad de incorporar elementos personalizados como marcas, logotipos o estilos propios.

Tanto Veo como Imagen 3 cuentan con salvaguardas integradas para evitar la generación de contenido dañino o que infrinja derechos de autor. Todo el material creado con estos modelos incluye la tecnología SynthID de DeepMind, una marca de agua digital invisible que ayuda a prevenir la desinformación y la atribución errónea, una solución similar a las Content Credentials de Adobe.

Mientras Veo ya está disponible para las empresas, OpenAI enfrenta la presión del tiempo para cumplir su promesa de lanzar Sora antes de que termine 2024. En un contexto donde el 86 % de las organizaciones que usan inteligencia artificial generativa reportan un aumento en ingresos, el retraso podría costarle caro a OpenAI.

La llegada de modelos como Veo no solo marca un cambio en cómo se produce el contenido audiovisual, sino también en cómo lo consumimos y confiamos en él. En un mundo donde la línea entre lo real y lo generado por IA se difumina, la ética y la transparencia se vuelven más relevantes que nunca.