Gemini Omni

Un modelo de inteligencia artificial multimodal diseñado para la creación y edición avanzada de vídeo a partir de instrucciones conversacionales en lenguaje natural.

Contenidos mostrar

Descripción

El salto cualitativo que encarna Gemini Omni es que actúa como un simulador de entornos; su propósito principal es unificar diferentes tipos de datos (entradas de texto, fotografías y archivos de vídeo) para producir piezas audiovisuales de alta fidelidad, permitiendo a la persona usuaria modificar el resultado final a través de un diálogo continuo con el sistema.

Los clips generados se restringen a una duración máxima de 10 segundos, pero la capacidad de edición de esta herramienta permite que podamos realizar vídeos de mayor duración, usando el clip anterior como referencia para, de ese modo, mantener las características de estilo y contexto, así como una secuencia lógica y fluida.

Características fundamentales

Para comprender el impacto de esta tecnología, es necesario analizar los tres pilares que sustentan su funcionamiento.

1. Comprensión del entorno y leyes físicas

A diferencia de los modelos generativos tradicionales que crean contenido píxel a píxel basándose únicamente en patrones estadísticos, Gemini Omni integra conocimientos de disciplinas como la física, la biología o la historia. Esto se traduce en que los vídeos generados respetan la gravedad, la iluminación natural, la consistencia de los objetos y el contexto histórico o cultural del escenario solicitado.

2. Edición basada en el contexto secuencial

Una de las mayores innovaciones de este modelo es su capacidad de retención de contexto. El proceso de edición no requiere empezar desde cero tras cada cambio; el sistema recuerda las instrucciones previas y mantiene la coherencia visual. Esto permite a los usuarios refinar la escena de manera progresiva mediante la conversación (por ejemplo, solicitando cambiar la iluminación de un plano o modificar el comportamiento de un personaje) sin perder la estructura ya construida.

3. Flexibilidad multimodal

El modelo destaca por su versatilidad en la recepción de estímulos visuales y textuales:

Permite combinar múltiples imágenes estáticas y descripciones de texto para darles vida.
Admite la carga de un archivo de vídeo existente para utilizarlo como base de la simulación o la edición avanzada.

Disponibilidad

Actualmente, esta tecnología se encuentra integrada como una función exclusiva para usuarios con suscripción activa a los planes avanzados de Google, accesible de forma intuitiva a través del menú de herramientas de la plataforma bajo la sección de «Vídeos».