Gemini Omni llegó para cambiar todo lo que sabías sobre la IA de Google
Este nuevo modelo multimodal puede recibir texto, imágenes, audio y video al mismo tiempo y generar contenido con una calidad sin precedentes
Gemini Omni cuenta con capacidades multimodales que lo ubican entre los más avanzados de la industria Crédito: Google | Cortesía
Google no vino a jugar en su I/O 2026. El gigante tecnológico presentó uno de los lanzamientos más ambiciosos de su historia reciente, y como ya te venimos contando en La Opinión, la compañía está construyendo un ecosistema de inteligencia artificial que ya no se parece en nada a lo que conocíamos hace apenas un año.
En medio de una cascada de anuncios, hubo uno que se robó toda la atención desde el primer momento que apareció en el escenario: Gemini Omni, el nuevo modelo que promete redefinir por completo cómo los usuarios interactúan con la IA de Google.
Y no es exageración. Esto es algo genuinamente diferente.
Lo que hace a Gemini Omni distinto a todo lo anterior
Para entender por qué Gemini Omni importa tanto, hay que entender el problema que existía antes. Los modelos generativos de video, como el propio Veo de Google, funcionaban con lógica de “entrada de texto, salida de video”. Le escribías algo, y el modelo intentaba crearlo. Útil, sí. Pero limitado en comparación con lo que viene ahora.
Gemini Omni es lo que Google llama un modelo “nativamente multimodal”, y eso significa que puede recibir texto, imágenes, audio y clips de video simultáneamente para generar contenido mucho más rico y preciso. No estamos hablando de combinar uno u otro tipo de entrada, sino de mezclar todos al mismo tiempo dentro de un solo prompt para obtener un resultado que ningún modelo anterior podría producir con esa cohesión. El propio Sundar Pichai lo resumió así durante el evento: “Gemini Omni es nuestro nuevo modelo capaz de generar muestras en cualquier modalidad de salida a partir de cualquier dato de entrada”.
Además, el modelo llega integrado con todo el conocimiento y el razonamiento de Gemini, lo que significa que no solo “genera imágenes bonitas”. Entiende el contexto, razona sobre él y luego produce el contenido. Eso es un salto enorme frente a herramientas de video generativo que simplemente interpretan palabras clave.
Y la cerecita del pastel es que Google confirmó que Gemini Omni reemplazará a Veo dentro de la aplicación de Gemini. La era de Veo como modelo de video estelar de la compañía llegó a su fin, y su sucesor es considerablemente más poderoso.
Crear, editar y clonarte: las tres superpotencias de Gemini Omni
Una vez que te sumerges en lo que Gemini Omni puede hacer, el modelo se revela como una especie de estudio de producción audiovisual metido dentro de una app. Sus capacidades se agrupan en tres grandes áreas que, juntas, cambian la experiencia creativa de forma radical.
Lo primero es la generación de video multimodal. Puedes combinar instrucciones escritas, fotografías de referencia, música y clips previos para construir escenas completas desde cero. El resultado es mucho más realista que lo que producían generaciones anteriores, con una precisión especial en elementos que históricamente han sido el talón de Aquiles de la IA generativa, como carteles, subtítulos y personas escribiendo texto en pantalla.
Lo segundo es la edición avanzada de videos existentes, que es quizás el caso de uso más disruptivo. Gemini Omni no solo crea contenido nuevo; también puede tomar una grabación que hiciste con tu celular y modificarla en profundidad. Desde cambiar el ángulo de cámara hasta generar personajes nuevos, alterar la secuencia de escenas o añadir detalles que transforman completamente la narrativa visual. Hablamos de edición de video profesional con lenguaje natural, sin necesidad de tocar un software de edición tradicional.
Lo tercero es la función Avatar, que es donde el modelo se pone verdaderamente futurista. Con solo un prompt de texto, Gemini Omni puede generar videos usando la voz, apariencia y estilo del usuario sin que este tenga que grabarse frente a ninguna cámara. Esta función ya se está lanzando esta semana para usuarios de YouTube Shorts, lo que convierte a cualquier persona con una cuenta en un potencial creador de contenido de video, sin cámara, sin set, sin edición manual.
Disponibilidad de Google Gemini Omni
El acceso inicial no es universal, pero tampoco está reservado para una élite inalcanzable. Google ya activó Gemini Omni Flash —el primer modelo de la familia Omni— en la aplicación de Gemini, en Google Flow y en YouTube Shorts. El acceso completo en la app de Gemini está disponible para usuarios con planes Google AI Plus, Pro y Ultra, todos mayores de 18 años.
Sin embargo, Google tiene claro que necesita llevar esto a la mayor cantidad de personas posible, así que algunas funciones de Omni, especialmente las relacionadas con la creación de Shorts, llegarán de forma gratuita a YouTube en los próximos meses. Desarrolladores y empresas también tendrán acceso mediante APIs que se abrirán en las próximas semanas, lo que abre un campo enorme de posibilidades para integrar esta tecnología en productos externos.
Lo que hay que tener presente es que Gemini Omni apenas empieza. Por ahora el foco está puesto en la generación y edición de video, pero Google adelantó que más adelante el modelo también podrá crear imágenes y audio con la misma lógica multimodal. En otras palabras, lo que vimos en Google I/O 2026 es solo la versión inicial de algo que irá creciendo en capacidades de forma sostenida.
La gran pregunta ya no es si la IA generativa va a transformar la forma en que la gente crea contenido. Eso ya está pasando. La pregunta ahora es qué tan rápido va a llegar Gemini Omni a manos de los usuarios de a pie, y cuánto tiempo tomará que crear un video de calidad sin experiencia técnica se convierta en algo tan normal como publicar una foto en Instagram. Basándonos en lo que Google mostró esta semana, ese momento no está tan lejos.
Sigue leyendo:
• Google anuncia I/O 2026 y pone a la IA en el centro del primer gran evento del año
• Gemini se renueva en Google I/O 2026: más rápido, más inteligente y más integrado
• Google I/O 2026: ahora puedes crear una app para Android con un solo prompt gracias a la IA