Gemini Omni vorgestellt: Google verbindet KI-Reasoning mit Video-Generierung der nächsten Generation

Philipp Briel
Philipp Briel · 4 Min. Lesezeit
Gemini-App für macOS
Bild: Google

Mit Gemini Omni erweitert Google seine Gemini-Plattform um ein neues multimodales KI-Modell, das Inhalte nicht nur analysieren, sondern auch kreativ erzeugen kann. Im Mittelpunkt steht zunächst die Erstellung und Bearbeitung von Videos per natürlicher Sprache. Dabei kombiniert Gemini Omni verschiedene Eingabequellen wie Text, Bilder, Audio und Videos zu neuen Inhalten. Besonders interessant wirkt die Verbindung aus KI-gestütztem Reasoning, realistischer Physik-Simulation und kontextbezogenem Storytelling. Die erste Version namens Gemini Omni Flash startet ab sofort für ausgewählte Google-Dienste.

  • Multimodales KI-Modell für Videoerstellung und Bearbeitung per Spracheingabe
  • Unterstützung für Text-, Bild-, Video- und Audio-Inputs
  • Verbesserte Physikdarstellung und kontextbezogenes KI-Reasoning
  • Start über Gemini-App, Google Flow und YouTube Shorts

Gemini Omni soll KI-Videoerstellung deutlich intelligenter machen

Mit Gemini Omni verfolgt Google einen neuen Ansatz für generative KI. Während viele aktuelle KI-Tools primär auf einzelne Medienformate spezialisiert sind, setzt Omni vollständig auf Multimodalität. Das Modell verarbeitet unterschiedliche Eingaben gleichzeitig und erstellt daraus zusammenhängende Video-Inhalte. Nutzer können beispielsweise ein Bild, einen kurzen Videoclip, Musik und Textbeschreibungen kombinieren, um daraus ein neues Video zu generieren.

Besonders auffällig ist der Fokus auf dialogbasierte Videobearbeitung. Änderungen werden per natürlicher Sprache vorgenommen und bauen logisch aufeinander auf. Laut Google bleiben Figuren, Szenen und Bewegungsabläufe dabei konsistent erhalten. Dadurch könnten komplexe Bearbeitungsprozesse deutlich einfacher werden als bei klassischen Schnittprogrammen.

Sie sehen gerade einen Platzhalterinhalt von YouTube. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Mehr Informationen

Plausibel erscheint vor allem die stärkere Integration von sogenanntem „Reasoning“. Gemini Omni analysiert nicht nur visuelle Muster, sondern berücksichtigt laut Google auch physikalische Abläufe sowie historisches oder kulturelles Wissen. Dadurch sollen Szenen realistischer und inhaltlich nachvollziehbarer wirken. Beispiele wie realistische Kettenreaktionen, Flüssigkeitsbewegungen oder Stop-Motion-Erklärvideos zeigen klar, dass Google die KI nicht nur als Bildgenerator versteht, sondern als kreatives Produktionswerkzeug mit kontextuellem Verständnis.

Interessant ist außerdem die Möglichkeit, bestehende Videos flexibel umzuwandeln. Inhalte lassen sich per Textanweisung stilistisch verändern oder um neue Elemente erweitern, ohne dass der ursprüngliche Szenenaufbau verloren geht. Gerade für Social-Media-Creator, Marketing-Teams oder Content-Produzenten könnte dies erhebliche Zeitersparnisse bringen.

Gemini Omni Flash startet mit Fokus auf Video und KI-Avatare

Zum Start veröffentlicht Google zunächst Gemini Omni Flash, das erste Modell der neuen Omni-Familie. Die aktuelle Version konzentriert sich primär auf die Videoerstellung, während weitere Ausgabemodalitäten wie Bilder oder Audio künftig folgen sollen. Bereits jetzt unterstützt das Modell jedoch kombinierte Eingaben aus Bildern, Texten, Videos und Sprachreferenzen.

Ein weiterer Schwerpunkt liegt auf digitalen KI-Avataren. Nutzer können laut Google künftig eine digitale Version ihrer eigenen Stimme und Erscheinung erstellen, um automatisch generierte Videos mit persönlichem Charakter zu produzieren. Gleichzeitig betont das Unternehmen die Bedeutung von Sicherheitsmechanismen und Transparenz. Alle mit Gemini Omni erzeugten Videos erhalten standardmäßig das unsichtbare SynthID-Wasserzeichen, das KI-generierte Inhalte identifizierbar machen soll.

Technisch wirkt der Ansatz nachvollziehbar, da Google bereits mit früheren Gemini-Versionen sowie der Bild-KI Nano Banana umfangreiche Erfahrung im multimodalen KI-Bereich gesammelt hat. Die nun vorgestellte Erweiterung in Richtung Videoproduktion gilt daher als logischer nächster Schritt.

Gemini Omni Flash wird zunächst für Google AI Plus-, Pro- und Ultra-Abonnenten in der Gemini-App sowie in Google Flow ausgerollt. Zusätzlich integriert Google die Technologie ohne Zusatzkosten in YouTube Shorts und die YouTube Create App. APIs für Entwickler und Unternehmen sollen in den kommenden Wochen folgen.

Fazit

Mit Gemini Omni erweitert Google generative KI um einen deutlich kreativeren und stärker kontextbezogenen Ansatz. Die Kombination aus multimodaler Verarbeitung, natürlicher Videobearbeitung und KI-Reasoning könnte die Erstellung digitaler Inhalte erheblich vereinfachen. Besonders die Fähigkeit, Videos per Spracheingabe flexibel anzupassen und verschiedene Medienquellen intelligent zu kombinieren, hebt Gemini Omni von vielen bisherigen KI-Tools ab. Gemini Omni Flash wird ab sofort schrittweise für Google-Dienste und ausgewählte Abonnements ausgerollt.