Sehen Sie, wie Googles KI gewöhnlichen Text in hochwertige Videos verwandelt

Estimated read time 5 min read

Als im Jahr 2022 erstmals hochwertige, durch generative KI erzeugte Bilder auf den Markt kamen, hatten sie einen unbestreitbaren Wow-Faktor. Der kreative Prozess umfasste kaum mehr als die Eingabe einer Textbeschreibung und das Warten darauf, dass das KI-System ein relevantes Bild erzeugte.

Zu dieser Zeit war eine offensichtliche Frage, wann KI-generierte Videos aufholen würden. Tatsächlich haben verschiedene Gruppen seitdem KI-Systeme vorgestellt, die automatisch Videos generieren, jedoch immer mit erheblichen Einschränkungen hinsichtlich ihrer Länge, der Art der realistischen Bewegung, die sie erzeugen können, und ihrer Gesamtqualität.

Eine Möglichkeit, diese Probleme zu lösen, ist rohe Gewalt. Doch diese Rechenleistung erhöht die Kosten deutlich. Daher wurde nach effizienteren und leistungsfähigeren Ansätzen gesucht.

Licht fantastisch

Nun gibt Google an, eine solche Technik entwickelt zu haben, die die Effizienz der Videosynthese dramatisch verbessert. Omer Bar-Tal und Kollegen von Google sagen, dass ihr neues System namens Lumiere Videos produziert, die realistische, vielfältige und kohärente Bewegungen darstellen.

„Wir demonstrieren hochmoderne Ergebnisse der Videogenerierung und zeigen, wie man Lumiere einfach an eine Vielzahl von Aufgaben bei der Erstellung von Videoinhalten anpassen kann, darunter Video-Inpainting, Bild-zu-Video-Generierung oder die Generierung stilisierter Videos, die einem bestimmten Stil entsprechen Bild“, sagen sie.

Ein gängiger Ansatz zur KI-Videosynthese besteht darin, zunächst mehrere Schlüsselbilder in einer Videosequenz zu generieren und diese Bilder dann zur Generierung der dazwischen liegenden fehlenden Bilder zu verwenden.

Eine solche Aufteilung der Aufgabe hat den Vorteil, dass die Rechenanforderungen vereinfacht werden, hat aber auch Nachteile. Insbesondere haben diese Systeme Schwierigkeiten, schnelle Bewegungen zwischen den Schlüsselbildern wiederzugeben.

Bar-Tal und Co. haben einen anderen Ansatz entwickelt, der das gesamte Video gleichzeitig synthetisiert. Dazu trainieren sie ein KI-System, die Dimensionen Zeit und Raum gleich zu behandeln. Dieser Raum-Zeit-Ansatz ermöglicht es der KI, die gesamte Videoausgabe gleichzeitig zu generieren.

Dies steht in krassem Gegensatz zu früheren Bemühungen, die sich nur auf räumliche Veränderungen konzentrieren und gleichzeitig eine feste zeitliche Auflösung beibehalten. Die Raum-Zeit-Darstellung von Google ist deutlich kompakter und damit recheneffizienter. „Überraschenderweise wurde diese Designauswahl von früheren Text-zu-Video-Modellen übersehen“, sagen Bar-Tal und Co.

Ein wichtiger Teil dieses Prozesses ist eine bekannte KI-Technik namens Diffusion, die häufig zur Erstellung einzelner Bilder eingesetzt wird. Das KI-System beginnt mit einem Rahmen, der vollständig aus Rauschen besteht, den es nach und nach an eine erlernte Datenverteilung anpasst, sei es im Zusammenhang mit einer Katze, einem Hund oder einem Astronauten, der auf dem Mars Fahrrad fährt.

Lumiere funktioniert auf die gleiche Weise. Doch statt ein einzelnes Bild zu erzeugen, das einer bestimmten Datenverteilung entspricht, entsteht eine Folge von bis zu 80 Bildern oder, genauer gesagt, eine Darstellung dieser Bilder in Raum-Zeit.

Die KI modifiziert dann diese Darstellung, um sie an eine Datenverteilung anzupassen, die das System durch sein Training an Millionen von Stunden Videomaterial gelernt hat. Anschließend wird die Raum-Zeit-Darstellung in ein gewöhnliches Video entpackt.

Das Ergebnis ist eine fünf Sekunden lange Videosequenz, eine Länge, die laut Google länger ist als die durchschnittliche Aufnahmedauer in den meisten Medien.

Die Ergebnisse sind beeindruckend. Anhand einer Textbeschreibung wie „Ein Panda spielt zu Hause Ukulele“ oder „Fliegen durch einen Tempel in Trümmern, Epos, Nebel“ produziert Lumiere eine hochwertige Videosequenz, die genau diese Dinge zeigt.

Es kann auch mit einem Bild beginnen und dieses auf Wunsch animieren. Bar-Tal und Co. verwenden das berühmte Vermeer-Gemälde Das Mädchen mit dem Perlenohrring und lassen Sie Lumiere es animieren, um das zwinkernde und lächelnde Mädchen zu zeigen.

Geben Sie Lumiere ein Referenzbild, beispielsweise das von Van Gogh Sternenklare Nacht und es wird ein Video im gleichen Stil erstellt. Geben Sie ihm zum Beispiel ein Video von einem Mädchen, das rennt, und es kann es so modifizieren, dass das Mädchen aussieht, als bestünde es aus Blumen oder gestapelten Holzklötzen. Bar-Tal und Co veröffentlichen zahlreiche Beispiele dafür Lumieres Fähigkeiten online.

Das ist eine beeindruckende Arbeit und wirft die offensichtliche Frage auf, wie schnell und zu welchem ​​Preis dies für den normalen Verbraucher verfügbar sein wird. Google gibt derzeit keine Antwort.

Deepfake-Besorgnis

Das Team weist jedoch auf mögliche Probleme hin, die zu gegebener Zeit behoben werden müssen. Es ist nicht schwer, sich vorzustellen, wie böswillige Akteure diese Technologie nutzen könnten, um Deepfakes in epischem Ausmaß zu erstellen, und Bar-Tal und Co. sind eindeutig besorgt.

„Es besteht das Risiko eines Missbrauchs bei der Erstellung gefälschter oder schädlicher Inhalte mit unserer Technologie, und wir glauben, dass es von entscheidender Bedeutung ist, Tools zur Erkennung von Vorurteilen und böswilligen Anwendungsfällen zu entwickeln und anzuwenden, um eine sichere und faire Nutzung zu gewährleisten“, sagen sie.

Sie sind sich nicht ganz im Klaren darüber, wer eine solche Technologie entwickelt oder entwickeln sollte. Für diese Art von Bemühungen ist wahrscheinlich ein Vorfall in der realen Welt erforderlich, um das Problem zu forcieren.

Doch ohne derartige Kontrollen breiten sich die Auswirkungen bereits aus. Die diesjährigen Wahlen in den USA, im Vereinigten Königreich und in der größten Demokratie der Welt in Indien werden bereits zu einem Testgelände für die Art und Weise, wie diese Technologien genutzt werden können.

Die Rolle, die Lumiere und andere ähnliche Systeme spielen werden, muss noch bestimmt werden.


Ref: Lumiere: Ein Raum-Zeit-Diffusionsmodell für die Videoerzeugung: arxiv.org/abs/2401.12945



Image Source

You May Also Like

More From Author

+ There are no comments

Add yours