Der Realismus des Sora-Videogenerators von OpenAI wirft Sicherheitsbedenken auf

Estimated read time 5 min read

Das KI-Programm Sora generierte auf Basis einer Textaufforderung ein Video mit dieser künstlichen Frau

Sora/OpenAI

OpenAI hat sein neuestes künstliches Intelligenzsystem vorgestellt, ein Programm namens Sora, das Textbeschreibungen in fotorealistische Videos umwandeln kann. Das Modell der Videogenerierung schürt die Begeisterung über die Weiterentwicklung der KI-Technologie und sorgt gleichzeitig für wachsende Besorgnis darüber, wie künstliche Deepfake-Videos Fehlinformationen und Desinformation in einem entscheidenden Wahljahr weltweit verschlimmern.

Das Sora AI-Modell kann derzeit Videos mit einer Länge von bis zu 60 Sekunden erstellen, indem es entweder nur Textanweisungen oder Text in Kombination mit einem Bild verwendet. Ein Demonstrationsvideo beginnt mit einer Textaufforderung, die beschreibt, wie „eine stilvolle Frau eine Straße in Tokio entlang geht, die mit warm leuchtenden Neonlichtern und animierten Stadtschildern gefüllt ist“. Weitere Beispiele sind ein im Schnee herumtollender Hund, auf Straßen fahrende Fahrzeuge und fantastischere Szenarien wie Haie, die in der Luft zwischen Wolkenkratzern in der Stadt schwimmen.

„Wie bei anderen Techniken der generativen KI gibt es keinen Grund zu der Annahme, dass sich Text-to-Video nicht weiterhin rasch verbessern wird – was uns einer Zeit immer näher bringt, in der es schwierig sein wird, die Fälschung von der Realität zu unterscheiden.“ sagt Hany Farid an der University of California, Berkeley. „Diese Technologie könnte, wenn sie mit KI-gestütztem Stimmenklonen kombiniert wird, eine völlig neue Front eröffnen, wenn es darum geht, Deepfakes von Menschen zu erstellen, die Dinge sagen und tun, die sie nie getan haben.“

Sora basiert teilweise auf den bereits vorhandenen Technologien von OpenAI, wie dem Bildgenerator DALL-E und den großen GPT-Sprachmodellen. Text-zu-Video-KI-Modelle hinken in Bezug auf Realismus und Zugänglichkeit etwas hinter diesen anderen Technologien zurück, aber die Sora-Demonstration sei „um eine Größenordnung glaubwürdiger und weniger cartoonhaft“ als alles, was es zuvor gab, heißt es Rachel TobacMitbegründer von SocialProof Security, einer White-Hat-Hacking-Organisation mit Schwerpunkt auf Social Engineering.

Um dieses höhere Maß an Realismus zu erreichen, kombiniert Sora zwei verschiedene KI-Ansätze. Das erste ist ein Diffusionsmodell, das denen ähnelt, die in KI-Bildgeneratoren wie DALL-E verwendet werden. Diese Modelle lernen, zufällige Bildpixel schrittweise in ein kohärentes Bild umzuwandeln. Die zweite KI-Technik heißt „Transformer-Architektur“ und dient der Kontextualisierung und Zusammenfügung sequenzieller Daten. Große Sprachmodelle verwenden beispielsweise eine Transformatorarchitektur, um Wörter zu allgemein verständlichen Sätzen zusammenzusetzen. In diesem Fall zerlegte OpenAI Videoclips in visuelle „Raumzeit-Patches“, die Soras Transformer-Architektur verarbeiten konnte.

Soras Videos enthalten immer noch viele Fehler, wie etwa das Vertauschen der linken und rechten Beine eines gehenden Menschen, einen zufällig in der Luft schwebenden Stuhl oder einen angebissenen Keks, der auf magische Weise keine Bissspur aufweist. Trotzdem, Jim Fanein leitender Forschungswissenschaftler bei NVIDIA, nutzte die Social-Media-Plattform X, um Sora als „datengesteuerte Physik-Engine“ zu loben, die Welten simulieren kann.

Die Tatsache, dass Soras Videos bei der Darstellung komplexer Szenen mit viel Bewegung immer noch einige seltsame Störungen aufweisen, deutet darauf hin, dass solche Deepfake-Videos vorerst erkennbar sein werden, sagt er Arvind Narayanan an der Princeton University. Er warnte aber auch davor, dass wir auf lange Sicht „andere Wege finden müssen, uns als Gesellschaft anzupassen“.


OpenAI hat sich damit zurückgehalten, Sora öffentlich zugänglich zu machen, während es „Red-Team“-Übungen durchführt, bei denen Experten versuchen, die Sicherheitsvorkehrungen des KI-Modells zu durchbrechen, um dessen Missbrauchspotenzial einzuschätzen. Die ausgewählte Gruppe von Personen, die Sora derzeit testen, sind „Domänenexperten in Bereichen wie Fehlinformationen, hasserfüllte Inhalte und Voreingenommenheit“, sagt ein OpenAI-Sprecher.

Diese Tests sind von entscheidender Bedeutung, da künstliche Videos dazu führen könnten, dass schlechte Schauspieler falsches Filmmaterial erzeugen, um beispielsweise jemanden zu belästigen oder eine politische Wahl zu beeinflussen. Fehlinformationen und Desinformationen, die durch KI-generierte Deepfakes angeheizt werden, stellen ein großes Problem dar für Führungskräfte in Wissenschaft, Wirtschaft, Regierung und anderen Sektoren sowie für KI-Experten.

„Sora ist absolut in der Lage, Videos zu erstellen, die normale Leute täuschen könnten“, sagt Tobac. „Videos müssen nicht perfekt sein, um glaubwürdig zu sein, da vielen Menschen immer noch nicht klar ist, dass Videos genauso leicht manipuliert werden können wie Bilder.“

KI-Unternehmen müssen mit sozialen Netzwerken und Regierungen zusammenarbeiten, um das Ausmaß an Fehlinformationen und Desinformationen zu bewältigen, die wahrscheinlich auftreten werden, sobald Sora für die Öffentlichkeit zugänglich wird, sagt Tobac. Zu den Abwehrmaßnahmen könnte die Implementierung eindeutiger Kennungen oder „Wasserzeichen“ für KI-generierte Inhalte gehören.

Auf die Frage, ob OpenAI Pläne habe, Sora im Jahr 2024 breiter verfügbar zu machen, beschrieb der OpenAI-Sprecher, dass das Unternehmen „mehrere wichtige Sicherheitsschritte unternimmt, bevor Sora in den Produkten von OpenAI verfügbar gemacht wird“. Beispielsweise setzt das Unternehmen bereits automatisierte Prozesse ein, um zu verhindern, dass seine kommerziellen KI-Modelle Darstellungen von extremer Gewalt, sexuellen Inhalten, hasserfüllten Bildern und echten Politikern oder Prominenten generieren. Mit mehr Menschen als je zuvor Teilnahme an den diesjährigen Wahlenwerden diese Sicherheitsmaßnahmen von entscheidender Bedeutung sein.

Themen:





Image Source

You May Also Like

More From Author

+ There are no comments

Add yours