Was ist

  • Die ganze Tech-Welt spricht über einen faszinierenden Durchbruch: Googles neues Gemini-Modell kann mit einer Million Tokens umgehen … oh, da sind wir wohl in der Zeile verrutscht.
  • Wenige Stunden, nachdem Google sich für die Fähigkeiten von Gemini 1.5 feiern lassen wollte (The Verge), kam OpenAI mit einer Produktpräsentation ums Eck, bei der niemand erklären musste, was Tokens sind und warum das tatsächlich ein großer Fortschritt sein könnte.
  • Das Modell Sora erzeugt bis zu einminütige Videos, die alles in den Schatten stellen, was KI bislang an Bewegtbild generiert hat.
  • Sora ist nicht allgemein zugänglich; momentan können nur einige ausgewählte Sicherheitsforscher und Künstlerinnen damit herumspielen.
  • Die Reaktionen schwanken zwischen grenzenloser Begeisterung, reflexhafter Abwehr und Entsetzen. Wir erklären, warum unserer Meinung nach nichts davon gerechtfertigt ist.

Was war

  • Um zu verdeutlichen, wie schnell KI sich weiterentwickelt, hilft ein Blick in die Vergangenheit. Dabei reicht es, elf Monate zurückzuschauen.
  • Damals gingen Videos des computergenerierten Will Smith viral, der Spaghetti verschlang (Vice).
  • Der Schauspieler ist deutlich zu erkennen, aber offensichtlich nicht real. In den kurzen Clips wirkt das Gesicht verzerrt, fast monströs, unförmige Nudeln wuchern aus der Nase und verschwinden in den Ohren.
  • In den folgenden Monaten veröffentlichten Start-ups wie Pika Labs und Runway neue Modelle. Auch Google stellte mit Lumiere ein KI-Werkzeug vor, um Videos zu erzeugen. Doch nichts reicht an das heran, was OpenAI jetzt mit Sora gelingt.

Was Sora kann

  • Vermutlich hast du mindestens eines der Videos gesehen, die seit Freitag in Medien und Social Media geteilt und besprochen werden.
  • Da läuft eine Frau durch das nächtliche Tokio, der nasse Asphalt reflektiert die neonfarbenen Lichter der Stadt, in den Gläsern ihrer schwarzen Sonnenbrille spiegeln sich die Straßen.
  • Drei Golden-Retriever-Welpen spielen im Schnee, Kristalle und Flocken fliegen in Zeitlupe durch die Luft, jedes Haar des Fells bewegt sich mit.
  • Eine Drohne kreist über der zerklüfteten Steilküste Kaliforniens, im goldenen Licht des Sonnenuntergangs rollen die Wellen majestätisch gegen die Felsen und zerbersten in weißem Schaum.
  • Das kommt dir alles unbekannt vor? Dann empfehlen wir dir entweder die offizielle Ankündigung von OpenAI mit vielen Beispielen oder diesen zehnminütigen Supercut, in dem OpenAI Dutzende kurze KI-Clips aneinander geschnitten hat.
  • Wenn man diese Videos ansieht, fällt es schwer, nicht beeindruckt und ein bisschen besorgt zu sein. Wer nicht ganz genau hinsieht, kann die computergenerierten Clips mit authentischen Aufnahmen verwechseln.
  • Sora kombiniert dafür die Technologien von ChatGPT und dem Bildgenerator DALL-E. Das Modell setzt Videoschnipsel so zusammen, als handle es sich um Wörter.
  • Aus dem Trainingsmaterial hat Sora abgeleitet, wie sich Licht und Schatten zueinander verhalten, was scheinbar reale Bewegungen und Texturen ausmacht, und welche physikalischen Gesetze es zu beachten gilt.
  • Neben der Qualität der Videos hat der letzte Punkt viele Diskussionen ausgelöst. OpenAI hat dazu ein begleitendes Paper veröffentlicht: "Video generation models as world simulators"
  • Die Forscherïnnen gehen davon aus, dass Sora nicht nur Trainingsmaterial nachahmt, sondern ein tieferes Verständnis der physikalischen Welt und der herrschenden Naturgesetze entwickelt. Das könne ein Schritt auf dem Weg zu allgemeiner künstlicher Intelligenz sein.
  • Bislang ist das aber nur eine Behauptung ohne echte Belege. Ob Sora zum Weltensimulator taugt, ist unklar. Andere KI-Koryphäen wie Yann LeCun halten das für nahezu ausgeschlossen (The Decoder).

Was Sora nicht kann

Dieser Artikel ist nur für zahlende Mitglieder

Jetzt Mitglied werden und vollen Zugriff auf alle Artikel erhalten.

Jetzt Mitglied werden Hast du schon einen Account? Einloggen