Warum Daten der wertvollste Rohstoff des KI-Zeitalters sind

Was ist

Seit mindestens einem Jahrzehnt ist klar, wie wertvoll Daten sein können. Fast alle werbebasierten Geschäftsmodelle beruhen auf gewaltigen Datenschätzen, auf deren Grundlage Anzeigen personalisiert werden. Suchmaschinen und soziale Medien haben deshalb unvorstellbare Mengen an Daten angehäuft.

Doch im Zuge des KI-Booms haben Daten einen neuen Wert gewonnen. Jetzt geht es nicht mehr um Nutzerdaten, sondern um Trainingsdaten. OpenAI und Google füttern GPT-4 und Gemini mit allem, was nicht bei drei widerspricht und Crawler explizit ausschließt. Auch private und sensible Informationen landen in den Datensätzen (Scientific American). Das Urheberrecht? Eher nebensächlich (Axios, SMWB).

Binnen weniger Jahre ist der Datenhunger ins Unermessliche gestiegen. GPT-2 beruhte 2019 auf 1,5 Milliarden Tokens, also Wörtern oder Wortfragmenten. Der Nachfolger GPT-3 erschien 2020 und wurde mit 300 Milliarden Tokens trainiert. Für aktuelle Modelle wurden mehrere Billionen Token verwendet.

Das Problem: Selbst das schier unendlich große Netz ist endlich – zumindest, was qualitativ hochwertige Inhalte angeht. Für halbwegs brauchbare LLMs braucht es gutes Trainingsmaterial, sonst reproduzieren sie Bullshit. Deshalb haben Unternehmen wie Reddit und WordPress begonnen, ihren Datenschatz zu kommerzialisieren.

Sie lizenzieren ihre Archive an Google und OpenAI, ohne die Urheber zu fragen: ihre Nutzerïnnen, die jahrelang fleißig gepostet und gebloggt haben (SWMB). Auch Nachrichtenagenturen, Bilddatenbanken und Verlage wie Axel Springer haben Verträge mit OpenAI geschlossen und verkaufen Trainingsdaten. Heute wurde bekannt, dass auch Adobe seinen Nutzerïnnen mehrere Dollar pro Minute Videomaterial bezahlt, mit denen es KI-Modelle füttern kann (Bloomberg).

Doch auch damit lässt sich Peak Data allenfalls einige Jahre aufschieben. KI-Modelle verschlingen das Material schneller, als Menschen neue Texte erzeugen können (WSJ). Vergangene Woche schrieben wir deshalb (SWMB):

Der Punkt, an dem das Internet leer gelesen ist, könnte schneller kommen, als man denkt. OpenAI denkt bereits darüber nach, künftige Modelle mit Transkripten von YouTube-Videos zu trainieren, weil die Texte ausgehen, die als Tokens für den Input dienen können.

An dieser Stelle knüpfen wir heute an. Denn eine Recherche der New York Times verdeutlicht, welch absurden und teils illegalen Ausmaße die Datensammelwut mittlerweile angenommen hat.

Wie KI-Konzerne um Daten wetteifern

Bereits Ende 2021, also lange vor der Veröffentlichung von ChatGPT, war OpenAI klar: Uns geht das Trainingsmaterial für die nächste Generation unserer Sprachmodelle aus.
Die Forschenden behalfen sich mit einem effektiven, aber fragwürdigen Kniff: Ein Team um Mitgründer Greg Brockman entwickelte das Transkriptions-Werkzeug Whisper. Mithilfe dieses Tools verwandelten sie mehr als eine Million Stunden Videomaterial in Text, der als Trainingsmaterial für GPT-4 diente.
Die Brisanz dieser Anekdote, die die NYT erzählt: Die Videos stammten von YouTube und sind urheberrechtlich geschützt. Je nach Auslegung der Nutzungsbedingungen könnte es illegal sein, die Transkripte für ein kommerzielles Produkt wie ChatGPT zu verwenden.
Auch für seinen Videogenerator Sora könnte sich OpenAI Trainingsmaterial von YouTube einverleibt haben. Zumindest widersprach die technische Chefin Mira Murati dieser Vermutung nicht (YouTube).
YouTube-Chef Neil Mohan behauptet, das verstoße eindeutig gegen die Nutzungsbedingungen (Bloomberg).
Mit dieser Aussage begibt er sich auf dünnes Eis. Denn der Datenhunger von YouTubes Mutterkonzern Alphabet steht OpenAI in nichts nach. Der NYT zufolge trainiert auch Google seine Sprachmodelle mit YouTube-Transkripten – und könnte damit das Urheberrecht der Creator verletzen.
Angeblich wussten einige Google-Angestellte über das Vorgehen von OpenAI Bescheid. Sie sollen aber nicht eingegriffen haben, weil ihnen klar gewesen sei, dass man selbst genau das Gleiche praktiziere. Ein Google-Sprecher widerspricht dieser Darstellung.
Im vergangenen Jahr änderte Google seine Nutzungsbedingungen, um unter anderem Daten aus öffentliche Google Docs und Rezensionen aus Google Maps für das KI-Training verwenden zu können. Glaubt man der NYT, war das Datum bewusst gewählt:

The team was told specifically to release the new terms on the Fourth of July weekend, when people were typically focused on the holiday, the employees said. The revised policy debuted on July 1, at the start of the long weekend.

Und was ist mit Meta, dem dritten großen KI-Konzern? Zur großen Überraschung von exakt niemandem hat Mark Zuckerberg bei Sprachmodellen dieselben Prioritäten wie bei sozialen Netzwerken: Wachstum first, Ethik und Moral second.

At Meta, which owns Facebook and Instagram, managers, lawyers and engineers last year discussed buying the publishing house Simon & Schuster to procure long works, according to recordings of internal meetings obtained by The Times. They also conferred on gathering copyrighted data from across the internet, even if that meant facing lawsuits. (…) Mr. Zuckerberg demanded a solution, employees said.

Zwischen März und April sollen sich die zuständigen Teams fast täglich getroffen haben, um über das Datenproblem zu sprechen. Die Milliarden Posts auf Facebook und Instagram eignen sich nur eingeschränkt als Trainingsmaterial, weil Nutzerïnnen dort nur selten längere Inhalte verfassen. Also mussten andere Quellen her:

They also talked about how they had summarized books, essays and other works from the internet without permission and discussed sucking up more, even if that meant facing lawsuits. One lawyer warned of “ethical” concerns around taking intellectual property from artists but was met with silence, according to the recordings.

Am Ende setzte sich ein zweifelhaftes Argument durch: Man glaube, dass OpenAI keine Rücksicht auf das Urheberrecht nehme – also bleibe Meta keine andere Wahl, als genauso vorzugehen:

Meta’s executives said OpenAI seemed to have used copyrighted material without permission. It would take Meta too long to negotiate licenses with publishers, artists, musicians and the news industry, they said, according to the recordings.

Wie synthetische Daten helfen könnten

Menschen produzieren nicht mehr genug Texte, um KI zu trainieren. Was man da wohl machen könnte? Na klar, das lässt sich doch bestimmt automatisieren.
Gesagt, getan: Der neue heiße Shi#$ im KI-Wunderland sind synthetische Daten. Das bedeutet: KI soll Material erzeugen, um KI zu trainieren.
Und als wäre das nicht schon genug KI, soll ein weiteres KI-Modell zuerst prüfen, ob sich das KI-generierte Material überhaupt eignet, um andere Modelle damit zu füttern (NYT)

OpenAI and others have explored a technique where two different A.I. models work together to generate synthetic data that is more useful and reliable.
One A.I. model generates the data. Then a second model judges the data, much like a human would, deciding whether the data is good or bad, accurate or not. A.I. models are actually better at judging text than writing it.

Warum das riskant ist

Im vergangenen Juni erklärten wir, warum die Qualität von LLMs massiv nachlässt, wenn sie mit Inhalten trainiert werden, die von anderen LLMs stammen (SMWB).
Selbst KI-Forscherïnnen wissen nicht genau, wie LLMs funktionieren. Wenn der Output nicht passt, verändern sie den Input, bis sie zufrieden sind. Der Prozess des Deep Learnings, bei dem die neuronalen Netze die neuen Informationen verarbeiten, bleibt eine Blackbox.