Was ist

Es scheint nur noch drei Arten von erfolgreichen Tech-Konzernen zu geben:

  1. Die einen bauen LLMs.
  2. Die anderen bauen Grafikkarten, mit denen man LLMS bauen kann.
  3. Wer weder KI entwickelt noch Nvidia heißt, verkauft Nutzerdaten.

In die dritte Kategorie fallen Reddit, Tumblr und WordPress:

  • Reddit öffnet seinen Datenschatz für Google, das damit KI-Modelle trainiert und rund 60 Millionen Dollar pro Jahr dafür zahlt (Reuters). Nach vielen Gerüchten und Leaks bestätigte Google den Deal schließlich auch offiziell (Google Blog). Die Vereinbarung geht über Trainingsdaten hinaus. Google wird Informationen von Reddit direkt in der Suche und anderen Produkten anzeigen. Vielleicht führt das dazu, dass etwas weniger Menschen "site:reddit" googeln, weil die Ergebnisse sonst unbrauchbar sind.
  • Tumblr und WordPress gehören zu Automattic, das in großem Stil Daten an Midjourney und OpenAI verkauft (404 Media). Künftig soll es möglich sein, der Datenverwertung per Opt-out zu widersprechen (Automattic). Historische Daten von 2014 bis 2023 wurden aber bereits übermittelt.

Aus Reddits Perspektive ist der Deal nachvollziehbar. Im März steht der Börsengang an, und vorher versucht man, potenziellen Investorïnnen zu zeigen, wie man langfristig Geld verdienen kann. Aus Nutzersicht ist es natürlich trotzdem frustrierend: Ohne User Generated Content wäre Reddit wertlos – und jetzt vermarktet man diese Inhalte auch noch an Google.

Die Enttäuschung über Automattic ist größer. Das Unternehmen galt jahrelang als "einer der Guten", gewissenhaft und am offenen Netz interessiert. Viele Bloggerïnnen empfinden den Deal, der überhaupt erst durch die 404-Recherche öffentlich wurde, als krassen Vertrauensbruch (mkln.org). Jürgen "tante" Geuter ordnet es passend ein:

I don’t think it’s necessary to move away from your self-hosted WordPress instance. Yet. But Automattic has shown their true colors and this goes beyond implementing a new editor you don’t super like or not adding some feature you’d like to see. This is about the things you do, the products of your creativity, your expressions of joy and anger and pain and love and beauty. It’s about a company who used to claim to support writers and other creators deciding that all you do, all the things you care enough to express in whatever imperfect, broken, dumb way are up for grabs to feed to a machine whose expressed purpose is to replace you, to drown your work in the digital equivalent to toxic waste.

Was das bedeutet

  • Die beiden aktuellen Deals sind nur die Spitze des AIsbergs (sorry). Im vergangenen Jahr hat sich das halbe Netz an KI-Konzerne verkauft, darunter auch etliche Medien (Vox).
  • Die Nachrichtenagentur AP lizenziert ihr Archiv an OpenAI, Shutterstock hat ebenfalls einen Sechs-Jahres-Deal mit OpenAI geschlossen. ChatGPT lernt von der Bild-Zeitung, denn auch Axel Springer verkauft Trainingsdaten an OpenAI.
  • Wer noch keinen Vertrag geschlossen hat, zieht vor Gericht – etwa Getty oder die New York Times, deren Klage gegen OpenAI wir im Januar ausführlich analysiert haben (SMWB).
  • Öffentliche Posts auf Facebook und Instagram? Werden natürlich von Meta genutzt, um LLMs zu trainieren. Tweets? Elon Musk macht auch irgendwas mit KI.
  • Vergangenes Jahr analysierte die Washington Post aus dem Netz gescrapte Daten, mit denen die Tech-Konzerne ihre Modelle füttern. Die Erkenntnis: Alles, was nicht bei drei widerspricht und Crawler explizit ausschließt, landet im Datensatz, darunter auch private und sensible Informationen (Scientific American).

Be smart

In den vergangenen anderthalb Jahren hat sich generative KI rasend schnell weiterentwickelt. Vieles spricht dafür, dass sich der Fortschritt verlangsamen wird:

Dieser Artikel ist nur für zahlende Mitglieder

Jetzt Mitglied werden und vollen Zugriff auf alle Artikel erhalten.

Jetzt Mitglied werden Hast du schon einen Account? Einloggen