Die Entwicklung und der Betrieb von ChatGPT und anderen Anwendungen mit künstlicher Intelligenz sind kostenintensiv: alleine das Training der Ende 2022 veröffentlichten Version von ChatGPT-3 hat Kosten von mehreren Millionen US-Dollar bloß für die Rechenleistung geschluckt. Hinzu kommen Aufwände für die Beschaffung, Aufbereitung und Kennzeichnung von Daten sowie laufende Betriebskosten von etwa 700.000 USD pro Tag (Stand Frühjahr 2023).
Treibt uns diese Entwicklung immer stärker in die Abhängigkeit von Großkonzernen wie OpenAI, Microsoft und Google?
Was sind Kostentreiber für AI?
Training auf GPUs
Neuronale Netze und insbesondere große Sprachmodelle (Large Language Models, LLMs), wie sie für ChatGPT genutzt werden, bestehen aus einer Vielzahl an Parametern, die der Vernetzung zwischen einzelnen Neuronen entsprechen. GPT-3 besteht beispielsweise aus 175 Milliarden Parametern; die 2023 veröffentlichte Version GPT-4 sogar aus 100 Billionen Parametern. Erst durch die richtige Konfiguration dieser Parameter kann das Neuronale Netz auf Fragen und Eingaben sinnvolle Antworten geben und Intelligenz erkennen lassen. Beim Trainieren eines Sprachmodells werden die Parameter aus einer Unmenge an Trainingsdaten (d.h. Kombinationen von Eingabe und erwarteter Ausgabe) berechnet.
Zur Berechnung der Parameter werden dafür typischerweise Grafikkarten (GPUs) verwendet; seit jüngster Zeit auch TPUs (Tensor Processing Units), die speziell für solche Prozesse optimiert wurden. Um das Training eines Sprachmodells in überschaubarer Zeit durchführen zu können, müssen viele der leistungsstärksten GPUs gleichzeitig genutzt werden. Für ChatGPT-3 wären beispielsweise etwa 27 NVIDIA V100 Grafikkarten nötig gewesen, die über 3 Jahre lang durchgehend gerechnet haben müssten, wie beispielsweise Cedric vom Youtube-Kanal TheMorpheusTutorials herleitet. Dies entspricht Kosten zwischen 2 und 5 Millionen US-Dollar.
Heutzutage ist es möglich, diese GPU-Rechenleistung auch über Cloud-Anbieter einkaufen zu können, ohne im physischen Besitz der Grafikkarten zu sein. Die strategische Partnerschaft mit Microsoft ist für OpenAI daher nicht nur aufgrund dessen Investitionsvolumen so wertvoll, sondern auch wegen der angebotenen Cloud-GPU-Rechenleistung.
Trainingsdaten aus öffentlichen Quellen, von Menschen aufbereitet
Rechenleistung allein ist aber wertlos, wenn es keine Trainingsdaten gibt. Fürs Training von ChatGPT wurden neben öffentlich verfügbaren Büchern (wie zB. vom deutschsprachigen Projekt Gutenberg) und Informationsquellen wie Wikipedia auch Ressourcen von CommonCrawl genutzt, einer Sammlung von mehr als 380 Teraybte aller möglichen Daten aus dem Internet. Fürs Training von GPT-3 sind insgesamt 45 Terabyte Rohdaten genutzt worden, aus denen nach grobem Filtern und Aufbereitung 570 GB an Trainingsdaten extrahiert wurden; das entspricht mehreren hundert Milliarden Wörtern an Text.
Weil die Rohdaten im Wesentlichen frei verfügbar waren, fallen Kosten für die Beschaffung von Trainingsdaten kaum ins Gewicht. Eine etwas größere Rolle spielt aber die Aufbereitung und Klassifzierung von Daten. Um beispielsweise ChatGPT beizubringen, welche Texte diskriminierende, sexuelle oder kriminelle Inhalte enthalten, mussten zuvor Beipieltexte dieser Kategorien von Menschen gesichtet und eingeordnet werden. Diese Aufgabe hat OpenAI an einen kenianischen Dienstleister ausgelagert: dieser ließ Mitarbeiter schlechtbezahlt psychisch belastende Texte lesen und klassifizieren, weshalb dieses Vorgehen vielfach kritisiert worden ist. Unabhängig von den niedrigen Löhnen der Dienstleister sind diese Personalkosten fürs Training gering im Vergleich zu den Rechenkosten der Grafikkarten.
Künstliche Intelligenz kostet mehr als bloß Geld
Während der Fokus vieler Analysen auf den finanziellen Voraussetzungen für Training und Betrieb eines Sprachmodells liegt, kostet eine solche Künstliche Intelligenz auch physische Ressourcen. Beispielsweise betrug der Stromverbrauch für das Training von ChatGPT-3 etwa 1000 Megawattstunden, was dem Jahresverbrauch von etwa 200 bis 300 Haushalten entspricht.
Über den laufenden Stromverbrauch macht OpenAI zwar keine Auskunft, doch haben die Entwickler des GPT-3 Konkurrenten „BLOOM“ den Stromverbrauch ihres Sprachmodells untersucht und mit grob 0,004 MWh pro Anfrage beziffert und liegt damit etwa zehnmal so hoch wie bei einer einzelnen Google-Anfrage. Aufgrund der hohen Nutzerzahlen und Vielzahl an Anfragen erreichte ChatGPT alleine im Januar 2023 damit vermutlich einen Stromverbrauch von etwa 10 GWh, also zehnmal so viel wie für das jahrelange Training.
Für die Kühlung der Rechenzentren wird außerdem Wasser benötigt, und trotz vieler Bemühungen um sparsame Kühlsysteme und Recycling besteht nach wie vor ein großer Bedarf an Frischwasser. Jede Unterhaltung mit ChatGPT entspricht dem Verbrauch von etwa einer 500ml Flasche Frischwasser. Forscherinnen stellen außerdem fest, dass der Standort eines Rechenzentrums und die Modernität seines Kühlsystems eine große Rolle spielt: Rechenzentren in Asien haben wohl typischerweise einen dreimal so hohen Verbrauch an Frischwasser wie in den USA.
AI bleibt in Händen von Großkonzernen
Viele Fähigkeiten großer Neuronaler Netze bilden sich auch ohne spezifische Modellierung und gezieltes Training heraus: Rechenfähigkeiten von ChatGPT enstanden beispielsweise lediglich durch das erlernte Sprachverständnis und das Trainieren mit großen Textmengen. Diese emergent properties erfordern aber eine gewisse Größe des Neuronalen Netzes, weshalb sie in früheren kleineren Modellen nicht beobachtet und erwartet worden sind. Der Nutzen von Sprachmodellen skaliert also leider nicht linear mit der Anzahl der Parameter. Nebenbei bemerkt: diese Einschätzung gilt auch bei der Einschätzung im größer werdender Modelle; trotz der fast 1000-mal mehr Parameter bietet ChatGPT-4 wohl nicht unmittelbar einen 1000-mal größeren Nutzen als ChatGPT-3.
Sprachmodelle, die klein genug sind, um mit den Ressourcen einfacher PCs in Privathaushalten auszukommen, sind leider nicht mächtig genug, um einen spürbaren Mehrwert zu generieren. Diese Lücke zwischen enormen technischen Anforderungen intelligenter Systeme und den verfügbaren Rechenkapazitäten in der breiten Bevölkerung führt zu einem Remote-Service-Modell: ChatGPT läuft nicht lokal auf jedem Smartphone, sondern zentral auf Servern von OpenAI bzw. Microsoft; die Internet-Schnittstelle wird aber gegen Bezahlung zur Verfügung gestellt.
Ein solches Remote-Service-Modell favorisiert Großkonzerne, die zum einen größere Investitionen tätigen können, um künstliche Intelligenzen zu trainieren, zum anderen aber auch die Ressourcen bereitstellen können, derartige Services für die breite Masse anbieten zu können. Die Investitionskosten in OpenAI waren beispielsweise enorm: Microsoft hat im Jahr 2019 1 Milliarde US-Dollar investiert und lässt im Jahr 2023 weitere 10 Milliarden Dollar folgen.
Zukünftige Entwicklung von Künstlicher Intelligenz
Sin Open Source Sprachmodelle Konkurrenz zu ChatGPT?
Die OpenSource Community ist sehr aktiv an der Entwicklung neuer Sprachmodelle und technischen Innovationen beteiligt. Ein Beispiel ist die Quantisierung großer Sprachmodelle und ihre Portierung in schnellere Programmiersprachen wie C++ (zB für Metas LLaMA Sprachmodell sowie für den Whisper audio-to-text Übersetzer), sodass diese Anwendungen für eine breitere Masse an Entwicklern zugänglich werden. Auch Stanfords Alpaca LLM, das auf LLaMA aufbaut und der neueste GPT-Kompetitor FalconLLM sind als Open Source Sprachmodelle veröffentlicht worden.
Weil vielen Open Source Projekten finanzstarke Investitoren fehlen, werden verschiedene Wege ausprobiert, um das Rad nicht neu erfinden zu müssen. Stanfords Alpaca LLM ist beispielsweise mithilfe von Ein- und Ausgabetexten trainiert worden, die zuvor von OpenAIs GPT-3.5 generiert worden waren. Und spezielle Methoden, sogenannte Low-Rank Adaptation (LoRA) ermöglichen ein nachträgliches Fine-Tuning bestehender neuronaler Netze mit erheblich reduziertem Aufwand. Ein solches Vorgehen könnte sich langfristig durchsetzen: aufbauend auf generischen Sprachmodellen mit begrenzten Fähigkeiten könnten je nach Bedarf konkretere und komplexere Anwendungen realisiert werden.
Die Entwicklungen der Open Source Community schreiten in einem Tempo voran, das auch EntwicklerInnen aus den führenden Großkonzernen Sorgen und Unsicherheit bereitet: in einem geleakten Dokument einer Google-MitarbeiterIn heißt es beispielsweise „Wir haben keinen Burggraben, und OpenAI auch nicht“ – es ist bislang nicht zu erkennen, dass Microsoft, Google und OpenAI uneinholbar vorne lägen im Rennen um die Vorherrschaft im Bereich künstlicher Intelligenz.
Effizientere Computerchips ermöglichen lokale Neuronale Netze
Ähnlich wie Moore’s Law in der Computerbranche die kontinuierliche Verdichtung von Transistoren und Erhöhung von Rechenleistung pro Computerchip beschreibt, ist eine Entwicklung effizienterer Chips für neuronale Netze zu erwarten. Seit dem Training von GPT-3 auf V100 Tensor Core GPUs hat der Hersteller NVIDIA bereits zwei neuere Chipmodelle auf den Markt gebracht, zuletzt den H100 Tensor Core GPU, der nicht nur dreifach höhere Rechengeschwindigkeit aufweist, sondern auch einen mehr als dreimal so großen Arbeitsspeicher, der die Parallelisierbarkeit von Trainingsoperationen verbessert.
Der größere Arbeitsspeicher erlaubt es aber auch, größere Sprachmodelle mit einer einer einzigen Grafikkarte zu laden und nutzen. Das Falcon-40B Sprachmodell beispielsweise, das im Sommer 2023 veröffentlicht worden ist und wohl eines der leistungsfähigsten Open Source Sprachmodelle darstellt, lässt sich in den 80 GB großen Arbeitsspeicher der NVIDIA H100 Grafikkarte laden und somit lokal in einem abgeschlossenen System außerhalb fremdverwalteter Cloud-Infrastrukturen ausführen.
Alternative: Datenschutz-Zertifizierung für europäische KI-Anbieter
Prinzipiell werden leistungsfähigere Computerchips damit die Abhängigkeiten von Cloud-Providern wie Microsoft, Google und Amazon reduzieren können. Aus meiner Sicht ist es aber dennoch nicht wahrscheinlich, dass zukünftig jedes Unternehmen seine eigenen Grafikkarten zum Ausführen künstlicher Intelligenzen betreiben wird. Der Grund liegt in höheren Kosten aufgrund benötigter Infrastrukturen wie den bereits angesprochenen Kühlsystemen und niedriger Effizienz durch fehlende Skaleneffekte.
Derzeit ist wohl einer der größten Gründe für das lokale Trainieren und Betreiben großer Sprachmodelle die höhere Kontrolle über sensitive Kundendaten und das Einhalten von Datenschutzrichtlinien. Weil bei Remote-Service-Modellen alle Inhalte an Server eines anderen Unternehmens gesendet werden müssen, wird die Kontrolle über jegliche Daten in fremde Hände gegeben. Ein neuronales Netz, das auf einer Grafikkarte in eigenen Räumlichkeiten läuft, kann viele der Datenschutz-Risiken vermeiden.
Einen Ausweg aus dem Dilemma zwischen lokalen, aber nicht skalierbaren Sprachmodellen und den kostengünstigen, aber unkontrollierbaren Remote-Service-Modellen von Anbietern wie OpenAI, Google oder Amazon, würde die Zertifizierung von Cloud-AI-Services bieten. Ich stelle mir vor, es gäbe eine Art TÜV für Unternehmen, die Zugang zu künstlichen Intelligenzen anbieten, der garantieren kann, dass die Daten gemäß strenger europäischer bzw. deutscher Datenschutzrichtlinien verarbeitet und nicht dauerhaft gespeichert oder zu anderen Zwecken weiterverwendet werden. So eine Zertifizierung könnte die höhere Effizienz von Remote-AI-Services ermöglichen, während gleichzeitig Nutzer keine Angst um ihre persönlichen Daten oder ihr geistiges Eigentum haben müssen.
Rebound-Effekt vernichtet Einsparungen in Stromverbrauch
Es wäre töricht, anzunehmen, dass mit effizienteren Computerchips die Kosten oder der Resourcenverbrauch durch ChatGPT und vergleichbare Anwendungen mit großen neuronalen Netzen sinken werden. In vielen Bereichen unseres Lebens begegnet uns regelmäßig der sogenannte Rebound-Effekt, der beschreibt, wie beispielsweise eine verbesserte Kosteneffizienz einen stärkeren Einsatz der Technologie in Produkten ermöglicht, wodurch letztendlich die Kosteneinsparungen wieder aufgefressen werden. Ein Beispiel hierfür sind Computer und Smartphones: zwar kosten Computerchips, die vor 15 Jahren in den ersten Smartphones verbaut waren, heute nur noch einen Bruchteil des ursprünglichen Preises; doch hat die Kostenersparnis dazu geführt, dass heute stattdessen leistungsfähigere Chips verbaut werden, die entsprechend teurer sind. Die gleiche Entwicklung lässt sich leider auch beim Stromverbrauch beobachten: trotz enormer Effizienzsteigerungenverbreauchen Smartphones heutzutage nicht weniger, sondern eher sogar mehr Strom als früher. Eine solche Zukunft steht vermutlich auch neuronalen Netzen und großen Sprachmodellen bevor.
Quellen
- OpenAI’s GPT-3 Language Model: A Technical Overview (lambdalabs.com)
- GPT-3 – Wikipedia
- The GPT-3 economy – TechTalks (bdtechtalks.com)
- Microsoft Readies AI Chip as Machine Learning Costs Surge – The Information
- Ausgebeutet, um die KI zu zähmen – ZEIT Online
- Was kostet der Cloudbetrieb von ChatGPT? – innFactory
- Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model
- ChatGPT’s Electricity Consumption
- Making AI Less „Thirsty“: Uncovering and Addressing the Secret Water Footprint of AI Models
- Google „We Have No Moat, And Neither Does OpenAI“