Text Steve Mills ––– Fotografie
In traditionellen Fertigungen werden Rohstoffe so effizient wie möglich angereichert, zusammengesetzt und in Produkte umgewandelt. AI-Fabriken arbeiten nach einem ähnlichen Prinzip: Sie verarbeiten riesige Mengen unstrukturierter Daten wie Text, Bilder, Audio und Video. Mit Hilfe verschiedener maschineller Lernmodelle erzeugen sie intelligente Ergebnisse in Form von sogenannten Tokens. Dazu gehören zum Beispiel Kalkulationen, Empfehlungen, Erkenntnisse und Entscheidungen, die alles von personalisierten Feeds bis hin zu medizinischen Diagnosen und wissenschaftlichen Durchbrüchen ermöglichen. Für Firmen wie Meta liefern die von einer AI-Fabrik generierten Tokens reichhaltigere, relevantere Inhalte, die ein umfassendes und nachhaltiges Nutzererlebnis ermöglichen. Ob es darum geht, das nächste Video vorzuschlagen, auf schädliche Inhalte hinzuweisen oder Sprachen in Echtzeit zu übersetzen – eine AI-Fabrik ist ein Motor für neue Chancen.
Auswirkung auf IT-Infrastrukturen
Aufgrund der komplexer und leistungsfähiger werdenden AI-Modelle wird auch die Leistungsdichte der Systeme drastisch zunehmen. Noch vor ein paar Jahren wurden AI-Racks mit 10 bis 20 kW betrieben. Heute kommen sie auf eine Leistung von 100 kW, und in einigen Jahren werden sie voraussichtlich 1 Megawatt pro Rack erreichen. Dieser exponentielle Sprung wird durch Innovationen in der AI-Gerätetechnik und in der Systementwicklung vorangetrieben. Hier werden die Komponenten dichter gepackt, um die Latenzzeit und den Energieverbrauch zu reduzieren, die für die Produktion eines jeden Tokens erforderlich sind. Die Systemdichte verbessert zwar die Effizienz, erfordert aber auch schnelle Veränderungen.
Diese Entwicklung verändert auch das Design von Rechenzentren von Grund auf und führt zu einer neuen Generation von AI-optimierten Infrastrukturen. Folgende Trends zeichnen sich ab:
Umstellung auf Gleichstrom (DC)
Herkömmliche Rechenzentren basieren auf einer Wechselstromverteilung mit zahlreichen Netzteilen in jedem Rack, die Wechselstrom in 12 V Gleichstrom für die elektronischen Komponenten umwandeln. Dieses Modell ist jedoch für AI-Workloads mit hoher Packungsdichte nicht mehr effizient. Bei AI-Fabriken geht der Trend hin zu ±400 V Gleichstromverteilung mit Sammelschienen und zentralisierten Powershelves, ähnlich wie bei der Open-Rack-Architektur im Rahmen des Open Compute Project. Diese Verlagerung ermöglicht eine effizientere Stromversorgung, reduziert Umwandlungsverluste und minimiert die Größe der Stromversorgungsinfrastruktur innerhalb des Racks. Aufgrund des steigenden Strombedarfs werden in Rechenzentren zunehmend Gleichstromverteilungssysteme mit 400, 800 oder sogar 1200 V eingesetzt, um die Effizienz und Skalierbarkeit weiter zu verbessern.
Flüssigkeitskühlung setzt sich durch
Stromversorgung für AI-Systeme erfordert Flüssigkeitskühlung, da herkömmliche Luftkühlung für AI-Arbeitslasten mit hoher Dichte nicht mehr ausreicht. Flüssigkeitskühlung gibt es im Bereich des Supercomputing seit den 1960er-Jahren. Derzeit wird diese Technik für moderne Nischenanwendungen wie etwa Krypto-Mining verwendet, sie muss jetzt aber schnell an die Anforderungen der AI-Infrastruktur angepasst werden.
AI-Fabriken setzen derzeit bei dieser Produktgeneration auf einphasige Flüssigkeitskühlung, und in naher Zukunft werden in der Kühlungstechnik weitere Neuheiten auf den Markt kommen. Diese Systeme bieten eine deutlich höhere Wärmeleistung und ermöglichen somit eine höhere Packungsdichte bei gleichzeitig zuverlässigerem Betrieb. Der Einsatz von Flüssigkeitskühlung in großem Maßstab erfordert jedoch erhebliche Änderungen beim Design von Rechenzentren, einschließlich neuer Komponenten, Betriebsabläufe und Wartungsprotokolle.
Wiederverwendung von Energie
Einer der Vorteile von AI-Arbeitslasten mit hoher Dichte ist das erhitzte und aus den AI-Systemen stammende Kühlmittel. Die im Kühlmittel gespeicherte Energie steht für weitere nützliche Anwendungen zur Verfügung. Anstatt diese Wärme an die Umwelt abzugeben, können AI-Fabriken sie in Fernwärmesysteme einspeisen, um Häuser und Betriebe zu beheizen, industrielle Prozesse vorzuwärmen oder die Landwirtschaft in nördlichen Regionen zu unterstützen und gleichzeitig die Energiekosten sowie die Umweltbelastung zu senken.
Ähnlich wie die industrielle Revolution das verarbeitende Gewerbe verändert hat, wird der Aufstieg der AI-Fabriken auch die digitale Wirtschaft verändern. Wir stehen an der Schwelle zu dieser neuen Ära, und die Konvergenz von Daten, Rechenleistung und Infrastruktur wird das nächste Kapitel des menschlichen Fortschritts einleiten – ein Token nach dem anderen.