LLM-Schulung Cluster-Netzwerkdesign: Architektonische Grundlagen für großflächige KI-Infrastrukturen

Einführung

Bei der Skalierung großer Sprachmodelle (LLMs) und Diffusionsmodelle auf Hunderte von Milliarden Parametern wird die Netzwerkinfrastruktur zu einem kritischen Engpass. Moderne KI-Trainingscluster erfordern beispiellose Bandbreite, extrem niedrige Latenz und deterministische Leistung. Dieser Artikel untersucht die zentralen Netzwerkdesignprinzipien, die ein effizientes verteiltes Training in großem Umfang ermöglichen.

Die Netzwerkherausforderung im LLM-Training

Das Training von Modellen im GPT-Maßstab erfordert die Synchronisierung von Gradienten über Tausende von GPUs hinweg. In jeder Trainingsiteration muss jede GPU Parameteraktualisierungen mit ihren Kollegen austauschen – ein Prozess, der als All-Reduce bezeichnet wird. Bei einem Modell mit 175 Milliarden Parametern, das auf 1.024 GPUs trainiert wird, überträgt jede All-Reduce-Operation etwa 700 GB Daten.

Wichtige Netzwerkanforderungen:

  • Bandbreite: 400 Gbit/s bis 800 Gbit/s pro GPU, um Netzwerkausfälle zu vermeiden
  • Latenz: Sub-Mikrosekunden-Schaltlatenz zur Minimierung des Synchronisierungsaufwands.
  • Jitter: Deterministische Leistung – Latenz im Extrembereich beeinträchtigt die Trainingseffizienz
  • Skalierbarkeit: Unterstützung für mehr als 10.000 GPU-Cluster mit nicht-blockierender Architektur

Netzwerkarchitekturschichten

1. Compute Fabric (GPU-zu-GPU)

Die Recheninfrastruktur verbindet GPUs innerhalb und zwischen Servern. NVIDIAs NVLink und NVSwitch ermöglichen die Konnektivität innerhalb eines Knotens mit 900 Gbit/s, während InfiniBand oder RoCE den Datenverkehr zwischen den Knoten abwickeln.

Designüberlegungen:

  • Schienenoptimierte Topologie: separate physische Netze für verschiedene Verkehrsklassen
  • RDMA (Remote Direct Memory Access) für Zero-Copy-Datenübertragung
  • Adaptives Routing zur Vermeidung von Engpässen

2. Aufbewahrungsgewebe

Die Trainingsdaten müssen kontinuierlich an die GPUs gestreamt werden. Ein separates Speichernetzwerk verhindert, dass der E/A-Verkehr die Gradientensynchronisation beeinträchtigt.

  • Typische Bandbreite: 100–200 Gbit/s pro Speicherknoten
  • Protokolle: NFS über RDMA, parallele Dateisysteme (Lustre, GPFS)
  • Kapazität: Datensätze im Petabyte-Bereich mit Zugriffsverzögerungen unter 10 ms

3. Managementnetzwerk

Out-of-Band-Netzwerk für Überwachungs-, Orchestrierungs- und Steuerungsebenenverkehr. Gewährleistet den reibungslosen Betrieb des Clustermanagements auch bei Trainingsausfällen.

Bandbreitenskalierung mit der Modellgröße

Da Modelle von Milliarden auf Billionen von Parametern anwachsen, skalieren die Anforderungen an die Netzwerkbandbreite proportional. Moderne Cluster benötigen:

  • BERT-Skalierung (110–340 Millionen Parameter): 100 Gbit/s pro GPU ausreichend
  • GPT-3-Skalierung (175 Milliarden Parameter): 400 Gbit/s pro GPU empfohlen
  • GPT-4+ Skalierung (1T+ Parameter): 800 Gbit/s pro GPU erforderlich

Optische Verbindungen: Der Übergang von 400G zu 800G

Moderne KI-Cluster setzen zunehmend auf optische 400G- und 800G-Module, um den Bandbreitenanforderungen gerecht zu werden:

  • 400G QSFP-DD: 8 x 50-Gbit/s-Lanes, geeignet für Spine-Leaf-Distanzen bis zu 2 km
  • 800G OSFP: 8 x 100-Gbit/s-Lanes, die Switch-Fabrics mit 51,2 Tbit/s ermöglichen
  • Siliziumphotonik: Integrierte Optiken reduzieren Stromverbrauch und Latenz durch die Integration von Photonik mit Switch-ASICs.

Der Übergang von 100G zu 400G/800G reduziert die Anzahl der Kabel um das 4- bis 8-Fache und vereinfacht so die Verkabelungskomplexität in großen Clustern erheblich.

Verkehrsmuster und Optimierung

Die LLM-Ausbildung weist einzigartige Verkehrsmuster auf:

  • All-Reduce-Dominanz: 70–80 % des Netzwerkverkehrs entfallen auf Gradientensynchronisation.
  • Stoßartiges Verhalten: Der Datenverkehr erfolgt in synchronisierten Wellen über alle GPUs hinweg.
  • Elefantenströme: Große, langlebige Wassermassen, die von eigens dafür vorgesehenen Wegen profitieren.

Optimierungstechniken:

  • Gradientenkompression: Reduzierung des Datenvolumens um das 10- bis 100-Fache bei minimalem Genauigkeitsverlust.
  • Hierarchisches All-Reduce: NVLink für die Kommunikation innerhalb eines Knotens, InfiniBand für die Kommunikation zwischen Knoten nutzen
  • Prioritätsflusssteuerung (PFC): Paketverluste bei Überlastung verhindern

Auswahl der Netzwerktopologie

Die Wahl der Topologie beeinflusst Kosten, Skalierbarkeit und Leistung:

  • Fat-Tree: Volle Bisektionsbandbreite, vorhersehbare Leistung, höhere Kosten
  • Spine-Leaf (CLOS): Skalierbar auf über 100.000 Endpunkte, Industriestandard
  • Dragonfly+: Geringerer Durchmesser, reduzierter Kabelaufwand, geeignet für extreme Größenordnungen (über 10.000 Knoten)

Die meisten Hyperscale-KI-Cluster setzen auf 2- oder 3-stufige CLOS-Fabrics mit 400G/800G-Uplinks und adaptivem Routing.

Überlegungen zu Stromversorgung und Kühlung

Die Netzwerkinfrastruktur verbraucht 10-15 % der gesamten Clusterleistung:

  • 800G-Optik: ~15 W pro Port im Vergleich zu 12 W bei 400G
  • Switch-ASICs: 600-800 W für 51,2-Tbit/s-Fabric-Switches
  • Kühlung: Direkte Flüssigkeitskühlung wird bei Schaltern mit hoher Packungsdichte immer häufiger eingesetzt.

Beispiele für die Umsetzung in der Praxis

Metas KI-Forschungs-Supercluster (RSC)

  • 16.000 NVIDIA A100 GPUs
  • NVIDIA Quantum-2 InfiniBand-Fabric mit 400 Gbit/s
  • 5-stufige CLOS-Topologie mit 25,6 Tbit/s Bisektionsbandbreite

Microsoft Azure NDv5

  • Quantum-2 InfiniBand mit adaptiver Routenführung
  • 8 x 400 Gbit/s pro H100-GPU (insgesamt 3,2 Tbit/s)
  • Schienenoptimiertes Design zur Trennung von Rechen- und Speicherverkehr

Abschluss

Die Entwicklung von Netzwerken für LLM-Trainingscluster erfordert ein ausgewogenes Verhältnis zwischen Bandbreite, Latenz, Kosten und Betriebskomplexität. Mit zunehmender Skalierung der Modelle bleibt die Netzwerkarchitektur ein entscheidender Faktor – sie bestimmt nicht nur die Trainingsgeschwindigkeit, sondern auch die wirtschaftliche Rentabilität zukunftsweisender KI-Forschung.

Der Umstieg auf 400G/800G-Optik, Siliziumphotonik und fortschrittliche Topologien wie Dragonfly+ ist die Antwort der Branche auf den unstillbaren Bandbreitenbedarf. Unternehmen, die KI-Infrastruktur aufbauen, müssen das Netzwerk als zentralen Designaspekt und nicht als nachträgliche Überlegung betrachten.

Zurück zum Blog