Von 100G zu 400G/800G: Der transformative Einfluss der Netzwerkentwicklung auf die Wirtschaftlichkeit und Leistung von KI-Clustern

Einführung

Die rasante Entwicklung von optischen Verbindungen mit 100G über 400G zu 800G bedeutet weit mehr als nur eine höhere Bandbreite – sie verändert grundlegend die Architektur, Wirtschaftlichkeit und Betriebskomplexität von KI-Clustern. Dieser Artikel analysiert die technischen und wirtschaftlichen Auswirkungen dieses Übergangs auf große GPU-Cluster und untersucht, wie schnellere optische Verbindungen neue Möglichkeiten eröffnen und gleichzeitig die Gesamtbetriebskosten senken.

Das Bandbreiten-Imperativ: Warum Geschwindigkeit wichtig ist

Die Rechenleistung von GPUs übertrifft seit Jahren die Netzwerkbandbreite, wodurch ein zunehmend gravierender Flaschenhals entsteht, der die Trainingseffizienz einschränkt:

Leistungslücke zwischen GPU und Netzwerk

  • NVIDIA A100 (2020): 312 TFLOPS FP16-Rechenleistung, 5 x 200 Gbit/s HDR InfiniBand = 1 Tbit/s Gesamtnetzwerkbandbreite
  • NVIDIA H100 (2022): 1.979 TFLOPS FP16-Rechenleistung, 8 x 400 Gbit/s NDR InfiniBand = 3,2 Tbit/s Gesamtnetzwerkbandbreite
  • NVIDIA B100 (2024): ~4.000 TFLOPS FP16-Rechenleistung, 8 x 800 Gbit/s XDR InfiniBand = 6,4 Tbit/s Gesamtnetzwerkbandbreite

Ohne entsprechende Netzwerk-Upgrades verbringen GPUs immer mehr Zeit mit Warten auf den Abschluss der Gradientensynchronisation, wodurch ihre effektive Auslastung von über 90 % auf 60–70 % sinkt. Diese Leerlaufzeit bedeutet direkte Kapitalverschwendung – eine 30.000-Dollar-GPU, die mit 65 % Effizienz arbeitet, ist effektiv nur noch 19.500 Dollar wert.

Technische Entwicklung: Drei Generationen im Vergleich

100G-Ära (2015–2020)

Physikalische Schicht:

  • Modulation: 4 x 25 Gbit/s NRZ (Non-Return-to-Zero)-Leitungen
  • Formfaktor: QSFP28
  • Reichweite: 100 m (OM4 MMF), 10 km (SMF mit kohärenter Optik)
  • Leistungsaufnahme: 3,5 W pro Modul
  • Kosten: ca. 500 US-Dollar pro Modul (Mengenrabatt)

Typische Anwendungsfälle:

  • ResNet-50, BERT-basiertes Training (Modelle mit weniger als 1 Milliarde Parametern)
  • Geeignet für Datenparallelität mit Batchgrößen unter 1.024
  • Ausreichend für Inferenz-Workloads

400G-Ära (2020–2024)

Physikalische Schicht:

  • Modulation: 8 x 50 Gbit/s PAM4 (Pulsamplitudenmodulation 4-stufig) Kanäle
  • Formfaktoren: QSFP-DD (Double Density), OSFP
  • Reichweite: 100 m (OM4 MMF), 2 km (SMF DR4), 10 km (SMF FR4/LR4 mit kohärenter Verbindung)
  • Leistungsaufnahme: 12 W (DR4), 15 W (FR4/LR4)
  • Kosten: ca. 1.000–1.500 US-Dollar pro Modul

Typische Anwendungsfälle:

  • GPT-3-Skalenmodelle (175B-Parameter)
  • Stabile Diffusion, DALL-E-Training
  • Parallelität des Multi-Node-Modells

800G-Ära (ab 2024)

Physikalische Schicht:

  • Modulation: 8 x 100 Gbit/s PAM4-Leitungen
  • Formfaktoren: OSFP, QSFP-DD800
  • Reichweite: 100 m (OM5 MMF), 2 km (SMF DR8), 10 km+ (kohärente Optik)
  • Leistungsaufnahme: 15-18 W pro Modul
  • Kosten: ca. 1.500–2.000 US-Dollar pro Modul (Frühbucherpreis)

Typische Anwendungsfälle:

  • Billionen-Parameter-Modelle (GPT-4+, Gemini Ultra-Skala)
  • Multimodales Training (Sehen + Sprache + Hören)
  • Architekturen mit Expertenmix und über 100 Experten

Auswirkungen auf die Clusterarchitektur

1. Dramatische Kabelreduzierung

Höhere Geschwindigkeiten reduzieren die Komplexität der physischen Infrastruktur exponentiell. Betrachten wir einen Cluster mit 1024 GPUs und 8 Netzwerkverbindungen pro GPU:

Geschwindigkeit Gesamtkabel Reduktion gegenüber 100 g
100 g 8.192 Kabel Ausgangswert
400G 2.048 Kabel 75% Reduzierung
800G 1.024 Kabel 87,5% Reduzierung

Operative Vorteile:

  • 50-70% Reduzierung der Installationszeit und der Arbeitskosten
  • Geringere Ausfallraten (weniger Verbindungspunkte = weniger potenzielle Ausfälle)
  • Vereinfachte Fehlersuche und Wartung
  • Reduzierter Kühlbedarf (weniger Luftstrombehinderung)
  • Kleinere Kabelrinnen und Leitungsrohranforderungen

2. Switch-Radix und Topologieentwicklung

Höhere Portgeschwindigkeiten ermöglichen flachere und effizientere Netzwerk-Topologien:

Epoche Typische Topologie Hopfen (Durchschnitt) Schalter für 1K GPUs
100 g 3-stufiger Fettbaum 5-6 ~80 Schalter
400G 2-stufiger CLOS 2-3 ~40 Schalter
800G Libelle+ (Einzelstufe) 2-3 ~20 Schalter

Flachere Topologien reduzieren die Latenz (weniger Hops) und vereinfachen die Verwaltung, während gleichzeitig die Anzahl der Switches und der damit verbundene Stromverbrauch reduziert werden.

3. Energie- und Kühlungsökonomie

Obwohl einzelne 800G-Module mehr Strom verbrauchen als 100G-Module, sinkt der Gesamtstromverbrauch des Netzwerks deutlich:

Leistungsanalyse eines Clusters mit 1024 GPUs:

Komponente 100 g 400G 800G
Optische Leistung 28,7 kW 24,6 kW 15,4 kW
Switch-ASICs 48 kW 24 kW 12 kW
Gesamtnetzwerk 76,7 kW 48,6 kW 27,4 kW
Jährliche Kosten (bei 0,10 $/kWh) 67.200 US-Dollar 42.600 US-Dollar 24.000 US-Dollar

Über eine Lebensdauer von 5 Jahren spart 800G im Vergleich zu 100G allein bei den Stromkosten 216.000 US-Dollar.

Auswirkungen auf die Leistung von KI-Workloads

Verbesserungen des Trainingsdurchsatzes

Leistungssteigerungen beim Training in der Praxis durch Netzwerk-Upgrades (GPT-3 175B Parameter, 1.024 A100 GPUs):

Netzwerk Abtastungen/Sek. GPU-Auslastung Zeit zum Trainieren
100 g 140 55% 34 Tage
400G 380 85% 12,5 Tage
800G 520 92 % 9,1 Tage

Das Upgrade auf 400G bietet eine 2,7-fache Durchsatzsteigerung, während 800G eine 3,7-fache Steigerung erreicht – was die Zeit bis zur Modellierung drastisch verkürzt und schnellere Iterationszyklen ermöglicht.

Skalierungseffizienz

Höhere Bandbreite ermöglicht besseres schwaches Scaling (Hinzufügen von mehr GPUs zum Trainieren größerer Modelle):

  • 100G: Die Skalierungseffizienz sinkt ab 512 GPUs unter 70 %.
  • 400G: Erhält über 80 % Effizienz bei 2.048 GPUs
  • 800G: Ermöglicht eine Effizienz von über 85 % bei mehr als 8.192 GPUs

Dies bedeutet, dass 800G-Netzwerke das Training von Modellen wirtschaftlich rentabel machen, die auf einer 100G-Infrastruktur unpraktisch wären.

Latenzüberlegungen

Während die Bandbreite drastisch zunimmt, fallen die Verbesserungen der Latenzzeiten eher bescheiden aus:

Metrisch 100 g 400G 800G
Serialisierung (1-KB-Paket) 122 ns 30 ns 15 ns
Schaltlatenz ~500 ns ~400 ns ~300 ns
Ausbreitung (100 m Faser) ~500 ns ~500 ns ~500 ns

Für das KI-Training ist die Bandbreite deutlich wichtiger als die Latenz – die Gradientensynchronisation ist durch den Durchsatz, nicht durch die Latenz begrenzt. Die geringfügigen Latenzverbesserungen wirken sich jedoch positiv auf Inferenz-Workloads aus.

Wirtschaftliche Analyse: Gesamtbetriebskosten

Investitionsausgaben (CapEx) für einen Cluster mit 1.024 GPUs

Komponente 100 g 400G 800G
Optische Module 4,1 Mio. US-Dollar 2,0 Mio. US-Dollar 1,5 Mio. US-Dollar
Netzwerk-Switches 6,0 Mio. USD 4,8 Mio. US-Dollar 3,6 Mio. US-Dollar
Verkabelung & Installation 800.000 US-Dollar 300.000 US-Dollar 200.000 US-Dollar
Gesamte Netzwerk-CapEx 10,9 Mio. US-Dollar 7,1 Mio. US-Dollar 5,3 Mio. US-Dollar
% der GPU-Kosten (30 Mio. USD) 36 % 24 % 18%

Trotz höherer Kosten pro Port reduziert 400G die Netzwerk-CapEx um 35 % und 800G um 51 %.

Betriebskosten (OpEx) – jährlich

Kategorie 100 g 400G 800G
Strom (0,10 $/kWh) 67.000 US-Dollar 43.000 US-Dollar 24.000 US-Dollar
Kühlung (30 % der Leistung) 20.000 US-Dollar 13.000 US-Dollar 7.000 US-Dollar
Wartung & Ersatzteile 150.000 US-Dollar 90.000 US-Dollar 60.000 US-Dollar
Gesamte jährliche Betriebskosten 237.000 US-Dollar 146.000 US-Dollar 91.000 US-Dollar

Gesamtbetriebskosten über 5 Jahre

Netzwerk Investitionsausgaben 5-Jahres-Betriebskosten TCO Einsparungen im Vergleich zu 100G
100 g 10,9 Mio. US-Dollar 1,2 Mio. US-Dollar 12,1 Mio. US-Dollar
400G 7,1 Mio. US-Dollar 730.000 US-Dollar 7,8 Mio. US-Dollar 4,3 Mio. USD (35 %)
800G 5,3 Mio. USD 455.000 US-Dollar 5,8 Mio. US-Dollar 6,3 Mio. USD (52 %)

Migrationsstrategien

Strategie 1: Gabelstapler-Upgrade

Vorgehensweise: Die gesamte Netzwerkinfrastruktur in einer Phase ersetzen

Vorteile:

  • Minimiert die betriebliche Komplexität (einheitlicher Technologie-Stack)
  • Unmittelbare Leistungsverbesserungen im gesamten Cluster
  • Vereinfachte Verwaltung und Fehlerbehebung

Nachteile:

  • Erfordert erhebliches Vorabkapital
  • Längere Ausfallzeit während der Migration (1-2 Wochen)
  • Höheres Risiko, falls während der Umstellung Probleme auftreten

Ideal für: Neuinstallationen, Austauschsysteme nach Ablauf des Produktlebenszyklus oder Cluster mit geplanten Wartungsfenstern

Strategie 2: Phasenweise Migration (Spine-First)

Vorgehensweise: Zuerst die Spine-Schicht auf 400G/800G aufrüsten, dann die Blattschalter schrittweise ersetzen.

Vorteile:

  • Sofortige Verbesserung der Bisektionsbandbreite (50-70% Gewinn)
  • Verteilt die Investitionsausgaben über 12-24 Monate
  • Geringeres Risiko (Leistung kann vor vollständiger Einführung überprüft werden)

Nachteile:

  • Erfordert 100G/400G-Interoperabilität (Breakout-Kabel erhöhen die Komplexität)
  • Vorübergehende Leistungsasymmetrie
  • Erweiterter Migrationszeitplan

Ideal für: Große, bestehende Installationen mit begrenztem Budget

Strategie 3: Greenfield 800G

Vorgehensweise: Einführung von 800G für neue Cluster bei gleichzeitiger Beibehaltung der bestehenden 100G/400G-Infrastruktur

Vorteile:

  • Vermeidet die Komplexität der Migration vollständig
  • Ermöglicht A/B-Leistungstests
  • Maximiert die Leistung für neue Arbeitslasten

Nachteile:

  • Schafft operative Silos (unterschiedliche Managementinstrumente, Sparmaßnahmen)
  • Nutzt die bestehende Infrastruktur nicht ausreichend aus.
  • Erfordert clusterübergreifende Workload-Orchestrierung

Ideal für: Szenarien mit schnellem Wachstum oder Organisationen mit dedizierten KI-Infrastrukturteams

Der Weg in die Zukunft: Siliziumphotonik und integrierte Optik

Die nächste Herausforderung jenseits von 800G besteht in der direkten Integration von Photonik in Switch-ASICs:

Co-Packaged Optics (CPO)

  • Technologie: Photonische integrierte Schaltungen (PICs), die direkt auf dem Schaltergehäuse montiert sind
  • Vorteile: 50 % weniger Stromverbrauch, 30 % geringere Latenz, 10-fache Dichteverbesserung
  • Zeitplan: Serienproduktion voraussichtlich 2025-2026
  • Geschwindigkeiten: 1,6 Tbit/s und 3,2 Tbit/s pro Port

CPO ermöglicht Single-Hop-Topologien für Cluster mit mehr als 10.000 GPUs und vereinfacht so die Architektur weiter, während gleichzeitig Kosten und Stromverbrauch gesenkt werden.

Fazit: Die Notwendigkeit des Upgrades

Der Übergang von 100G zu 400G/800G ist nicht bloß evolutionär – er ist transformativ. Organisationen, die heute KI-Infrastruktur einsetzen, sollten Folgendes unbedingt berücksichtigen:

  • 400G als Basiswert für jede neue Implementierung mit weniger als 5.000 GPUs
  • 800G für Spine-Layer zur Zukunftssicherung der Bisektionsbandbreite
  • Migrationsplanung für bestehende 100G-Infrastruktur (Amortisationszeit in der Regel unter 18 Monaten)

Die wirtschaftlichen Argumente sind überzeugend: geringere Investitionskosten, reduzierte Betriebskosten und eine deutlich verbesserte Trainingsleistung. Da die Modelle weiterhin exponentiell skalieren, bleibt die Netzwerkbandbreite der entscheidende Faktor – oder limitierende Faktor – für den Fortschritt der KI.

Für Infrastrukturplaner ist die Botschaft klar: Investiert heute in Bandbreite, oder zahlt morgen den Preis in Form von ungenutzten GPUs.

Zurück zum Blog