DGX/HGX-GPU-Cluster-Netzwerktopologien: Vergleich von Fat-Tree, Spine-Leaf und Dragonfly+
Aktie
Einführung
Die Wahl der richtigen Netzwerktopologie ist eine der wichtigsten Entscheidungen beim Entwurf von GPU-Clustern für das KI-Training. Die Topologie bestimmt die verfügbare Bandbreite, die Latenz, die Skalierbarkeit und die Gesamtbetriebskosten. Dieser Artikel bietet einen detaillierten Vergleich der drei dominanten Topologien für DGX- und HGX-Cluster: Fat-Tree, Spine-Leaf (CLOS) und Dragonfly+.
Grundlagen der Topologie
Die Netzwerktopologie definiert, wie Switches und Rechenknoten miteinander verbunden sind. Für KI-Cluster muss die ideale Topologie Folgendes gewährleisten:
- Hohe Bisektionsbandbreite: Jede Hälfte des Clusters kann mit der anderen Hälfte mit voller Geschwindigkeit kommunizieren.
- Geringer Durchmesser: Minimale Anzahl an Hops zwischen zwei beliebigen Knoten.
- Skalierbarkeit: Fähigkeit, von Hunderten auf Zehntausende von Knoten zu skalieren
- Fehlertoleranz: Mehrere Pfade zwischen Endpunkten für Redundanz
- Kosteneffizienz: Optimales Gleichgewicht zwischen Leistung und Kapitalaufwand
Fettbaum-Topologie
Architektur
Ein Fat-Tree ist ein mehrwurzeliger Baum, bei dem die Bandbreite zum Kern hin zunimmt. Ein typischer dreistufiger Fat-Tree besteht aus:
- Edge-/Leaf-Layer: Switches, die direkt mit GPU-Servern verbunden sind
- Aggregations-/Spine-Schicht: Zwischenschalter, die Blattschalter verbinden
- Core-Layer: Top-Tier-Switches, die die Verbindung zwischen Pods ermöglichen (für sehr große Installationen)
In einem reinen Fat-Tree ist jeder Blattschalter mit jedem Spine-Schalter verbunden, wodurch ein nicht blockierendes Netzwerk mit voller Bisektionsbandbreite entsteht.
Hauptmerkmale
- Bisektionsbandbreite: 100 % (nicht blockierend)
- Durchmesser: 4-6 Hopfen (Blatt → Dorn → Dorn → Blatt)
- Skalierbarkeit: Bis zu 100.000+ Endpunkte mit 3-stufigem Design
- Redundanz: N Pfade zwischen je zwei Servern (N = Anzahl der Spine-Switches)
Vorteile
- Vorhersagbare, deterministische Leistung
- Gut verstandene Designmuster und Betriebspraktiken
- Die volle Bandbreitenbegrenzung beseitigt Netzwerkengpässe.
- Hervorragend geeignet für die Kommunikation zwischen allen (Gradientensynchronisation)
Nachteile
- Hohe Kabelanzahl: O(N²) Kabel für N Schalter
- Teuer: Benötigt viele Schalter mit hohem Radix
- Der Stromverbrauch skaliert linear mit der Clustergröße
- Komplexität der physischen Verkabelung bei großen Installationen
Beste Anwendungsfälle
- Cluster mit 100-5.000 GPUs
- Arbeitslasten, die eine garantierte Bandbreite erfordern (LLM-Schulung)
- Umgebungen, in denen Vorhersagbarkeit wichtiger ist als Kosten.
Spine-Leaf (CLOS) Topologie
Architektur
Spine-Leaf ist ein zweistufiges CLOS-Fabric, eine für Rechenzentrumsbereitstellungen optimierte Verallgemeinerung von Fat-Tree:
- Blattschicht: Top-of-Rack (ToR)-Switches, die Server verbinden
- Spine-Schicht: Aggregationsschalter, die die Verbindung zwischen den Blättern herstellen.
Jedes Blatt ist mit jedem Dorn verbunden, aber im Gegensatz zum Fat-Tree-Modell ermöglicht das Spine-Leaf-Modell asymmetrische Designs (z. B. unterschiedliche Portanzahlen, Überbuchungsverhältnisse).
Hauptmerkmale
- Bisektionsbandbreite: 50-100% (konfigurierbar über Überbuchung)
- Durchmesser: 2 Hopfen (Blatt → Dorn → Blatt)
- Skalierbarkeit: 10.000–100.000 Endpunkte
- Flexibilität: Unterstützt gestaffelte Designs (2:1, 4:1 Überzeichnung)
Vorteile
- Geringere Latenz als bei Fat-Tree (weniger Hops)
- Flexible Überbuchung ermöglicht Kostenoptimierung
- Industriestandard-Design mit breiter Herstellerunterstützung
- Lässt sich leichter schrittweise skalieren (bei Bedarf Spine-Switches hinzufügen)
Nachteile
- Überbuchte Angebote können zu Engpässen führen.
- Erfordert eine sorgfältige Verkehrsplanung, um Brennpunkte zu vermeiden.
- Erfordert weiterhin einen erheblichen Verkabelungsaufwand (wenn auch weniger als bei Fat-Tree).
Beste Anwendungsfälle
- Universelle GPU-Cluster (gemischtes Training/Inferenz)
- Einsätze mit Fokus auf ein ausgewogenes Kosten-Nutzen-Verhältnis
- Cluster mit standortbezogener Workload-Platzierung
DGX SuperPOD Beispiel
NVIDIAs DGX SuperPOD nutzt ein Spine-Leaf-Design mit InfiniBand:
- Leaf-Switches: NVIDIA Quantum-2 QM8700 (64 Ports @ 400 Gbit/s)
- Spine-Switches: NVIDIA Quantum-2 QM9700 (64 Ports @ 400 Gbit/s)
- Konfiguration: 20 DGX A100-Systeme pro Leaf, 8 Uplinks pro Leaf zum Spine
- Bisektionsbandbreite: 25,6 Tbit/s pro SuperPOD (nicht blockierend)
Dragonfly+ Topologie
Architektur
Dragonfly+ ist eine hierarchische Topologie, die für extrem große Systeme (über 10.000 Knoten) entwickelt wurde. Sie organisiert Knoten in Gruppen mit vollständiger Konnektivität innerhalb der Gruppen und wenigen Verbindungen zwischen den Gruppen:
- Intra-Group: Alle Switches innerhalb einer Gruppe sind vollständig verbunden.
- Gruppenübergreifend: Jeder Switch ist mit Switches in anderen Gruppen verknüpft.
- Hierarchisch: Kann auf mehrere Ebenen (Gruppen von Gruppen) erweitert werden
Hauptmerkmale
- Bisektionsbandbreite: 40-60 % (geringer als bei Fat-Tree, aber für die meisten Arbeitslasten ausreichend)
- Durchmesser: 3 Hops (lokaler Switch → globale Verbindung → Remote-Gruppe → Ziel)
- Skalierbarkeit: Über 100.000 Endpunkte mit zweistufiger Hierarchie
- Kabeleffizienz: O(N^1,5) vs. O(N²) für Fat-Tree
Vorteile
- Dramatisch reduzierte Kabelanzahl (50-70 % weniger als bei Fat-Tree)
- Geringere Kosten pro Hafen bei extremer Größenordnung
- Hervorragend geeignet für Arbeitslasten mit lokaler Komplexität (Modellparallelität innerhalb von Gruppen).
- Geringerer Stromverbrauch durch weniger Schalter
Nachteile
- Komplexe Routing-Algorithmen erforderlich (adaptives Routing unerlässlich)
- Die Leistung hängt stark von den Verkehrsmustern ab.
- Weniger vorhersehbar als Fat-Tree für den Verkehr zwischen allen.
- Erfordert ausgefeilte Strategien zur Arbeitslastverteilung.
Beste Anwendungsfälle
- Extrem große Cluster (über 10.000 GPUs)
- Workloads mit starker Lokalität (Pipeline-Parallelität, föderiertes Lernen)
- Kostensensible Implementierungen, bei denen keine 100%ige Bisektionsbandbreite erforderlich ist.
Topologievergleichstabelle
| Dimension | Fettbaum | Dornenblatt | Libelle+ |
|---|---|---|---|
| Halbierungs-BW | 100% | 50-100% | 40-60% |
| Durchmesser | 4-6 Hüpfer | 2 Hüpfer | 3 Hüpfer |
| Skalierbarkeit | 100.000 Knoten | 100.000 Knoten | Mehr als 1 Million Knoten |
| Kabelanzahl | Sehr hoch | Hoch | Medium |
| Kosten (relativ) | Höchste | Medium | Niedrigster |
| Komplexität | Niedrig | Niedrig | Hoch |
| Vorhersagbarkeit | Exzellent | Gut | Gerecht |
Die richtige Topologie auswählen
Für kleine bis mittlere Cluster (100–1000 GPUs)
Empfehlung: Spine-Leaf (2-stufiges CLOS)
- Optimales Gleichgewicht zwischen Kosten, Leistung und Einfachheit
- 2-Hop-Latenz ideal für Trainingslasten
- Einfach zu installieren und zu bedienen
Für große Cluster (1.000–10.000 GPUs)
Empfehlung: Fat-Tree oder Spine-Leaf mit minimaler Überzeichnung
- Die volle Bandbreite der Bisektion ist in diesem Maßstab entscheidend.
- Vorhersehbare Leistung rechtfertigt höhere Kosten
- Die operative Reife dieser Topologien verringert das Risiko.
Für Cluster im extremen Maßstab (10.000+ GPUs)
Empfehlung: Dragonfly+ oder mehrstufiges CLOS
- Die Reduzierung der Kabelanzahl wird in diesem Maßstab entscheidend.
- Workload-Platzierungsstrategien können die geringere Bandbreite bei der Bisektion abmildern.
- Kosteneinsparungen von 30-50% gegenüber Fat-Tree
Hybride Ansätze
Viele Implementierungen nutzen Hybridtopologien:
- Intra-Pod Fat-Tree + Inter-Pod Dragonfly: Volle Bandbreite innerhalb der Trainings-Pods, geringe Konnektivität zwischen den Pods
- Spine-Leaf mit Rail-Optimierung: Getrennte Fabrics für Rechen-, Speicher- und Verwaltungsdatenverkehr
- Hierarchisches CLOS: Mehrere Spine-Layer für Mega-Implementierungen
Abschluss
Für GPU-Cluster gibt es keine universelle Topologie. Fat-Tree- und Spine-Leaf-Architekturen dominieren den Bereich von 100 bis 10.000 GPUs aufgrund ihrer Vorhersagbarkeit und Betriebssicherheit. Dragonfly+ erweist sich als kosteneffiziente Option für extrem große Installationen, bei denen die lokale Verteilung der Arbeitslast genutzt werden kann.
Bei der Auswahl einer Topologie sollten Sie Folgendes berücksichtigen:
- Clustergröße und Wachstumspfad
- Merkmale der Arbeitslast (Kommunikation zwischen allen vs. lokalisierte Kommunikation)
- Budgetbeschränkungen (Investitions- und Betriebskosten)
- Operatives Fachwissen und Werkzeugausstattung
Für die meisten Organisationen, die heute DGX- oder HGX-Cluster einsetzen, stellt ein zweistufiges Spine-Leaf-Fabric mit 400G/800G-Optiken und 1:1- oder 2:1-Überbuchung den optimalen Kompromiss zwischen Leistung, Kosten und Betriebsfreundlichkeit dar.