DGX/HGX-GPU-Cluster-Netzwerktopologien: Vergleich von Fat-Tree, Spine-Leaf und Dragonfly+

17. November 2025

Einführung

Die Wahl der richtigen Netzwerktopologie ist eine der wichtigsten Entscheidungen beim Entwurf von GPU-Clustern für das KI-Training. Die Topologie bestimmt die verfügbare Bandbreite, die Latenz, die Skalierbarkeit und die Gesamtbetriebskosten. Dieser Artikel bietet einen detaillierten Vergleich der drei dominanten Topologien für DGX- und HGX-Cluster: Fat-Tree, Spine-Leaf (CLOS) und Dragonfly+.

Grundlagen der Topologie

Die Netzwerktopologie definiert, wie Switches und Rechenknoten miteinander verbunden sind. Für KI-Cluster muss die ideale Topologie Folgendes gewährleisten:

Hohe Bisektionsbandbreite: Jede Hälfte des Clusters kann mit der anderen Hälfte mit voller Geschwindigkeit kommunizieren.
Geringer Durchmesser: Minimale Anzahl an Hops zwischen zwei beliebigen Knoten.
Skalierbarkeit: Fähigkeit, von Hunderten auf Zehntausende von Knoten zu skalieren
Fehlertoleranz: Mehrere Pfade zwischen Endpunkten für Redundanz
Kosteneffizienz: Optimales Gleichgewicht zwischen Leistung und Kapitalaufwand

Fettbaum-Topologie

Dreischichtige Fat-Tree-Netzwerktopologie

Architektur

Ein Fat-Tree ist ein mehrwurzeliger Baum, bei dem die Bandbreite zum Kern hin zunimmt. Ein typischer dreistufiger Fat-Tree besteht aus:

Edge-/Leaf-Layer: Switches, die direkt mit GPU-Servern verbunden sind
Aggregations-/Spine-Schicht: Zwischenschalter, die Blattschalter verbinden
Core-Layer: Top-Tier-Switches, die die Verbindung zwischen Pods ermöglichen (für sehr große Installationen)

In einem reinen Fat-Tree ist jeder Blattschalter mit jedem Spine-Schalter verbunden, wodurch ein nicht blockierendes Netzwerk mit voller Bisektionsbandbreite entsteht.

Hauptmerkmale

Bisektionsbandbreite: 100 % (nicht blockierend)
Durchmesser: 4-6 Hopfen (Blatt → Dorn → Dorn → Blatt)
Skalierbarkeit: Bis zu 100.000+ Endpunkte mit 3-stufigem Design
Redundanz: N Pfade zwischen je zwei Servern (N = Anzahl der Spine-Switches)

Vorteile

Vorhersagbare, deterministische Leistung
Gut verstandene Designmuster und Betriebspraktiken
Die volle Bandbreitenbegrenzung beseitigt Netzwerkengpässe.
Hervorragend geeignet für die Kommunikation zwischen allen (Gradientensynchronisation)

Nachteile

Hohe Kabelanzahl: O(N²) Kabel für N Schalter
Teuer: Benötigt viele Schalter mit hohem Radix
Der Stromverbrauch skaliert linear mit der Clustergröße
Komplexität der physischen Verkabelung bei großen Installationen

Beste Anwendungsfälle

Cluster mit 100-5.000 GPUs
Arbeitslasten, die eine garantierte Bandbreite erfordern (LLM-Schulung)
Umgebungen, in denen Vorhersagbarkeit wichtiger ist als Kosten.

Spine-Leaf (CLOS) Topologie

Spine-Leaf CLOS Netzwerk-Topologiediagramm

Architektur

Spine-Leaf ist ein zweistufiges CLOS-Fabric, eine für Rechenzentrumsbereitstellungen optimierte Verallgemeinerung von Fat-Tree:

Blattschicht: Top-of-Rack (ToR)-Switches, die Server verbinden
Spine-Schicht: Aggregationsschalter, die die Verbindung zwischen den Blättern herstellen.

Jedes Blatt ist mit jedem Dorn verbunden, aber im Gegensatz zum Fat-Tree-Modell ermöglicht das Spine-Leaf-Modell asymmetrische Designs (z. B. unterschiedliche Portanzahlen, Überbuchungsverhältnisse).

Hauptmerkmale

Bisektionsbandbreite: 50-100% (konfigurierbar über Überbuchung)
Durchmesser: 2 Hopfen (Blatt → Dorn → Blatt)
Skalierbarkeit: 10.000–100.000 Endpunkte
Flexibilität: Unterstützt gestaffelte Designs (2:1, 4:1 Überzeichnung)

Vorteile

Geringere Latenz als bei Fat-Tree (weniger Hops)
Flexible Überbuchung ermöglicht Kostenoptimierung
Industriestandard-Design mit breiter Herstellerunterstützung
Lässt sich leichter schrittweise skalieren (bei Bedarf Spine-Switches hinzufügen)

Nachteile

Überbuchte Angebote können zu Engpässen führen.
Erfordert eine sorgfältige Verkehrsplanung, um Brennpunkte zu vermeiden.
Erfordert weiterhin einen erheblichen Verkabelungsaufwand (wenn auch weniger als bei Fat-Tree).

Beste Anwendungsfälle

Universelle GPU-Cluster (gemischtes Training/Inferenz)
Einsätze mit Fokus auf ein ausgewogenes Kosten-Nutzen-Verhältnis
Cluster mit standortbezogener Workload-Platzierung

DGX SuperPOD Beispiel

NVIDIAs DGX SuperPOD nutzt ein Spine-Leaf-Design mit InfiniBand:

Leaf-Switches: NVIDIA Quantum-2 QM8700 (64 Ports @ 400 Gbit/s)
Spine-Switches: NVIDIA Quantum-2 QM9700 (64 Ports @ 400 Gbit/s)
Konfiguration: 20 DGX A100-Systeme pro Leaf, 8 Uplinks pro Leaf zum Spine
Bisektionsbandbreite: 25,6 Tbit/s pro SuperPOD (nicht blockierend)

Dragonfly+ Topologie

Dragonfly+ Netzwerktopologie hierarchische Struktur

Architektur

Dragonfly+ ist eine hierarchische Topologie, die für extrem große Systeme (über 10.000 Knoten) entwickelt wurde. Sie organisiert Knoten in Gruppen mit vollständiger Konnektivität innerhalb der Gruppen und wenigen Verbindungen zwischen den Gruppen:

Intra-Group: Alle Switches innerhalb einer Gruppe sind vollständig verbunden.
Gruppenübergreifend: Jeder Switch ist mit Switches in anderen Gruppen verknüpft.
Hierarchisch: Kann auf mehrere Ebenen (Gruppen von Gruppen) erweitert werden

Hauptmerkmale

Bisektionsbandbreite: 40-60 % (geringer als bei Fat-Tree, aber für die meisten Arbeitslasten ausreichend)
Durchmesser: 3 Hops (lokaler Switch → globale Verbindung → Remote-Gruppe → Ziel)
Skalierbarkeit: Über 100.000 Endpunkte mit zweistufiger Hierarchie
Kabeleffizienz: O(N^1,5) vs. O(N²) für Fat-Tree

Vorteile

Dramatisch reduzierte Kabelanzahl (50-70 % weniger als bei Fat-Tree)
Geringere Kosten pro Hafen bei extremer Größenordnung
Hervorragend geeignet für Arbeitslasten mit lokaler Komplexität (Modellparallelität innerhalb von Gruppen).
Geringerer Stromverbrauch durch weniger Schalter

Nachteile

Komplexe Routing-Algorithmen erforderlich (adaptives Routing unerlässlich)
Die Leistung hängt stark von den Verkehrsmustern ab.
Weniger vorhersehbar als Fat-Tree für den Verkehr zwischen allen.
Erfordert ausgefeilte Strategien zur Arbeitslastverteilung.

Beste Anwendungsfälle

Extrem große Cluster (über 10.000 GPUs)
Workloads mit starker Lokalität (Pipeline-Parallelität, föderiertes Lernen)
Kostensensible Implementierungen, bei denen keine 100%ige Bisektionsbandbreite erforderlich ist.

Topologievergleichstabelle

Dimension	Fettbaum	Dornenblatt	Libelle+
Halbierungs-BW	100%	50-100%	40-60%
Durchmesser	4-6 Hüpfer	2 Hüpfer	3 Hüpfer
Skalierbarkeit	100.000 Knoten	100.000 Knoten	Mehr als 1 Million Knoten
Kabelanzahl	Sehr hoch	Hoch	Medium
Kosten (relativ)	Höchste	Medium	Niedrigster
Komplexität	Niedrig	Niedrig	Hoch
Vorhersagbarkeit	Exzellent	Gut	Gerecht

Die richtige Topologie auswählen

Für kleine bis mittlere Cluster (100–1000 GPUs)

Empfehlung: Spine-Leaf (2-stufiges CLOS)

Optimales Gleichgewicht zwischen Kosten, Leistung und Einfachheit
2-Hop-Latenz ideal für Trainingslasten
Einfach zu installieren und zu bedienen

Für große Cluster (1.000–10.000 GPUs)

Empfehlung: Fat-Tree oder Spine-Leaf mit minimaler Überzeichnung

Die volle Bandbreite der Bisektion ist in diesem Maßstab entscheidend.
Vorhersehbare Leistung rechtfertigt höhere Kosten
Die operative Reife dieser Topologien verringert das Risiko.

Für Cluster im extremen Maßstab (10.000+ GPUs)

Empfehlung: Dragonfly+ oder mehrstufiges CLOS

Die Reduzierung der Kabelanzahl wird in diesem Maßstab entscheidend.
Workload-Platzierungsstrategien können die geringere Bandbreite bei der Bisektion abmildern.
Kosteneinsparungen von 30-50% gegenüber Fat-Tree

Hybride Ansätze

Viele Implementierungen nutzen Hybridtopologien:

Intra-Pod Fat-Tree + Inter-Pod Dragonfly: Volle Bandbreite innerhalb der Trainings-Pods, geringe Konnektivität zwischen den Pods
Spine-Leaf mit Rail-Optimierung: Getrennte Fabrics für Rechen-, Speicher- und Verwaltungsdatenverkehr
Hierarchisches CLOS: Mehrere Spine-Layer für Mega-Implementierungen

Abschluss

Für GPU-Cluster gibt es keine universelle Topologie. Fat-Tree- und Spine-Leaf-Architekturen dominieren den Bereich von 100 bis 10.000 GPUs aufgrund ihrer Vorhersagbarkeit und Betriebssicherheit. Dragonfly+ erweist sich als kosteneffiziente Option für extrem große Installationen, bei denen die lokale Verteilung der Arbeitslast genutzt werden kann.

Bei der Auswahl einer Topologie sollten Sie Folgendes berücksichtigen:

Clustergröße und Wachstumspfad
Merkmale der Arbeitslast (Kommunikation zwischen allen vs. lokalisierte Kommunikation)
Budgetbeschränkungen (Investitions- und Betriebskosten)
Operatives Fachwissen und Werkzeugausstattung

Für die meisten Organisationen, die heute DGX- oder HGX-Cluster einsetzen, stellt ein zweistufiges Spine-Leaf-Fabric mit 400G/800G-Optiken und 1:1- oder 2:1-Überbuchung den optimalen Kompromiss zwischen Leistung, Kosten und Betriebsfreundlichkeit dar.

Zurück zum Blog

Sprache

Sprache

Einführung

Grundlagen der Topologie

Fettbaum-Topologie

Architektur

Hauptmerkmale

Vorteile

Nachteile

Beste Anwendungsfälle

Spine-Leaf (CLOS) Topologie

Architektur

Hauptmerkmale

Vorteile

Nachteile

Beste Anwendungsfälle

DGX SuperPOD Beispiel

Dragonfly+ Topologie

Architektur

Hauptmerkmale

Vorteile

Nachteile

Beste Anwendungsfälle

Topologievergleichstabelle

Die richtige Topologie auswählen

Für kleine bis mittlere Cluster (100–1000 GPUs)

Für große Cluster (1.000–10.000 GPUs)

Für Cluster im extremen Maßstab (10.000+ GPUs)

Hybride Ansätze

Abschluss

Abonnieren Sie unsere E-Mails