RDMA und GPUDirect: Ermöglichung von Zero-Copy-Kommunikation in KI-Trainingsclustern

17. November 2025

Einführung

Remote Direct Memory Access (RDMA) und NVIDIA GPUDirect sind grundlegende Technologien für effizientes verteiltes KI-Training. Indem sie die CPU-Beteiligung an Datenübertragungen eliminieren und die direkte Kommunikation zwischen GPUs und Netzwerkadaptern ermöglichen, reduzieren diese Technologien die Latenz um das 10- bis 100-Fache und entlasten die CPU für andere Aufgaben. Dieser Artikel untersucht die technischen Mechanismen, Implementierungsaspekte und Leistungsauswirkungen von RDMA und GPUDirect in modernen KI-Trainingsinfrastrukturen.

Das Problem: Traditioneller Netzwerk-I/O-Overhead

Konventioneller TCP/IP-Datenpfad

In herkömmlichen Netzwerken umfasst die Datenübertragung zwischen zwei GPUs auf verschiedenen Servern mehrere kostspielige Schritte:

GPU → CPU-Speicher: Die GPU kopiert Daten in den System-RAM (PCIe-Übertragung).
CPU-Verarbeitung: Die CPU kopiert Daten über den Kernel-Netzwerkstack.
CPU → NIC: Daten in den Puffer der Netzwerkkarte kopiert
Netzwerkübertragung: Datenübertragung über ein Netzwerk
Empfangsseite: Umgekehrter Prozess (Netzwerkkarte → CPU → GPU)

Auswirkungen auf die Leistung:

Mehrere Speicherkopien: 4-6 Kopien pro Übertragung
CPU-Overhead: 50-80 % der CPU-Kerne werden für Netzwerk-E/A beansprucht
Latenz: 50-100 μs pro Übertragung (hauptsächlich durch Speicherkopien)
Bandbreitenbegrenzung: PCIe- und Speicherbandbreite werden zu Engpässen.

Bei einem GPT-3-Trainingsjob mit 1.024 GPUs, die in jeder Iteration die All-Reduce-Operation durchführen, würde dieser Overhead ein verteiltes Training unpraktisch machen.

RDMA: Remote Direct Memory Access

Kernkonzept

RDMA ermöglicht es Netzwerkadaptern, direkt aus dem Anwendungsspeicher zu lesen und in diesen zu schreiben, wodurch die CPU und der Betriebssystemkern vollständig umgangen werden.

Hauptmerkmale:

Zero-Copy: Daten werden direkt vom Quellspeicher ins Netzwerk übertragen, ohne Zwischenkopien.
Kernel-Umgehung: Der Netzwerk-Stack läuft auf der Netzwerkkarte, nicht auf der CPU.
CPU-Entlastung: Die CPU steht für Berechnungen anstelle von E/A-Verarbeitung zur Verfügung.
Niedrige Latenz: Latenzzeiten im Sub-Mikrosekundenbereich erreichbar

RDMA-Implementierungen

1. InfiniBand (IB)

Architektur: Speziell entwickelte RDMA-Fabric mit nativer Unterstützung

Verlustfreie Ethernet-Alternative, entwickelt für HPC und KI
Hardwarebasierte Staukontrolle und adaptives Routing
Geschwindigkeiten: 200 Gbit/s (HDR), 400 Gbit/s (NDR), 800 Gbit/s (XDR)
Latenz: 0,5–1,0 μs für kleine Nachrichten

Vorteile:

Ausgereiftes Ökosystem mit über 20 Jahren Entwicklung
Hervorragende Leistung und Zuverlässigkeit
Erweiterte Funktionen: adaptives Routing, Staukontrolle, QoS

Nachteile:

Proprietäre Technologie (hauptsächlich NVIDIA/Mellanox)
Höhere Kosten als Ethernet
Separate Managementinfrastruktur

Anwendungsfall: Dominante Wahl für groß angelegte KI-Trainingscluster (Meta, Microsoft, OpenAI)

2. RoCE v2 (RDMA über konvergiertes Ethernet)

Architektur: RDMA-Protokoll als Schicht über Standard-Ethernet

Verwendet UDP/IP für die Übertragung (im Gegensatz zu RoCE v1, das reines Ethernet verwendete).
Erfordert Priority Flow Control (PFC) und ECN für verlustfreien Betrieb
Kompatibel mit Standard-Ethernet-Switches (bei entsprechender Konfiguration)
Geschwindigkeiten: 100 Gbit/s, 200 Gbit/s, 400 Gbit/s

Vorteile:

Geringere Kosten (handelsübliche Ethernet-Hardware)
Einheitliche Infrastruktur (dasselbe Netzwerk für Speicher, Verwaltung und Rechenleistung)
Breiteres Anbieter-Ökosystem

Nachteile:

Komplexere Konfiguration (PFC, ECN-Abstimmung kritisch)
Etwas höhere Latenz als bei InfiniBand (1,5–2,5 μs)
Das Staumanagement ist weniger ausgereift.

Anwendungsfall: Kostensensible Implementierungen, Cloud-Anbieter mit bestehender Ethernet-Infrastruktur

3. iWARP (Internet Wide Area RDMA Protocol)

Architektur: RDMA über TCP/IP

Funktioniert in standardmäßigen gerouteten IP-Netzwerken
Keine besonderen Schalteranforderungen
Weniger verbreitet im KI-Training (höhere Latenz als bei IB/RoCE)

Anwendungsfall: Weitbereichs-RDMA, Abwärtskompatibilität

GPUDirect: Direkte GPU-Netzwerk-Kommunikation

GPUDirect RDMA (Peer-to-Peer)

NVIDIA GPUDirect RDMA erweitert RDMA, um Netzwerkadaptern das direkte Lesen und Schreiben des GPU-Speichers zu ermöglichen und so den Datenpfad GPU → CPU → NIC zu eliminieren.

Datenpfad mit GPUDirect RDMA:

Die GPU schreibt Daten in ihren eigenen Speicher.
Die Netzwerkkarte liest direkt vom GPU-Speicher über PCIe Peer-to-Peer.
Über das Netzwerk übertragene Daten
Die entfernte Netzwerkkarte schreibt direkt in den Speicher der entfernten GPU.
Die Remote-GPU liest Daten aus ihrem eigenen Speicher.

Leistungsvorteile:

Eliminiert 2-4 Speicherkopien
Reduziert die Latenz von 50 μs auf 2-5 μs (10- bis 25-fache Verbesserung)
Entlastet die CPU vollständig (0 % CPU-Overhead für die GPU-Kommunikation)
Erhöht die effektive Bandbreite (kein Speicherengpass im System)

GPUDirect Storage

Ermöglicht es GPUs, Trainingsdaten direkt von NVMe-SSDs oder Netzwerkspeichern zu lesen und dabei CPU und Systemspeicher zu umgehen.

Vorteile des Trainings:

2-3x schnelleres Laden von Daten aus dem Speicher
Reduziert den CPU-Overhead bei der Datenvorverarbeitung
Ermöglicht größere Datensätze (nicht durch den Arbeitsspeicher des Systems begrenzt)

GPUDirect Async

Ermöglicht asynchrone Speicheroperationen zwischen GPU und Netzwerk, wodurch die Kommunikation mit der Berechnung überlappt wird.

Anwendungsfall: Pipeline-Parallelisierung, bei der die Gradientenkommunikation mit Vorwärts-/Rückwärtsdurchläufen überlappt.

Technische Umsetzung

Hardwareanforderungen

GPUs: NVIDIA A100, H100 oder neuer (Ampere/Hopper-Architektur)
Netzwerkkarten: NVIDIA ConnectX-6 Dx oder neuer (für InfiniBand/RoCE)
Switches: NVIDIA Quantum-2 (InfiniBand) oder kompatible Ethernet-Switches
PCIe: Gen4 oder Gen5 mit ausreichend vielen Lanes (x16 empfohlen)
CPU: Unterstützung für PCIe Peer-to-Peer (Intel Xeon, AMD EPYC)

Software-Stack

Für InfiniBand

OFED (OpenFabrics Enterprise Distribution): InfiniBand-Treiber und -Bibliotheken
UCX (Unified Communication X): Hochleistungsfähiges Kommunikationsframework
NCCL (NVIDIA Collective Communications Library): Optimierte kollektive Operationen
CUDA: GPU-Programmierframework mit GPUDirect-Unterstützung

Für RoCE

Gleicher Software-Stack wie bei InfiniBand
Zusätzlich: PFC- und ECN-Konfiguration auf den Schaltern
DSCP-Markierung für QoS

Bewährte Konfigurationsmethoden

1. NUMA-Affinität

Um die PCIe-Latenz zu minimieren, sollten GPUs und Netzwerkkarten an denselben NUMA-Knoten gebunden werden:

GPU0-3 + NIC0-3 auf NUMA-Knoten 0
GPU4-7 + NIC4-7 auf NUMA-Knoten 1
Reduziert den Datenverkehr zwischen verschiedenen Sockets und verbessert die Bandbreite.

2. PCIe-Topologieoptimierung

Verwenden Sie PCIe-Switches, um eine direkte GPU-NIC-Peer-to-Peer-Verbindung zu ermöglichen.
Vermeiden Sie nach Möglichkeit das Routing über den CPU-Root-Komplex.
Überprüfen Sie die Topologie mit nvidia-smi topo -m

3. Speicherregistrierung

RDMA erfordert, dass der Speicher vor der Übertragung registriert (fixiert) wird:

Nutzen Sie Speicherpools, um die Registrierungskosten zu amortisieren.
Gradientenpuffer beim Trainingsstart vorregistrieren
Überwachen Sie die registrierten Speichergrenzen (ulimit -l)

4. Netzwerkoptimierung

Für RoCE-Implementierungen:

PFC für verlustfreie Warteschlangen aktivieren (typischerweise Warteschlange 3)
ECN-Schwellenwerte konfigurieren (typischerweise 50 KB-150 KB)
MTU auf 9000 einstellen (Jumbo-Frames)
Flusssteuerung für Nicht-RDMA-Datenverkehr deaktivieren

Leistungsanalyse

Latenzvergleich (8-Byte-Nachricht)

Technologie	Latenz	CPU-Overhead
TCP/IP (ohne GPUDirect)	50-100 μs	80%
RDMA (ohne GPUDirect)	10-20 μs	5%
RDMA + GPUDirect	2-5 μs	<1%
InfiniBand + GPUDirect	0,5–2 μs	<1%

Bandbreitenvergleich (große Nachrichten)

Technologie	Effektive Bandbreite	Effizienz
TCP/IP	60-70 Gbit/s (über eine 100G-Verbindung)	60-70%
RoCE v2	90-95 Gbit/s (über eine 100G-Verbindung)	90-95%
InfiniBand	95-98 Gbit/s (über eine 100G-Verbindung)	95-98%

Trainingsleistung in der Praxis

GPT-3 (175 Milliarden Parameter) auf 1.024 A100-GPUs:

Konfiguration	Abtastungen/Sek.	GPU-Auslastung	Netzwerk-Utility
TCP/IP (Basisversion)	85	45%	40 %
RoCE v2 + GPUDirect	320	82 %	88%
InfiniBand + GPUDirect	380	88%	92 %

InfiniBand mit GPUDirect bietet einen 4,5-fach höheren Trainingsdurchsatz im Vergleich zu TCP/IP.

Häufige Probleme und deren Behebung

Problem 1: GPUDirect funktioniert nicht

Symptome: Hohe CPU-Auslastung, geringere Bandbreite als erwartet

Diagnose:

Überprüfen Sie die GPU-NIC-Affinität mit nvidia-smi topo -m
Überprüfen Sie, ob das Kernelmodul nvidia_peermem geladen ist.
NCCL mit GPUDirect bestätigen: NCCL_DEBUG=INFO

Lösung:

Laden Sie nvidia_peermem: modprobe nvidia_peermem
Überprüfen Sie, ob PCIe Peer-to-Peer im BIOS aktiviert ist.
IOMMU-Einstellungen prüfen (möglicherweise muss die IOMMU für Peer-to-Peer deaktiviert werden)

Problem 2: RoCE-Paketverlust

Symptome: Trainingsblockaden, Auszeiten, schlechte Leistung

Diagnose:

Überprüfen Sie die Schalterzähler auf PFC-Pausenframes
ECN-markierte Pakete überwachen
Überprüfen Sie die Konfiguration der verlustfreien Warteschlange.

Lösung:

PFC auf den richtigen Warteschlangen aktivieren (sowohl Switch als auch Netzwerkkarte).
ECN-Schwellenwerte basierend auf der Puffergröße anpassen
Überprüfen Sie, ob die DSCP-Markierung mit der QoS-Richtlinie des Switches übereinstimmt.

Problem 3: Speicherregistrierungsfehler

Symptome: Das Training schlägt mit Fehlern der Art „Speicher kann nicht registriert werden“ fehl.

Diagnose:

Überprüfen Sie ulimit -l (Speicherbegrenzung).
Überwachen Sie die registrierte Speichernutzung.

Lösung:

Erhöhen Sie das Limit für gesperrten Speicher: ulimit -l unlimited
Fügen Sie dies zu /etc/security/limits.conf hinzu, um die Persistenz zu gewährleisten.
Um den Speicherbedarf zu reduzieren, können kleinere Batchgrößen verwendet werden.

Zukünftige Ausrichtungen

CXL (Compute Express Link)

Aufkommender Standard für cache-kohärente Geräteverbindungen
Ermöglicht die gemeinsame Nutzung von Speicher zwischen CPUs, GPUs und Beschleunigern.
Könnte RDMA vereinfachen, indem ein einheitlicher Speicherplatz bereitgestellt wird

In-Network Computing

Lagern Sie alle Reduce-Operationen auf SmartNICs oder Switches aus.
NVIDIA SHARP (Scalable Hierarchical Aggregation and Reduction Protocol)
Reduziert den GPU-zu-GPU-Datenverkehr durch Aggregation innerhalb des Netzwerks

Ultra-Low Latency RDMA

Latenzziele unter 100 ns für Textilien der nächsten Generation
Ermöglicht eine fein abgestufte Synchronisierung für neue Trainingsalgorithmen

Abschluss

RDMA und GPUDirect sind keine optionalen Optimierungen – sie sind essenzielle Technologien für effizientes verteiltes KI-Training. Durch die Eliminierung des CPU-Overheads und die Reduzierung der Latenz um das 10- bis 100-Fache ermöglichen sie GPU-Clustern eine Skalierungseffizienz von 85–95 % über Tausende von Knoten hinweg.

Wichtigste Empfehlungen:

Für Neuinstallationen: Verwenden Sie InfiniBand mit GPUDirect RDMA für maximale Leistung.
Für kostensensible Implementierungen: RoCE v2 mit GPUDirect bietet 80-90 % der InfiniBand-Leistung zu geringeren Kosten.
Für alle Implementierungen gilt: Investieren Sie Zeit in die korrekte NUMA-Affinität, die Optimierung der PCIe-Topologie und die Netzwerkabstimmung.

Mit zunehmender Skalierung von KI-Modellen wird die Effizienz der GPU-zu-GPU-Kommunikation immer stärker über Trainingsgeschwindigkeit und -kosten entscheiden. Unternehmen, die RDMA und GPUDirect beherrschen, werden im Wettlauf um das Training zukunftsweisender Modelle einen bedeutenden Wettbewerbsvorteil haben.

Zurück zum Blog

Sprache

Sprache

Einführung

Das Problem: Traditioneller Netzwerk-I/O-Overhead

Konventioneller TCP/IP-Datenpfad

RDMA: Remote Direct Memory Access

Kernkonzept

RDMA-Implementierungen

1. InfiniBand (IB)

2. RoCE v2 (RDMA über konvergiertes Ethernet)

3. iWARP (Internet Wide Area RDMA Protocol)

GPUDirect: Direkte GPU-Netzwerk-Kommunikation

GPUDirect RDMA (Peer-to-Peer)

GPUDirect Storage

GPUDirect Async

Technische Umsetzung

Hardwareanforderungen

Software-Stack

Für InfiniBand

Für RoCE

Bewährte Konfigurationsmethoden

1. NUMA-Affinität

2. PCIe-Topologieoptimierung

3. Speicherregistrierung

4. Netzwerkoptimierung

Leistungsanalyse

Latenzvergleich (8-Byte-Nachricht)

Bandbreitenvergleich (große Nachrichten)

Trainingsleistung in der Praxis

Häufige Probleme und deren Behebung

Problem 1: GPUDirect funktioniert nicht

Problem 2: RoCE-Paketverlust

Problem 3: Speicherregistrierungsfehler

Zukünftige Ausrichtungen

CXL (Compute Express Link)

In-Network Computing

Ultra-Low Latency RDMA

Abschluss

Abonnieren Sie unsere E-Mails