KI-Training vs. Inferenz: Unterschiedliche Netzwerkanforderungen und Architekturstrategien

17. November 2025

Einführung

Obwohl KI-Training und -Inferenz beide GPUs und Beschleuniger nutzen, unterscheiden sich ihre Netzwerkanforderungen grundlegend. Das Training erfordert enorme Bandbreite für die Gradientensynchronisation über Tausende von GPUs hinweg, während bei der Inferenz geringe Latenz, hoher Durchsatz und Kosteneffizienz Priorität haben. Das Verständnis dieser unterschiedlichen Anforderungen ist entscheidend für die Entwicklung einer optimierten Infrastruktur. Dieser Artikel analysiert die Netzwerkeigenschaften der jeweiligen Arbeitslasten und untersucht optimale Architekturstrategien.

Merkmale der Arbeitsbelastung: Eine grundlegende Kluft

Trainingsbelastung

Das Training beinhaltet die iterative Aktualisierung der Modellparameter auf Basis von Trainingsdatensätzen, die über verteilte GPUs verarbeitet werden:

Kommunikationsmuster:

All-Reduce-Operationen: Jede GPU tauscht Gradienten mit allen anderen GPUs aus.
Bulk Synchronous Parallel (BSP): synchronisierte Barrieren zwischen Trainingsschritten
Kollektive Kommunikation dominiert (70-80 % des Netzwerkverkehrs).

Verkehrsmerkmale:

Große, vorhersehbare Datenübertragungen (Hunderte von GB pro All-Reduce-Vorgang)
Synchronisierte Bursts auf allen GPUs gleichzeitig
Elefantenströme: langlebige Verbindungen mit hohem Volumen
Deterministische Muster, die sich in jeder Trainingsiteration wiederholen

Leistungskennzahlen:

Bandbreitenauslastung: 80-95 % während des Trainings aufrechterhalten.
Dauer: Stunden bis Wochen ununterbrochenen Betriebs
Latenztoleranz: 100–500 µs akzeptabel für Gradientensynchronisation
Jitterempfindlichkeit: hoch (beeinträchtigt Konvergenz und Trainingsstabilität)

Inferenz-Workloads

Inferenzprozesse verarbeiten einzelne Benutzeranfragen oder kleine Datenmengen, um Vorhersagen zu generieren:

Kommunikationsmuster:

Anfrage-Antwort-Verfahren: Der Client sendet die Eingabe, das Modell liefert die Vorhersage.
Asynchrone, unabhängige Anfragen ohne GPU-übergreifende Koordination
Punkt-zu-Punkt-Kommunikation (Load Balancer → GPU → Client)

Verkehrsmerkmale:

Kleine Anfragen variabler Größe (KB- bis MB-Bereich)
Schwankender, unvorhersehbarer Datenverkehr, der durch das Nutzerverhalten verursacht wird
Mäuseflüsse: kurzlebige Verbindungen mit geringem Volumen
Hohe Anfragerate (Tausende bis Millionen Anfragen pro Sekunde)

Leistungskennzahlen:

Bandbreitenauslastung: 10-40% (deutlich geringer als beim Training)
Dauer: Millisekunden pro Anfrage
Latenz ist entscheidend: unter 10 ms End-to-End-Latenz für Echtzeitanwendungen
Tail-Latenz (P99): muss für ein optimales Nutzererlebnis streng kontrolliert werden.

Vergleich der Netzwerkanforderungen

Dimension	Ausbildung	Schlussfolgerung	Verhältnis
Bandbreite pro GPU	400-800 Gbit/s	10-100 Gbit/s	8-80x
Latenz (P50)	200-500 μs	1-5 ms	—
Latenz (P99)	1-2 ms akzeptabel	<10 ms kritisch	—
Jittertoleranz	Niedrig (beeinträchtigt die Konvergenz)	Sehr niedrig (beeinträchtigt die Benutzererfahrung)	—
Durchsatzpriorität	Massendatenverschiebung	Anfragerate (QPS)	—
Verkehrsvorhersagbarkeit	Hochgradig vorhersehbar	Sehr variabel	—
Nutzungsmuster	Anhaltend 80-95%	Ausbruchsartig 10-40%	—

Architektur des Schulungsnetzwerks

Gestaltungsprinzipien

Maximale Bandbreite für die Bisektion: Nicht-blockierende Architektur zur Vermeidung von Gradientensynchronisationsengpässen
Durchmesser minimieren: Weniger Hops reduzieren die Gesamtlatenz.
RDMA-Optimierung: Datentransfer ohne Kopien für maximale Effizienz
Adaptives Routing: Verteilung des Datenverkehrs auf mehrere Pfade zur Vermeidung von Hotspots.

Empfohlene Topologie

Fettbaum oder 2-stufiges Dorn-Blatt (CLOS)

Volle Bandbreitenbegrenzung (1:1 Überbuchung oder besser)
Jeder Blattschalter ist mit jedem Hauptschalter verbunden.
2-3 Hop-Latenz zwischen zwei beliebigen GPUs
Skaliert auf über 10.000 GPUs mit vorhersehbarer Leistung

Protokollstapel

InfiniBand (bevorzugt) oder RoCE v2

InfiniBand: Natives RDMA, adaptives Routing, Staukontrolle
RoCE v2: RDMA über Ethernet, geringere Kosten, breiteres Ökosystem
Beide unterstützen GPUDirect RDMA für direkte GPU-zu-GPU-Datenübertragungen.

Schlüsseltechnologien

NCCL (NVIDIA Collective Communications Library): Optimierte All-Reduce-Algorithmen
GPUDirect RDMA: CPU-Umgehung für GPU-zu-Netzwerk-Datenübertragungen
Prioritätsflusssteuerung (PFC): Paketverluste bei Überlastung verhindern
ECN (Explizite Staumeldung): Proaktives Staumanagement

Bandbreitenzuweisung

Für ein DGX H100-System mit 8 GPUs:

8 x 400 Gbit/s InfiniBand-Netzwerkkarten = 3,2 Tbit/s Gesamt
Jeder GPU stehen dedizierte 400 Gbit/s für die Kommunikation zwischen den Knoten zur Verfügung.
Innerhalb eines Knotens: NVLink bietet eine GPU-zu-GPU-Bandbreite von 900 GB/s.

Beispiel: Metas KI-Forschungs-Supercluster (RSC)

Umfang: 16.000 NVIDIA A100 GPUs
Netzwerk: NVIDIA Quantum-2 InfiniBand mit 400 Gbit/s pro GPU
Topologie: 5-stufige CLOS mit 25,6 Tbit/s Bisektionsbandbreite
Leistung: Über 90 % GPU-Auslastung bei GPT-skalierten Modellen

Inferenznetzwerkarchitektur

Gestaltungsprinzipien

Latenz optimieren: Hops und Warteschlangenverzögerung minimieren
Überzeichnung akzeptabel: Blatt-zu-Dornen-Verhältnis 4:1 oder sogar 10:1
Edge-Optimierung: Inferenz in der Nähe der Nutzer platzieren (CDN-ähnliche Verteilung)
Elastische Skalierung: Automatische Anpassung der GPU-Kapazität an die Anforderungslast

Empfohlene Topologie

2-stufige Blattstruktur mit Überzeichnung

Überbuchungsverhältnis von 4:1 bis 10:1 (kostenoptimiert)
Blattschalter am Netzwerkrand für Zugriff mit geringer Latenz
Spine ermöglicht die Verbindung zwischen den Racks.
Skaliert horizontal durch Hinzufügen von Blattschaltern

Protokollstapel

TCP/IP mit HTTP/2 oder gRPC

Standard-Ethernet (kein RDMA erforderlich)
HTTP/2 für das Multiplexen mehrerer Anfragen über eine einzelne Verbindung
gRPC für effiziente Binärserialisierung
TLS zur Verschlüsselung (verursacht eine Latenz von ca. 1 ms, ist aber aus Sicherheitsgründen erforderlich)

Schlüsseltechnologien

Lastverteilung: Verteilung der Anfragen auf den GPU-Pool (NGINX, Envoy, AWS ALB)
Anfragebündelung: Mehrere Anfragen werden zusammengefasst, um die GPU-Auslastung zu verbessern.
Modell-Caching: Häufig verwendete Modelle im GPU-Speicher halten, um Nachladeverzögerungen zu vermeiden
Verbindungspooling: Wiederverwendung von TCP-Verbindungen zur Reduzierung des Handshake-Overheads.

Bandbreitenzuweisung

Für einen Inferenzserver mit 8x A100 GPUs:

2 x 100-Gbit/s-Ethernet-Netzwerkkarten (gebündelt) = 200 Gbit/s Gesamt
Durchschnittlich 25 Gbit/s pro GPU (gegenüber 400 Gbit/s beim Training)
Ausreichend für mehr als 10.000 Anfragen pro Sekunde bei typischen Batchgrößen

Beispiel: OpenAI ChatGPT-Inferenzinfrastruktur

Umfang: Geschätzte 10.000+ GPUs (A100/H100-Mix)
Netzwerk: Standard-Ethernet mit intelligentem Lastausgleich
Topologie: Geografisch verteilte Edge-Cluster für geringe Latenz
Leistung: Antwortzeiten im Subsekundenbereich für die meisten Anfragen

Hybridarchitekturen: Training + Inferenz

Viele Organisationen betreiben beide Workloads auf gemeinsam genutzter Infrastruktur. Wichtige Strategien:

Strategie 1: Separate Cluster

Ansatz: Dedizierter Trainingscluster (hohe Bandbreite) + dedizierter Inferenzcluster (latenzoptimiert)

Vorteile:

Optimale Leistung für jede Arbeitslast
Keine Ressourcenkonflikte
Vereinfachte Kapazitätsplanung

Nachteile:

Höhere Kapitalkosten (doppelte Infrastruktur)
Geringere Gesamtauslastung der GPUs (Trainingscluster sind zwischen den Jobs im Leerlauf)

Ideal für: Große Organisationen mit kontinuierlichem Schulungsbedarf und hohem Datenaufkommen

Strategie 2: Zeitlich aufgeteilter gemeinsam genutzter Cluster

Vorgehensweise: Dieselben GPUs für das Training (außerhalb der Spitzenzeiten) und die Inferenz (Spitzenzeiten) verwenden.

Vorteile:

Höhere GPU-Auslastung (80-90% gegenüber 50-60% bei dedizierten Grafikkarten)
Niedrigere Kapitalkosten

Nachteile:

Komplexe Orchestrierung erforderlich
Aufwand für das Laden/Entladen des Modells (Minuten)
Risiko, dass Schulungsaufträge die SLAs für Inferenz beeinträchtigen

Ideal für: Mittelgroße Installationen mit vorhersehbaren Verkehrsmustern

Strategie 3: Mehrstufiges Netzwerk (Schienenoptimiert)

Vorgehensweise: Getrennte physikalische Netzwerke für das Training (InfiniBand mit hoher Bandbreite) und die Inferenz (Standard-Ethernet)

Vorteile:

Die Trennung der Arbeitslast verhindert Störungen
Kostenoptimiert (teure Stoffe nur dort, wo sie nötig sind)
Flexible Ressourcenzuweisung

Nachteile:

Erhöhte Komplexität der Verkabelung und der Schalter
Erfordert Server mit zwei Netzwerkkarten.

Ideal für: Hyperscale-Bereitstellungen mit gemischten Arbeitslasten

Kostenanalyse: Trainings- vs. Inferenznetzwerke

Vergleich eines Clusters mit 1024 GPUs

Komponente	Training (400G IB)	Inferenz (100G Eth)
NICs	8 Mio. $ (8x 400 GB IB/GPU)	500.000 US-Dollar (2x 100G Ethernet/GPU)
Schalter	4,8 Mio. USD (nicht blockierend)	1,2 Mio. USD (4:1 Überzeichnung)
Optik	2 Millionen US-Dollar	200.000 US-Dollar
Gesamtnetzwerk	14,8 Mio. US-Dollar	1,9 Mio. US-Dollar
% der GPU-Kosten	49%	6%

Trainingsnetzwerke sind aufgrund des Bandbreitenbedarfs 7-8 Mal teurer als Inferenznetzwerke.

Techniken zur Leistungsoptimierung

Für Schulungszwecke

Gradientenkomprimierung: Reduzierung des gesamten Datenvolumens um den Faktor 10-100 (FP16-, INT8-Quantisierung)
Hierarchisches All-Reduce: NVLink-Verbindung innerhalb eines Knotens, InfiniBand-Verbindung zwischen Knoten nutzen
Pipeline-Parallelität: Überlappende Kommunikation mit Berechnung
ZeRO Optimizer: Partitionierung der Optimierungszustände zur Reduzierung von Speicher- und Kommunikationsaufwand

Zum Schluss

Anfragebündelung: Zusammenfassung von 8–32 Anfragen zur Verbesserung der GPU-Auslastung
Modellquantisierung: INT8/INT4 reduziert die Modellgröße und die Übertragungszeit.
KV-Cache-Optimierung: Wiederverwendung des Aufmerksamkeitscaches für mehrstufige Konversationen
Spekulative Dekodierung: Reduzierung der Latenz bei autoregressiver Generierung

Überwachung und Beobachtbarkeit

Trainingskennzahlen

Latenz vollständig reduzieren (P50, P99, P99,9)
Netzwerkbandbreitenauslastung pro GPU
Paketverlustrate (sollte bei PFC 0 sein)
GPU-Auslastung (Ziel: 90%+)

Inferenzmetriken

Anfragelatenz (P50, P95, P99)
Anfragen pro Sekunde (QPS)
GPU-Speicherauslastung
Warteschlangenlänge und Wartezeit

Zukunftstrends

Ausbildung

800G/1,6T InfiniBand: Unterstützung von Modellen mit Billionen von Parametern
Optische Leitungsvermittlung: Rekonfigurierbare Topologien für dynamische Arbeitslasten
Netzwerkinterne Datenverarbeitung: Auslagerung der All-Reduce-Prozesse auf SmartNICs/DPUs

Schlussfolgerung

Edge-Inferenz: Modelle auf 5G-Basisstationen für eine Latenz von unter 1 ms bereitstellen
Serverlose Inferenz: Automatische Skalierung von 0 auf Tausende von GPUs in Sekundenschnelle
Modellkomprimierung: Destillation und Beschneidung reduzieren die Anforderungen an die Netzwerkübertragung

Abschluss

Training und Inferenz stellen die beiden Extreme des Spektrums der Netzwerkanforderungen dar. Training erfordert maximale Bandbreite bei moderater Latenztoleranz, während Inferenz geringe Latenz bei moderatem Bandbreitenbedarf priorisiert. Das Verständnis dieser Unterschiede ist für eine kosteneffiziente Infrastrukturplanung unerlässlich.

Wichtigste Erkenntnisse:

Trainingsnetzwerke kosten pro GPU 7-8 Mal mehr, sind aber für ein effizientes verteiltes Training unerlässlich.
Inferenznetzwerke können Standard-Ethernet mit Überbelegung nutzen, um die Kosten zu senken.
Hybridarchitekturen erfordern eine sorgfältige Trennung der Arbeitslasten, um Interferenzen zu vermeiden.
Netzwerkoptimierung (Komprimierung, Batchverarbeitung) kann die Leistung beider Arbeitslasten drastisch verbessern.

Da KI-Modelle immer skalierbarer werden, bleibt das Netzwerk ein entscheidender Wettbewerbsvorteil – Organisationen, die ihre Infrastruktur an die Workload-Charakteristika anpassen, werden überlegene Leistung und Wirtschaftlichkeit erzielen.

Zurück zum Blog

Sprache

Sprache

Einführung

Merkmale der Arbeitsbelastung: Eine grundlegende Kluft

Trainingsbelastung

Inferenz-Workloads

Vergleich der Netzwerkanforderungen

Architektur des Schulungsnetzwerks

Gestaltungsprinzipien

Empfohlene Topologie

Protokollstapel

Schlüsseltechnologien

Bandbreitenzuweisung

Beispiel: Metas KI-Forschungs-Supercluster (RSC)

Inferenznetzwerkarchitektur

Gestaltungsprinzipien

Empfohlene Topologie

Protokollstapel

Schlüsseltechnologien

Bandbreitenzuweisung

Beispiel: OpenAI ChatGPT-Inferenzinfrastruktur

Hybridarchitekturen: Training + Inferenz

Strategie 1: Separate Cluster

Strategie 2: Zeitlich aufgeteilter gemeinsam genutzter Cluster

Strategie 3: Mehrstufiges Netzwerk (Schienenoptimiert)

Kostenanalyse: Trainings- vs. Inferenznetzwerke

Vergleich eines Clusters mit 1024 GPUs

Techniken zur Leistungsoptimierung

Für Schulungszwecke

Zum Schluss

Überwachung und Beobachtbarkeit

Trainingskennzahlen

Inferenzmetriken

Zukunftstrends

Ausbildung

Schlussfolgerung

Abschluss

Abonnieren Sie unsere E-Mails