Ost-West-Datenverkehr im Rechenzentrum: Anforderungen an optische Module für moderne Workloads

Einführung

Das traditionelle Datenverkehrsmodell von Rechenzentren – bei dem die Kommunikation überwiegend in Nord-Süd-Richtung zwischen Clients und Servern verläuft – hat sich grundlegend verändert. Moderne Anwendungen, insbesondere KI-Training, verteilte Datenbanken, Microservices-Architekturen und hyperkonvergente Infrastrukturen, erzeugen massive Ost-West-Datenströme zwischen den Servern innerhalb des Rechenzentrums. Diese Transformation hat tiefgreifende Auswirkungen auf die Auswahl optischer Module, die Netzwerkarchitektur und die Kapazitätsplanung. Das Verständnis der Ost-West-Datenverkehrsmuster und ihrer Auswirkungen auf optische Netzwerke ist daher unerlässlich für die Entwicklung effizienter und skalierbarer KI-Rechenzentren.

Verständnis des Ost-West- vs. Nord-Süd-Verkehrs

Traditionelles Nord-Süd-Modell

Merkmale: In traditionellen dreistufigen Architekturen (Zugriff-Verteilung-Kern) fließt der Datenverkehr primär vertikal zwischen Endbenutzern und zentralen Servern. Ein typisches Verhältnis betrug 80 % Nord-Süd (Client-Server) zu 20 % Ost-West (Server-Server).

Netzwerkdesign: Optimiert für Nord-Süd-Bandbreite mit überlasteten Ost-West-Verbindungen. Kern- und Verteilungsschicht wiesen hohe Bandbreite auf, während die Server-zu-Server-Kommunikation über mehrere Hops mit begrenzter Kapazität erfolgte.

Einsatz optischer Module: Hochgeschwindigkeitsmodule konzentrierten sich auf die Kern- und Verteilungsschicht (40G, 100G), während in der Zugriffsschicht niedrigere Geschwindigkeiten (1G, 10G) verwendet wurden.

Moderne Ost-West-Dominanz

Verkehrsverlagerung: Moderne Rechenzentren weisen einen Ost-West-Verkehr von 70-90 % auf, wobei einige KI-Trainingscluster während des Trainingsbetriebs einen Ost-West-Anteil von fast 95 % erreichen.

Fahrer:

  • Verteiltes Rechnen : MapReduce, Spark und andere Frameworks verteilen Berechnungen auf Hunderte oder Tausende von Servern.
  • Mikrodienste : Anwendungen, die in Dutzende oder Hunderte von Diensten zerlegt werden, die ständig miteinander kommunizieren.
  • KI-Training : Gradientensynchronisation erfordert eine vollständige Kommunikation zwischen allen GPUs.
  • Verteilte Speicherung : Ceph, HDFS und andere Systeme replizieren Daten über mehrere Knoten hinweg.
  • Migration virtueller Maschinen : Bei der Live-Migration werden VMs zwischen Hosts verschoben, was zu großen Datentransfers führt.

Netzwerkimplikationen: Erfordert nicht blockierende oder minimal überbuchte Ost-West-Bandbreite, was eine grundlegende Änderung der Netzwerktopologie und der Anforderungen an optische Module zur Folge hat.

KI-Training: Die ultimative Ost-West-Arbeitsbelastung

Kommunikationsmuster in verteilten Schulungen

Datenparallelität: Die gängigste Trainingsstrategie verteilt die Daten auf mehrere GPUs, wobei jede GPU unterschiedliche Datenpakete verarbeitet:

  • Vorwärtspass : Minimale Kommunikation, jede GPU verarbeitet die Prozesse unabhängig.
  • Rückwärtsdurchlauf : Gradienten lokal berechnen
  • Gradientensynchronisation : Die All-Reduce-Operation tauscht Gradienten zwischen allen GPUs aus – reiner Ost-West-Datenverkehr.
  • Datenvolumen : Für ein Modell mit 175 Milliarden Parametern (350 GB Gradienten) müssen 1024 GPUs in jeder Iteration 350 GB austauschen.
  • Frequenz : 5-20 Iterationen pro Sekunde, wodurch kontinuierliche Ost-West-Verkehrsspitzen erzeugt werden

Modellparallelität: Große Modelle, die auf mehrere GPUs verteilt werden, erzeugen unterschiedliche Muster:

  • Pipeline-Parallelität : Sequenzielle Stufen leiten Aktivierungen vorwärts und Gradienten rückwärts weiter – lineares Ost-West-Verkehrsmuster
  • Tensorparallelität : Auf mehrere GPUs verteilte Schichten erfordern häufige All-Reduce-Operationen innerhalb jeder Schicht – extrem hohe Ost-West-Bandbreite.
  • Mixture-of-Experts : Der Routing-Mechanismus erzeugt dynamischen Ost-West-Datenverkehr zu verschiedenen Experten-GPUs.

Bandbreitenanforderungen: Für eine optimale GPU-Auslastung muss die Netzwerkbandbreite der GPU-Rechengeschwindigkeit entsprechen oder diese übertreffen. Eine NVIDIA H100 mit 1000 TFLOPS benötigt pro GPU eine Netzwerkbandbreite von ca. 400–800 Gbit/s, um Kommunikationsengpässe bei umfangreichen Trainingsdaten zu vermeiden.

Auswirkungen des optischen Moduls

Serverkonnektivität:

  • Server mit einer GPU : 200G- oder 400G-Netzwerkkarte ausreichend
  • Server mit 8 GPUs : 2 × 400G oder 8 × 400G (schienenoptimiert) erforderlich
  • Formfaktor : QSFP-DD oder OSFP, abhängig von den thermischen und Dichteanforderungen
  • Latenz : <500 ns Modullatenz ist entscheidend für die Aufrechterhaltung der GPU-Auslastung.

Switch-Infrastruktur:

  • Leaf-Switches : 400G- oder 800G-Serveranschlüsse
  • Spine-Switches : 800G oder 1,6T für die Aggregation
  • Überbuchung : 1:1 (nicht blockierend) bis maximal 2:1 für KI-Training
  • Gesamtanzahl Module : Ein GPU-Cluster mit 10.000 GPUs benötigt je nach Architektur 10.000 bis 20.000 optische Module.

Mikrodienste und Containernetzwerke

Service Mesh Kommunikation

Architektur: Moderne Anwendungen bestehen aus Hunderten von Microservices, die jeweils in Containern laufen und über ein Service Mesh (Istio, Linkerd, Consul) kommunizieren.

Verkehrsmerkmale:

  • Hohe Verbindungsanzahl : Tausende gleichzeitige TCP-Verbindungen zwischen Diensten
  • Kleine Nachrichten : Viele Anfragen sind klein (Kilobytes), aber sehr häufig.
  • Unvorhersehbare Muster : Die Datenströme ändern sich dynamisch basierend auf Benutzeranfragen und Dienstabhängigkeiten.
  • Ost-West-Dominanz : 80-90 % des Datenverkehrs findet innerhalb des Rechenzentrums zwischen verschiedenen Diensten statt.

Netzwerkanforderungen:

  • Niedrige Latenz : Die Latenz zwischen den Diensten muss <1 ms betragen, um die Reaktionsfähigkeit der Anwendung aufrechtzuerhalten.
  • Hohe Paketrate : Erforderliche Kapazität: Millionen Pakete pro Sekunde (Mpps).
  • Bandbreite : Die Gesamtbandbreite ist wichtiger als die Bandbreite pro Datenfluss.
  • Dienstqualität : Latenzempfindliche Dienste von Batch-Workloads unterscheiden

Auswahl des optischen Moduls:

  • Server-Netzwerkkarten : 25 Gbit/s oder 100 Gbit/s sind für die meisten Microservices-Workloads ausreichend.
  • Aggregation : 400G für Leaf-Spine-Verbindungen zur Bewältigung des aggregierten Datenverkehrs
  • Latenzoptimierung : Verwenden Sie Module mit niedriger Latenz (LPO, SR8) für latenzkritische Dienste.
  • Kostenoptimierung : Microservices benötigen keine 800 GB pro Server, wodurch eine kostengünstige 100-GB-Bereitstellung möglich ist.

Kubernetes-Netzwerk

Pod-zu-Pod-Kommunikation: Kubernetes-Netzwerke erstellen Overlay-Netzwerke (Calico, Flannel, Cilium) für die Pod-Kommunikation:

  • Kapselungs-Overhead : VXLAN oder andere Tunnelverfahren fügen 50–100 Byte pro Paket hinzu und erhöhen somit die Bandbreitenanforderungen.
  • Netzwerkrichtlinien : In Software verarbeitete Firewall-Regeln können zu Latenz führen.
  • Diensterkennung : DNS und Service Mesh erhöhen den Kommunikationsaufwand.

Optimierungsstrategien:

  • SR-IOV : Direkter Hardwarezugriff umgeht den Software-Netzwerkstack und reduziert so Latenz und CPU-Auslastung.
  • DPDK : Benutzernetzwerk für hohe Paketraten
  • eBPF : Effiziente Paketverarbeitung im Kernel für Netzwerkrichtlinien
  • Auswirkungen des optischen Moduls : Hochleistungs-Netzwerkkarten mit SR-IOV benötigen 100G- oder 200G-Optikmodule, um die Hardwarekapazitäten voll auszuschöpfen.

Verteilte Speichersysteme

Objektspeicher (Ceph, MinIO)

Replikationsverkehr: Objektspeichersysteme replizieren Daten zur Gewährleistung der Datenbeständigkeit über mehrere Knoten hinweg:

  • Schreibverstärkung : Dreifache Replikation bedeutet, dass jeder Schreibvorgang den dreifachen Netzwerkverkehr erzeugt.
  • Neuausrichtung : Das Hinzufügen oder Entfernen von Knoten löst massive Datenverschiebungen aus.
  • Erasure Coding : Effizienter als Replikation, erzeugt aber dennoch erheblichen Ost-West-Verkehr.

Bandbreitenanforderungen:

  • Speicherknoten : 25 GB oder 100 GB pro Knoten, abhängig von der Anzahl der Festplatten und der Leistungsstufe.
  • Aggregation : 400G für Speichercluster-Aggregationsschalter
  • Trennung : Ein dediziertes Speichernetzwerk isoliert den Speicherdatenverkehr vom Rechendatenverkehr.

Beispielbereitstellung: Ceph-Cluster mit 1000 Knoten und 100 TB pro Knoten:

  • Jeder Knoten: 2×25G (insgesamt 50G) für Redundanz
  • Leaf-Switches: 48 × 25G-Serverports, 4 × 400G-Uplinks
  • Spine-Switches: 64 × 400G-Ports
  • Optische Module insgesamt: 2.000 × 25G + 256 × 400G

Verteilte Dateisysteme (HDFS, GlusterFS)

Datenlokalität: Verteilte Dateisysteme versuchen, Berechnungen in der Nähe der Daten durchzuführen, erzeugen aber dennoch Ost-West-Datenverkehr:

  • Blockreplikation : HDFS verwendet typischerweise 3-fache Replikation.
  • MapReduce Shuffle : Zwischenspeicherung von Daten zwischen Map- und Reduce-Aufgaben
  • Datenverzerrung : Ungleichmäßige Datenverteilung erzeugt Hotspots

Netzwerkdesign:

  • Rack-Sicherheit : Platzieren Sie Repliken in verschiedenen Racks, um Rack-Ausfälle zu überstehen.
  • Bandbreitenbereitstellung : Sicherstellen, dass ausreichend Bandbreite zwischen den Racks für Replikation und Shuffle vorhanden ist.
  • Optische Module : 100G- oder 200G-Serververbindungen, 400G-Verbindungen zwischen Racks.

Netzwerktopologieoptimierung für Ost-West-Verkehr

Dorn-Blatt-Architektur (Clos)

Gestaltungsprinzipien:

  • Zweistufig : Blatt-Switches verbinden sich mit Servern, Spine-Switches stellen die Verbindung her.
  • Vollständiges Netz : Jedes Blatt ist mit jedem Dorn verbunden.
  • Pfade mit gleichen Kosten : Mehrere Pfade zwischen je zwei Servern zum Lastausgleich.
  • Skalierbarkeit : Durch Hinzufügen von Spine-Switches lässt sich die Bandbreite erhöhen, durch Hinzufügen von Leaf-Switches die Anzahl der Server.

Einsatz des optischen Moduls:

  • Leaf-to-Server : 400 Gbit/s oder 800 Gbit/s, abhängig von den Serveranforderungen
  • Blatt-zu-Wirbelsäule : 800G oder 1,6T für maximale Bisektionsbandbreite
  • Überbuchung : 1:1 (nicht blockierend) für KI, 2:1 oder 3:1 akzeptabel für allgemeine Arbeitslasten

Beispiel: KI-Cluster mit 1024 Servern

  • Server: 1024 × 2×400G NICs = 2048×400G Module
  • Blattverteiler: 32 Verteiler × 64 × 400G Serverports + 16 × 800G Uplinks = 2.048 × 400G + 512 × 800G
  • Spine-Switches: 16 Switches × 64 × 800G-Ports = 1.024 × 800G
  • Insgesamt: 4.096 × 400G + 1.536 × 800G optische Module
  • Bisektionsbandbreite: 409,6 Tbit/s (nicht blockierend)

Fettbaum-Topologie

Merkmale: Verallgemeinerung des Clos-Netzwerks mit mehreren Ebenen:

  • Dreistufige Architektur : Zugriffs-, Aggregations- und Kernschichten
  • Überzeichnung : Typischerweise 4:1 oder 8:1 auf der Aggregationsebene.
  • Kostenoptimierung : Reduziert die Anzahl der optischen Module im Vergleich zu nicht blockierenden Clos-Systemen.

Eignung: Geeignet für gemischte Arbeitslasten, bei denen nicht der gesamte Datenverkehr in Ost-West-Richtung verläuft. KI-Trainingscluster benötigen eine geringere Überbuchung (maximal 2:1).

Libelle und Libelle+

Design: Hierarchische Topologie mit Gruppen von Schaltern, optimiert für Schalter mit hoher Basis:

  • Intra-Group : Verbindungen zwischen allen Mitgliedern innerhalb jeder Gruppe
  • Inter-Gruppe : Wenige Verbindungen zwischen den Gruppen
  • Routing : Adaptives Routing zum Ausgleich der Last auf verschiedene Pfade

Vorteile:

  • Skalierbarkeit : Kann mit weniger Switch-Ebenen auf über 100.000 Server skaliert werden.
  • Durchmesser : Ein geringer Netzwerkdurchmesser (2-3 Hops) reduziert die Latenz.
  • Kosten : Weniger optische Module als bei einem vollständigen Clos-System im großen Maßstab

Herausforderungen:

  • Komplexität : Erfordert ausgefeilte Routing-Algorithmen
  • Hotspots : Verbindungen zwischen Gruppen können zu Engpässen werden.
  • Einführung : Weniger verbreitet als Clos in kommerziellen Rechenzentren

Verkehrsplanung und Lastverteilung

ECMP (Equal-Cost Multi-Path)

Mechanismus: Verteilung des Datenverkehrs auf mehrere gleichwertige Pfade mittels hashbasierter Auswahl:

  • Hash-Funktion : Typischerweise ein 5-Tupel (Quell-IP, Ziel-IP, Quellport, Zielport, Protokoll)
  • Pro-Flow : Alle Pakete eines Datenstroms nehmen denselben Pfad, um eine Neuanordnung zu vermeiden.
  • Lastverteilung : Idealerweise gleichmäßig, aber Hash-Kollisionen können zu Ungleichgewichten führen.

Einschränkungen:

  • Elefantenströme : Große Wassermassen können einzelne Wege überfluten
  • Hash-Polarisierung : Mehrere Switches, die denselben Hash verwenden, können dauerhafte Ungleichgewichte erzeugen.
  • Anpassungsfähigkeit : Kann nicht schnell auf Überlastung oder Verbindungsabbrüche reagieren.

Einfluss optischer Module: Die Effektivität von ECMP hängt von einer ausreichenden Anzahl paralleler Pfade ab. Mehr optische Module (Switches mit höherer Portanzahl) ermöglichen eine bessere Lastverteilung.

Adaptives Routing

Stauabhängiges Routing: Dynamische Pfadauswahl basierend auf der Echtzeit-Stauslastung:

  • Mechanismen : Überwachung der Warteschlangenlängen, Paketverluste oder expliziter Überlastungssignale
  • Umleitung : Verlagern Sie den Datenverkehr von überlasteten auf unterausgelastete Pfade.
  • Granularität : Umleitung pro Datenfluss oder pro Paket

Technologien:

  • CONGA : Lastverteilung unter Berücksichtigung von Überlastung für Rechenzentren
  • HULA : Hop-by-Hop-Lastverteilung mittels netzwerkinterner Telemetrie
  • Letflow : Flowlet-basiertes adaptives Routing

Vorteile für den Ost-West-Verkehr: Adaptives Routing kann die Auslastung der optischen Modulkapazität im Vergleich zu statischem ECMP um 20-40 % verbessern und so die Bisektionsbandbreite effektiv ohne zusätzliche Hardware erhöhen.

Überwachung und Transparenz

Verkehrstelemetrie

Durchflussüberwachung:

  • sFlow/NetFlow : Beispielhafte Datenflüsse zum Erkennen von Mustern
  • Granularität : 1-zu-1000- oder 1-zu-10000-Abtastung für Hochgeschwindigkeitsverbindungen
  • Analyse : Identifizierung der Top-Sprecher, Verkehrsmatrizen, Anwendungsaufschlüsselung

Telemetrie des optischen Moduls:

  • DDM (Digitale Diagnoseüberwachung) : Temperatur, optische Leistung, Spannung, Strom
  • Fehlerzähler : FEC-korrigierte Fehler, nicht korrigierbare Fehler, Symbolfehler
  • Auslastung : Bandbreitenauslastung pro Modul und pro Spur

Korrelation: Verkehrsmuster mit der Leistung optischer Module korrelieren, um Folgendes zu identifizieren:

  • Überlastete Verbindungen, die Kapazitätserweiterungen erfordern
  • Unterausgelastete Verbindungen deuten auf Routing-Ineffizienzen hin
  • Optische Moduldegradation, die zu Paketverlusten oder erneuten Übertragungen führt

Kapazitätsplanung

Verkehrswachstumsmodellierung:

  • Historische Analyse : Analysieren Sie das Verkehrswachstum der letzten 6-12 Monate.
  • Workload-Prognose : Prognostizieren Sie zukünftiges KI-Training, Speicherbedarf und Anwendungsdatenverkehr.
  • Kapazitätsreserve : Halten Sie bei Ost-West-Verbindungen eine Kapazitätsreserve von 30–50 % für Lastspitzen und Wachstum bereit.

Beschaffung optischer Module:

  • Lieferzeit : 8–16 Wochen für große Bestellungen optischer Module
  • Lagerbestand : Halten Sie 10-15 % Ersatzbestand für einen schnellen Einsatz bereit.
  • Phasenweise Bereitstellung : Kapazitätsbereitstellung in Phasen, die dem Arbeitslastwachstum entsprechen

Strategien zur Kostenoptimierung

Workload-Segmentierung

Gestuftes Netzwerkdesign: Nicht alle Arbeitslasten benötigen die gleiche Ost-West-Bandbreite:

  • Tier 1 (KI-Training) : 800 Gbit/s pro Server, 1:1-Überbuchung, Premium-Optikmodule
  • Tier 2 (Inferenz, Datenbanken) : 400 GB pro Server, 2:1 Überbuchung, Standardmodule
  • Tier 3 (Webserver, Batch) : 100 GB pro Server, 4:1 Überbuchung, kostenoptimierte Module

Kostenauswirkungen: Für ein Rechenzentrum mit 10.000 Servern:

  • Einheitliches 800G: 20.000 × 800G-Module = 24 Mio. $
  • Gestaffelt (2000 Stufe 1, 5000 Stufe 2, 3000 Stufe 3): 4.000 × 800 G + 10.000 × 400 G + 6.000 × 100 G = 11,6 Mio. $ (52 % Einsparungen)

Stufenweise Kapazitätserweiterung

Just-in-Time-Bereitstellung: Optische Module werden bedarfsgerecht und nicht alle im Voraus bereitgestellt:

  • Phase 1 : Bereitstellung von 70 % der geplanten Kapazität zum Start
  • Phase 2 : 20 % hinzufügen, wenn die Auslastung 60 % übersteigt.
  • Phase 3 : Die letzten 10 % werden hinzugefügt, sobald die Auslastung 75 % übersteigt.

Vorteile:

  • Die Kapitalkosten über einen längeren Zeitraum verteilen
  • Profitieren Sie von sinkenden Preisen (10-20 % jährlich für neue Technologien).
  • Die Kapazität an den tatsächlichen Bedarf anpassen

Risiken:

  • Verzögerungen in der Lieferkette können eine rechtzeitige Expansion verhindern.
  • Die Preise steigen, wenn der Markt anzieht.
  • Operative Komplexität mehrerer Bereitstellungsphasen

Zukunftstrends in der Ost-West-Vernetzung

Optische Schaltungsschaltung

Konzept: Dynamische Rekonfiguration optischer Pfade für vorhersehbare Verkehrsmuster:

  • KI-Training : Alle Reduktionsoperationen folgen vorhersehbaren Mustern und können auf optischen Schaltkreisen geplant werden.
  • Massendatentransfer : Verschiebung großer Datenmengen zwischen Speicher und Rechenzentrum
  • Vorteile : Nahezu keine Schaltverzögerung, kein Mehraufwand bei der Paketverarbeitung.

Technologie:

  • MEMS-Schalter : Mechanisch rekonfigurierbar, Schaltzeit 1–10 ms
  • Siliziumphotonische Schalter : Elektronisch rekonfigurierbar, Schaltzeit 10–100 ns
  • Hybridnetzwerke : Kombination von Paketvermittlung für die Steuerungsebene mit Leitungsvermittlung für die Datenebene

In-Network Computing

Aggregation im Netzwerk: Gradientenaggregation innerhalb von Switches anstatt an Endpunkten durchführen:

  • Mechanismus : Programmierbare Schalter (P4) oder spezielle ASICs führen Summen-/Mittelwertberechnungen durch.
  • Vorteil : Reduziert den Ost-West-Verkehr um 50-90 % bei vollständig reduziertem Betrieb
  • Beispiel : SwitchML erreicht eine 5- bis 10-mal schnellere All-Reduce-Operation für kleine Nachrichten.

Auswirkungen des optischen Moduls: Netzwerkinterne Datenverarbeitung reduziert den Bandbreitenbedarf und ermöglicht so unter Umständen den Einsatz von 400G- anstelle von 800G-Modulen für die gleiche Arbeitslast oder die Realisierung größerer Cluster mit der gleichen Anzahl optischer Module.

Abschluss

Die Verlagerung des Datenverkehrs von Nord-Süd- zu Ost-West-Richtung hat das Netzwerkdesign von Rechenzentren und die Anforderungen an optische Module grundlegend verändert. Moderne KI-Workloads, verteilte Anwendungen und hyperkonvergente Infrastrukturen erfordern Ost-West-Verbindungen mit hoher Bandbreite und geringer Latenz, die vor zehn Jahren noch unvorstellbar waren.

Wichtigste Erkenntnisse:

  • Ost-West-Dominanz : 70–95 % des Datenverkehrs in modernen Rechenzentren erfolgt zwischen Servern.
  • KI als Treiber : Das KI-Training stellt die anspruchsvollste Ost-West-Arbeitslast dar und benötigt 400–800 GB pro Server.
  • Architekturentwicklung : Spine-Leaf-Topologien mit minimaler Überbelegung sind unerlässlich
  • Optische Modulskalierung : Große Installationen erfordern Zehntausende von Hochgeschwindigkeitsmodulen.
  • Kostenoptimierung : Durch gestaffelte Ansätze und phasenweise Einführung lassen sich die Kosten senken, ohne die Leistung zu beeinträchtigen.

Optische Hochgeschwindigkeitsmodule – 400G, 800G und darüber hinaus – sind die entscheidende Voraussetzung für die großflächige Ost-West-Datenübertragung. Ihre Bedeutung für die moderne Rechenzentrumsarchitektur kann nicht hoch genug eingeschätzt werden. Da sich Workloads zunehmend in Richtung verteilter, kommunikationsintensiverer Muster entwickeln, wird die Rolle optischer Module für die Bereitstellung von Ost-West-Verbindungen mit hoher Bandbreite und geringer Latenz weiter zunehmen. Unternehmen, die diese Verkehrsmuster verstehen und ihre optische Netzwerkinfrastruktur entsprechend ausrichten, sind bestens gerüstet, um die anspruchsvollen Anwendungen von heute und morgen zu unterstützen.

Zurück zum Blog