NVLink : pourquoi l’interconnexion entre GPU est cruciale

NVLink : pourquoi l’interconnexion entre GPU est cruciale
Lorsqu’on entraîne un grand modèle sur plusieurs GPU, ceux-ci ne travaillent pas de manière isolée. Ils doivent constamment échanger des gradients, des activations et parfois des paramètres.
La vitesse de ces échanges dépend directement de l’interconnexion entre les GPU. Dans de nombreux cas, ce n’est pas uniquement la puissance de calcul qui limite les performances, mais la vitesse à laquelle les GPU communiquent entre eux.
PCIe vs NVLink
PCIe est l’interconnexion standard que l’on retrouve dans la majorité des stations de travail et serveurs. Elle fonctionne très bien pour de nombreux usages, mais elle peut devenir un goulot d’étranglement lors de l’entraînement de grands modèles sur plusieurs GPU.
NVLink, développé par NVIDIA, est une interconnexion haut débit conçue pour accélérer les échanges GPU-à-GPU.
-
Sur les GPU datacenter NVIDIA de génération Hopper (H100 et H200), NVLink peut atteindre jusqu’à 900 Go/s de bande passante bidirectionnelle par GPU.
-
Sur les plateformes Blackwell récentes (GB200 NVL72), une nouvelle génération de NVLink peut atteindre 1,8 To/s de bande passante GPU-à-GPU par GPU.
Pour simplifier :
-
PCIe = autoroute classique entre deux villes
-
NVLink = ligne ferroviaire à grande vitesse dédiée
Pour une petite charge, comme l’inférence d’une seule image, PCIe peut suffire. Mais pour l’entraînement distribué de grands modèles, notamment avec des opérations comme all-reduce, la différence devient très visible.
Exemple concret
Pendant l’entraînement distribué, les GPU doivent synchroniser leurs gradients.
Avec un modèle de 70 milliards de paramètres en FP16, cela représente environ 140 Go de données brutes. Selon la stratégie utilisée (data parallelism, tensor parallelism, pipeline parallelism ou ZeRO), une partie importante de ces données peut devoir circuler entre les GPU à chaque étape.
-
Sur une interconnexion lente, cette communication peut représenter plusieurs secondes perdues à chaque itération.
-
Avec NVLink, ce coût est fortement réduit. Résultat : les GPU passent plus de temps à calculer et moins de temps à attendre les données.
Erreur fréquente
Une idée reçue est que NVLink est disponible dès qu’on installe plusieurs GPU NVIDIA dans une même machine. Ce n’est pas le cas.
-
NVLink dépend du modèle de GPU et de la plateforme.
-
Il est surtout présent sur les GPU datacenter comme V100, A100, H100, H200, ainsi que certaines cartes professionnelles RTX/Quadro.
-
Côté grand public, NVLink a progressivement disparu. Certaines cartes comme la RTX 3090 disposaient encore d’un connecteur NVLink, mais les RTX 4090 n’en proposent pas.
-
Les GPU GeForce récents (série 50, architecture Blackwell) communiquent généralement via PCIe, ce qui peut devenir un goulot d’étranglement lors des communications collectives comme NCCL all-reduce.
À retenir
Un cluster multi-GPU performant, ce n’est pas seulement une addition de GPU puissants. C’est une architecture complète, où la communication entre GPU compte autant que la puissance brute de calcul.
-
Pour de l’inférence légère, PCIe peut suffire.
-
Pour l’entraînement distribué de grands modèles, NVLink peut faire une différence majeure.
Le bon choix ne dépend donc pas uniquement du GPU, mais aussi de la manière dont les GPU sont connectés entre eux.


Commentaires :0