Estamos comprometidos a respetar su privacidad. Por eso queremos ser completamente transparentes sobre el uso de sus datos mediante el depósito de cookies. Al aceptar el uso de cookies le ofreceremos un servicio adaptado a sus necesidades y una óptima experiencia de navegación en nuestro sitio. Si no personalizas tus cookies, las aceptas por defecto.

NVLink: Por qué la interconexión de GPU es crucial

NVLink: Por qué la interconexión de GPU es crucial

NVLink: Por qué la interconexión de GPU es crucial

Al entrenar un modelo grande en múltiples GPU, estas no trabajan de forma aislada. Deben intercambiar constantemente gradientes, activaciones y, en ocasiones, parámetros.

La velocidad de estos intercambios depende directamente de la interconexión entre las GPU. En muchos casos, el rendimiento no se limita solo a la potencia de cálculo, sino también a la velocidad de comunicación entre las GPU.

PCIe vs. NVLink

PCIe es la interconexión estándar presente en la mayoría de las estaciones de trabajo y servidores. Funciona muy bien para muchos usos, pero puede convertirse en un cuello de botella al entrenar modelos grandes en múltiples GPU.

NVLink, desarrollado por NVIDIA, es una interconexión de alta velocidad diseñada para acelerar la comunicación entre GPU.

En las GPU para centros de datos de la generación Hopper de NVIDIA (H100 y H200), NVLink puede alcanzar hasta 900 GB/s de ancho de banda bidireccional por GPU.

En las plataformas Blackwell más recientes (GB200 NVL72), la nueva generación de NVLink puede alcanzar un ancho de banda de GPU a GPU de 1,8 TB/s por GPU.

En resumen:

PCIe = una autopista típica entre dos ciudades

NVLink = una línea ferroviaria de alta velocidad dedicada

Para cargas de trabajo pequeñas, como la inferencia de una sola imagen, PCIe puede ser suficiente. Sin embargo, para el entrenamiento distribuido de modelos grandes, especialmente con operaciones como la reducción global, la diferencia se vuelve muy notable.

Un ejemplo concreto: durante el entrenamiento distribuido, las GPU deben sincronizar sus gradientes.

Con un modelo de 70 mil millones de parámetros en FP16, esto representa aproximadamente 140 GB de datos brutos. Dependiendo de la estrategia utilizada (paralelismo de datos, paralelismo tensorial, paralelismo de pipeline o Zero ROI), una parte significativa de estos datos puede necesitar transferirse entre GPU en cada etapa.

En una interconexión lenta, esta comunicación puede representar varios segundos perdidos en cada iteración.

Con NVLink, este coste se reduce considerablemente. Como resultado, las GPU dedican más tiempo a calcular y menos tiempo a esperar datos.

Error común

Un error común es creer que NVLink está disponible en cuanto se instalan varias GPU NVIDIA en la misma máquina. Esto no es cierto.

NVLink depende del modelo y la plataforma de la GPU.

Se encuentra principalmente en GPU para centros de datos, como las V100, A100, H100 y H200, así como en algunas tarjetas profesionales RTX/Quadro.

En el mercado de consumo, NVLink ha ido desapareciendo gradualmente. Algunas tarjetas, como la RTX 3090, aún conservaban un conector NVLink, pero la RTX 4090 no.

Las GPU GeForce recientes (serie 50, arquitectura Blackwell) suelen comunicarse mediante PCIe, lo que puede convertirse en un cuello de botella para la comunicación colectiva, como NCCL all-reduce.

Conclusión clave: Un clúster multi-GPU de alto rendimiento no se trata solo de añadir GPU potentes. Se trata de una arquitectura completa donde la comunicación entre GPU es tan importante como la potencia de cálculo bruta.

Para inferencias sencillas, PCIe puede ser suficiente.

Para el entrenamiento distribuido de modelos grandes, NVLink puede marcar una diferencia significativa.

Por lo tanto, la elección correcta depende no solo de la GPU en sí, sino también de cómo se conectan las GPU entre sí.

    Deja una respuesta