Quelle puissance de GPU pour héberger un modèle d'IA/LLM en local ?

Quelle puissance de carte graphique faut-il pour héberger un modèle d'IA/LLM en local ?
L'hébergement d'un modèle de langage de grande taille (LLM) en local repose principalement sur les performances de la carte graphique (GPU). Voici les principaux facteurs à prendre en compte pour choisir la bonne carte graphique :
Facteurs clés influençant le choix
- Mémoire VRAM : Plus un modèle est volumineux, plus il nécessite de VRAM.
- Architecture du GPU : Les architectures récentes (Ampere, Ada Lovelace, Hopper, Blackwell) offrent de meilleures performances.
- Inférence : Exécution d'un modèle existant, consomme moins de ressources.
- Entraînement : Nécessite plus de VRAM et de puissance de calcul.
- Précision numérique : FP32 (précis mais lourd), FP16 et INT8 (optimisés).
- Techniques d'optimisation : Quantification, Pruning, Distillation.
Cartes graphiques NVIDIA et tailles de modèles compatibles
Carte Graphique | VRAM | Taille de modèle estimée | Exemples de modèles |
---|---|---|---|
RTX 4060 Ti | 8/16GB | 7B à 13B | LLaMA 2 7B, Mistral 7B |
RTX 5070 / 5070 Ti | 12GB | 13B à 20B | LLaMA 2 13B |
RTX 5080 | 16GB | 20B à 34B | LLaMA 2 34B |
RTX 5090 | 32GB | 34B à 70B | LLaMA 2 70B, Falcon 40B |
RTX 6000 Ada | 48GB | Jusqu'à 180B | Fine-tuning de grands modèles |
H100 / H200 | 80GB/141GB | 175B+ | Exécution des plus grands modèles |
Exemples de modèles open-source
- Gemma 3 : Versions 1B, 4B, 12B, 27B
- QwQ : Modèle de raisonnement avancé, version 32B
- DeepSeek-R1 : Versions 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
- LLaMA 3.3 : Version 70B
- Phi-4 : Modèle de 14B de Microsoft
- Mistral : Version 7B
- Qwen 2.5 : Versions 0.5B, 1.5B, 3B, 7B, 14B, 32B, 72B
- Qwen 2.5 Coder : Versions 0.5B, 1.5B, 3B, 7B, 14B, 32B
Conclusion
Le choix d'une carte graphique pour LLM dépend de la VRAM disponible et des optimisations possibles.
- Modèles légers (7B à 13B) : RTX 4060 Ti (16GB)
- Modèles intermédiaires (20B+) : RTX 5080 ou 5090
- Grands modèles (70B+) : RTX 6000 Ada ou H200
Des optimisations comme la quantification permettent d’exécuter des modèles plus grands sur des GPU plus modestes.
Commentaires :0