Il ne fait aucun doute que NVIDIA continue de dominer l’espace de calcul parallèle avec ses diverses séries de GPU populaires. Mais avec les accélérateurs Instinct AI d’AMD qui équipent deux des plus récents et des plus grands supercalculateurs (Frontier et El Capitan) et le soutien croissant de la communauté pour leur plateforme open-source ROCm, NVIDIA pourrait bien avoir trouvé son plus grand rival à ce jour.

En quoi consistent exactement les accélérateurs d’IA Instinct d’AMD ? Qu’est-ce qui les rend puissants et comment se comparent-ils aux GPU Tensor de NVIDIA ?


Qu’est-ce qu’un processeur AMD Instinct ?

Les processeurs Instinct d’AMD sont des matériels d’entreprise utilisés pour le calcul haute performance (HPC) et le traitement accéléré de l’IA. Contrairement aux GPU grand public, les GPU Instinct sont spécialisés pour mieux gérer l’apprentissage de l’IA et d’autres tâches de haute performance grâce à des innovations logicielles et matérielles.

La série de GPU Instinct d’AMD a été utilisée pour alimenter le premier supercalculateur à franchir la barrière Exascale, avec une performance de 1,1 EFLOPs en opérations en double précision par seconde. Les superordinateurs utilisant les GPU Instinct sont actuellement utilisés pour la recherche sur les traitements contre le cancer, l’énergie durable et le changement climatique.

Comment les processeurs Instinct accélèrent l’IA et le HPC

Pour que les serveurs et supercalculateurs grand public les plus puissants du monde puissent atteindre le niveau de traitement Exascale, les accélérateurs Instinct d’AMD ont dû être équipés de plusieurs mises à jour et innovations technologiques.

Examinons quelques-unes des technologies nouvelles et actualisées utilisées sur les GPU Instinct d’AMD.

1. Compute DNA (CDNA)

graphique numérique du composant CDNA de l'instinct AMD
Crédit photo : Pascal Liebart/AMDLibrary

Les accélérateurs AMD Instinct récents (à partir du MI100) utilisent l’architecture CDNA de la société.

L’architecture CDNA se concentre principalement sur des caractéristiques telles que le traitement parallèle, la hiérarchie de la mémoire et les performances de calcul optimisées grâce à la technologie Matrix Core. Même le calcul intensif, l’intelligence artificielle ou l’apprentissage automatique qui s’exécutent sur de simples serveurs peuvent être pris en charge par CDNA, de même que les énormes ordinateurs Exascale.

La technologie Matrix Core d’AMD accélère l’apprentissage de l’IA en prenant en charge les opérations de précision mixte. La capacité de calculer à différentes précisions permet aux GPU Instinct de calculer efficacement les opérations matricielles en fonction du niveau de précision requis.

Les formats de précision de calcul les plus populaires sont FP64, FP32, FP16, BF16 et INT8. FP signifie Floating Point (virgule flottante), BF pour Brain Floating Point (virgule flottante cérébrale) et INT pour Integer (nombre entier). Plus le nombre correspondant au format est élevé, plus le calcul est précis. Le fonctionnement en 64 bits est connu sous le nom de double précision. Avec 32 bits, c’est de la simple précision, avec 16 bits, c’est de la demi-précision, et ainsi de suite.

Étant donné qu’une grande partie de la formation des modèles d’apprentissage profond ne nécessite pas beaucoup de précision, la possibilité de calculer des opérations matricielles en demi-précision ou même en quart de précision pour l’inférence réduit considérablement la charge de travail, accélérant ainsi l’apprentissage de l’IA.

2. Mémoire à grande largeur de bande (HBM)

graphique numérique des composants internes de l'accélérateur AMD
Crédit photo : Jason De Vos/AMDLibrary

Chaque accélérateur AMD Instinct AI comprend jusqu’à 880 Matrix Cores. Les processeurs Matrix Core d’AMD étant capables d’effectuer 383 TFLOP de calculs de demi-précision, il est nécessaire de disposer d’une mémoire ultra-rapide. Les dernières offres Instinct d’AMD sont équipées d’une mémoire à large bande passante (HBM) au lieu de la RAM DDR4 ou DDR5 habituelle.

Contrairement à la mémoire conventionnelle, la HBM utilise ce que l’on appelle une architecture empilée en 3D. Ce type d’architecture fait référence à une approche de conception où les puces DRAM sont empilées verticalement les unes sur les autres. Cela permet d’empiler les puces à la fois sur l’axe vertical et sur l’axe horizontal, d’où le terme d’empilage 3D.

Grâce à cette technologie d’empilage 3D, les HBM peuvent avoir des capacités de mémoire physique de quelques centaines de gigaoctets par module, alors que les DRR5 ne peuvent atteindre que quelques dizaines de gigaoctets par module. Outre leur capacité, les mémoires HBM sont également connues pour leurs performances supérieures en termes de taux de transfert et pour leur meilleure efficacité énergétique que les mémoires DDR classiques.

3. Infinity Fabric

Une autre innovation incluse dans les GPU Instinct est la technologie Infinity Fabric d’AMD. Infinity Fabric est un type de système d’interconnexion qui relie les CPU et les GPU de manière dynamique et intelligente. Cela permet aux composants de communiquer efficacement entre eux.

Avec l’Infinity Fabric, au lieu de connecter les composants avec un bus ordinaire, les composants sont maintenant connectés dans un réseau de type mesh où les bandes passantes peuvent atteindre plusieurs centaines de gigaoctets par seconde.

Outre l’interconnexion maillée, Infinity Fabric utilise également des capteurs intégrés dans chaque puce pour contrôler dynamiquement la fréquence, les taux de transfert de données et d’autres comportements adaptatifs, afin d’optimiser les performances et de minimiser les temps de latence.

4. Plate-forme de développement ROCm

CUDA (compute unified device architecture) de NVIDIA est la plateforme de développement la plus utilisée pour l’entraînement des modèles d’IA. Le problème de CUDA est qu’il ne fonctionne qu’avec les GPU NVIDIA. C’est l’une des principales raisons pour lesquelles NVIDIA détient l’écrasante majorité des parts de marché des accélérateurs GPU pour le calcul intensif et l’intelligence artificielle.

AMD souhaitant obtenir une plus grande part du marché du HPC et de l’IA, elle a dû développer sa propre plateforme, ROCm (Radeon Open Compute). ROCm est une plateforme logicielle open-source qui permet d’utiliser les GPU Instinct comme accélérateurs d’IA.

Bien qu’il ne fasse pas nécessairement partie du matériel Instinct, ROCm est fondamental pour la survie de la gamme de GPU Instinct. Avec ROCm, les développeurs et les chercheurs obtiennent les outils ROCm, le compilateur, les pilotes de noyau, toute une série de bibliothèques et l’accès à des frameworks comme TensorFlow et PyTorch pour développer avec leur langage de programmation d’IA préféré.

Comment les accélérateurs Instinct AI se comparent-ils aux accélérateurs Radeon GPU AI ?

AMD propose sa gamme de GPU Instinct pour les entreprises et les GPU Radeon pour les particuliers. Comme nous l’avons vu précédemment, le GPU Instinct utilise l’architecture CDNA, HBM et l’interconnexion Infinity Fabric d’AMD. Inversement, Radeon utilise l’architecture RDNA d’AMD, la mémoire DDR6 et Infinity Cache.

Bien que moins performants, les accélérateurs d’IA de la série Radeon sont toujours aussi puissants, avec un ou deux cœurs d’accélérateur d’IA par unité de calcul. Le dernier GPU Radeon RX7900 XT dispose de deux cœurs d’accélérateur d’IA par unité de calcul, ce qui permet d’atteindre 103 TFLOP de calcul en semi-précision et 52 TFLOP de calcul en simple précision.

Alors que les GPU de la série Instinct sont mieux adaptés aux LLM et au HPC, les accélérateurs Radeon AI peuvent être utilisés pour le réglage fin des modèles pré-entraînés, l’inférence et les tâches graphiques intensives.

AMD Instinct vs. NVIDIA Tensor

Selon une étude de TrendForce, NVIDIA détient 80 % du marché des GPU pour serveurs, contre 20 % pour AMD. Ce succès écrasant de NVIDIA s’explique par le fait que cette société est spécialisée dans la conception et l’assemblage de GPU. Cela lui permet de concevoir des GPU nettement plus performants, sans commune mesure avec les autres offres.

Comparons l’Instinct MI205X d’AMD et le H100SXM5 de NVIDIA à l’aide des spécifications du site officiel d’AMD et de la fiche technique de NVIDIA :

Modèle de GPU

FP64 (TFLOPs)

FP32 (TFLOPs)

FP16 (TFLOPs)

INT8 (TFLOPs)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Comme vous pouvez le voir dans le tableau, la MI250X d’AMD est plus performante en termes de calculs en double précision et en demi-précision, tandis que la H100SXMS de NVIDIA est bien meilleure en termes de calculs matriciels en demi-précision et en quart de précision. Le MI250X d’AMD est donc mieux adapté au HPC, tandis que le H100SXMS de NVIDIA convient mieux à l’apprentissage de l’IA et à l’inférence.

L’avenir des processeurs Instinct d’AMD

Bien que la dernière offre d’AMD, le MI250X, soit conçue pour le HPC, leur prochain MI300 est plus orienté vers la formation à l’IA. Cet accélérateur d’IA est annoncé comme un APU, combinant GPU et CPU en un seul package. Cela permet au MI300 d’utiliser l’architecture APU à mémoire unifiée CNDA3, où le GPU et le CPU n’utilisent qu’une seule mémoire, ce qui augmente l’efficacité et réduit le prix.

Bien qu’AMD ne soit pas en concurrence avec NVIDIA sur le marché des accélérateurs d’IA aujourd’hui, une fois que le MI300 sera commercialisé et que le ROCm sera perfectionné, la série Instinct d’AMD pourrait être suffisamment performante pour arracher à NVIDIA une part importante du marché des accélérateurs d’IA.