Serveur d'impression

Dell accélère les tests HPC des processeurs AMD Rome – Bien choisir son serveur d impression

Le 25 novembre 2019 - 6 minutes de lecture

Dell Technologies s’intéresse davantage au marché des systèmes basés sur AMD avec un programme d’évaluation croissant pour les derniers microprocesseurs Epyc (Rome) d’AMD. Dans un blog récent (AMD Rome – est-ce réel? Architecture et performances HPC initiales) Dell a publié ses premières données de référence pour Rome et a présenté Minerva, un cluster PowerEdge C6525 64 serveurs basé à Rome, qu’il utilise dans ses laboratoires HPC et AI Innovation Lab basés à Austin.

Les auteurs du blog, Garima Kochhar, Deepthi Cherlopalle et Joshua Weage, écrivent: «Ce premier blog de la série Rome traitera de l’architecture de processeur de Rome, de la manière dont elle peut être ajustée pour les performances HPC et présente les performances initiales de micro-benchmark. Les blogs suivants décrivent les performances des applications dans les domaines de la CFD, de la CAE, de la dynamique moléculaire, de la simulation météorologique et d’autres applications.

«Les premières études de performances effectuées sur des serveurs basés à Rome montrent les performances attendues pour notre premier ensemble de tests de performance HPC. Le réglage du BIOS est important lors de la configuration pour optimiser les performances. Des options de réglage sont disponibles dans notre profil de charge de travail BIOS HPC qui peut être configuré en usine ou défini à l’aide des utilitaires de gestion de systèmes Dell EMC. HPC et AI Innovation Lab disposent d'un nouveau cluster Minerva PowerEdge basé à Rome de 64 serveurs. Surveillez cet espace pour les blogs ultérieurs décrivant les études de performances des applications sur notre nouveau cluster Minerva. ”

L’évaluation et l’attention portée à son cluster Minerva semblent indiquer un renforcement du pari de Dell sur la gamme de microprocesseurs AMD. Le blog portait principalement sur la bande passante d’E / S de Rome et les configurations NUMA flexibles. Les tests de performance STREAM et HPL ont été effectués.

Comme l'explique le blog: «Les quatre quadrants logiques d'un processeur de Rome permettent de partitionner la CPU en différents domaines NUMA. Ce paramètre s'appelle NUMA par socket ou NPS.

  • NPS1 implique que la CPU de Rome est un seul domaine NUMA, avec tous les cœurs du socket et toute la mémoire de ce domaine NUMA. La mémoire est entrelacée sur les huit canaux de mémoire. Tous les périphériques PCIe du socket appartiennent à ce seul domaine NUMA
  • NPS2 partitionne le processeur en deux domaines NUMA, avec la moitié des cœurs et la moitié des canaux de mémoire sur le socket de chaque domaine NUMA. La mémoire est entrelacée sur les quatre canaux de mémoire de chaque domaine NUMA
  • NPS4 partitionne la CPU en quatre domaines NUMA. Ici, chaque quadrant est un domaine NUMA et la mémoire est entrelacée entre les deux canaux de mémoire de chaque quadrant. Les périphériques PCIe seront locaux sur l’un des quatre domaines NUMA du socket, selon le quadrant de la puce IO possédant la racine PCIe de ce périphérique.
  • Tous les processeurs ne peuvent pas supporter tous les paramètres NPS ”

Les auteurs du blog disent que «NPS4 est recommandé pour le calcul haute performance lorsqu'il est disponible, car il est censé fournir la meilleure bande passante mémoire, les latences mémoire les plus faibles, et nos applications ont tendance à être compatibles avec NUMA. Lorsque NPS4 n'est pas disponible, nous recommandons le plus haut NPS pris en charge par le modèle de processeur – NPS2 ou même NPS1.

Voici un extrait du blog sur les performances de STREAM avec quelques chiffres:

«Les tests de bande passante mémoire sur Rome sont présentés à la figure 6, ces tests ont été exécutés en mode NPS4. Nous avons mesuré une largeur de bande de mémoire d’environ 270 à 300 Go / s sur notre PowerEdge C6525 à double socket en utilisant tous les cœurs du serveur, à travers les quatre modèles de CPU énumérés dans le tableau.1. Lorsqu'un seul cœur est utilisé par CCX, la bande passante de la mémoire système est environ 9-17% supérieure à celle mesurée avec tous les cœurs.

«La plupart des charges de travail HPC souscrivent intégralement tous les cœurs du système ou les centres HPC s'exécutent en mode haut débit avec plusieurs tâches sur chaque serveur. Par conséquent, la bande passante mémoire tout-cœur est la représentation plus précise de la bande passante mémoire et des capacités de bande passante mémoire par cœur du système.

«La figure 6 illustre également la bande passante mémoire mesurée sur la plate-forme EPYC de Naples de la génération précédente, qui prenait également en charge huit canaux de mémoire par socket mais fonctionnant à 2667 MT / s. La plate-forme de Rome fournit une bande passante mémoire totale de 5% à 19% supérieure à celle de Naples, en raison notamment de la mémoire plus rapide à 3200 MT / s. Même avec 64c par socket, le système Rome peut fournir jusqu'à 2 Go / s / cœur. ”

Rome a également bien performé sur HPL (version portable de Linpack). Le blog note:

«La microarchitecture de Rome peut retirer 16 DP FLOP / cycle, le double de celui de Naples, qui était de 8 FLOPS / cycle. Cela donne à Rome 4x le pic théorique de FLOP sur Naples, 2x de la capacité de virgule flottante améliorée et 2x du double du nombre de cœurs (64c contre 32c). La figure 10 représente graphiquement les résultats HPL mesurés pour les quatre modèles de processeur Rome que nous avons testés, ainsi que nos résultats précédents obtenus avec un système basé à Naples. L’efficacité de Rome HPL est exprimée en pourcentage au-dessus des barres du graphique et est supérieure pour les modèles de processeur TDP inférieurs.

Les tests ont été exécutés en mode Détermination de la puissance et un delta de performance d'environ 5% a été mesuré sur 64 serveurs configurés de manière identique. Les résultats ici se trouvent donc dans cette bande de performance.

«Les prochains tests HPL multi-nœuds ont été exécutés et ces résultats sont représentés à la figure 11. Les rendements HPL de l'EPYC 7452 restent supérieurs à 90% sur une échelle de 64 nœuds, mais les baisses d'efficacité de 102% à 97% et de leur retour à 99% nécessitent une évaluation plus approfondie. "

Lien vers le blog de Dell: https://www.dell.com/support/article/bb/en/bbbsdt1/sln319015/amd-rome-is-it-for-real-architecture-and-initial-hpc-performance?lang = en

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.