Serveur d'impression

C'est probablement un canard – Serveur d’impression

Le 13 décembre 2019 - 10 minutes de lecture

Les batailles d'interconnexion ont pris des chemins différents au fil des ans. Il y a eu deux batailles principales – la bataille des architectures basées sur le «déchargement» contre l'architecture basée sur la «charge» et la bataille des réseaux standard contre les réseaux propriétaires.

Il semble que la première bataille se soit terminée en faveur des architectures basées sur le déchargement, avec InfiniBand nettement en tête. Les architectures basées sur la charge, y compris Pathscale InfiniPath et QLogic TrueScale, ne sont plus sur le marché et le développement d'Intel Omni-Path est arrêté. Les principaux avantages des architectures basées sur le déchargement, à savoir la réduction de l'utilisation du processeur et l'activation de la progression asynchrone, se sont avérés fournir des performances d'application plus élevées.

La deuxième bataille est toujours en cours. D'un côté, vous avez InfiniBand et Ethernet comme principaux réseaux standard, tandis que de l'autre côté, il y a une liste de réseaux à protocole propriétaire, y compris Myricom Myrinet, Quadrics QsNet, Intel Omni-Path, Cray Seastar, Cray Gemini, Fujitsu Tofu , Cray Aries et le dernier ajout – Cray Slingshot. Il y avait et il y a plusieurs autres réseaux propriétaires, mais leur utilisation était ou est très minime. De cette liste, Fujitsu Tofu et Cray Slingshot sont ceux qui ont des efforts de développement existants.

Les réseaux basés sur des normes présentent de nombreux avantages par rapport aux réseaux propriétaires, notamment:

  • Compatibilité ascendante et descendante – la capacité de connecter les anciennes générations de réseau aux futures générations de réseau;
  • Support logiciel robuste et possibilité d'utiliser les mêmes logiciels et applications sur différentes générations de réseau;
  • Écosystème logiciel établi – les pilotes logiciels font généralement partie des distributions du système d'exploitation et il existe un vaste écosystème de prise en charge ISV;
  • Écosystème matériel établi – y compris serveur, stockage, gestion et plus de plateformes;
  • Feuille de route solide et plus agressive – avec le large soutien de l'écosystème, il n'est pas nécessaire de reconstruire l'écosystème encore et encore, comme dans le cas des réseaux propriétaires. Par conséquent, le développement d'un réseau standard peut se concentrer sur la fourniture de générations meilleures et plus rapides pour mieux répondre aux besoins des applications futures;
  • Capacités avancées – pour les mêmes raisons, nous constatons que les réseaux basés sur des normes introduisent des capacités meilleures et plus avancées par rapport aux réseaux propriétaires. Par exemple, bien que le contrôle de la congestion soit natif d'InfiniBand depuis de nombreuses années, il vient d'être introduit par Slingshot, qui sera déployé en 2020;
  • Protection des investissements – les responsables informatiques des centres de données peuvent réutiliser les plates-formes existantes avec les futures plates-formes, protégeant ainsi leurs investissements financiers à long terme.

La norme InfiniBand, développée par l'InfiniBand Trade Association (IBTA), offre tous les avantages ci-dessus et plus encore. Il s'agit donc de la technologie d'interconnexion de bout en bout de 200 gigabits par seconde pour le calcul haute performance, l'intelligence artificielle, le cloud, le stockage et bien d'autres applications. Il est hautement évolutif de centaines de nœuds à des dizaines et des centaines de milliers de nœuds, prend en charge les moteurs de calcul en réseau intelligents pour permettre aux algorithmes de données d'être exécutés par le réseau, offre une latence extrêmement faible, des déchargements de transport complets, un accès direct à la mémoire à distance (RDMA ), GPUDirect et d'autres fonctionnalités.

Slingshot est probablement basé sur une combinaison similaire à celle des anciens produits Quadrics QsNet et Gnodal. La technologie Gnodal était similaire à l'approche technologique Quadrics, avec une prise en charge supplémentaire des passerelles internes pour relier le protocole propriétaire à Ethernet standard, afin d'offrir des produits de commutation Ethernet sur le marché. Slingshot a une approche similaire à celle de Gnodal, à savoir la prise en charge de deux protocoles réseau différents: un réseau propriétaire et la capacité de passer à Ethernet standard. La plupart, sinon la totalité, des nouvelles fonctionnalités introduites par Cray, qui n'existaient pas dans leur ancien réseau propriétaire nommé Aries, sont évidemment disponibles uniquement avec le réseau propriétaire Slingshot, et non via la porte de la connectivité Ethernet standard.

Il y a de nombreuses années, Mellanox a décidé de regrouper les deux protocoles standard, InfiniBand et Ethernet, dans les mêmes dispositifs de silicium d'adaptateur réseau (la famille ConnectX®) et dans le commutateur (nommé SwitchX®). La motivation, bien sûr, était la facilité d'utilisation, car les utilisateurs peuvent déployer un réseau et décider plus tard de l'utiliser en tant qu'InfiniBand (réseau haute performance) ou Ethernet, ou les deux en même temps. Bien que la combinaison d'InfiniBand et d'Ethernet sur la carte réseau ait été un grand succès, la combinaison des deux protocoles sur le commutateur a créé des limitations de performances, principalement en raison de la latence accrue du commutateur. InfiniBand, conçu comme l'ultime réseau défini par logiciel (SDN) et pour fournir une latence extrêmement faible, a souffert de l'ajout de composants Ethernet, entraînant une latence de commutation accrue. Par conséquent, Mellanox a décidé de séparer les protocoles et de créer deux lignes de dispositifs de commutation – une pour InfiniBand (famille Mellanox Quantum ™) et une pour Ethernet (famille Mellanox Spectrum®). Avec ce changement, les périphériques de commutation InfiniBand présentent une latence extrêmement faible de ~ 100 ns.

Garantir la latence la plus faible pour les applications hautes performances est l'un des éléments clés des performances et de l'évolutivité. S'il est nécessaire de se connecter à des réseaux Ethernet externes, il est préférable d'utiliser des passerelles externes InfiniBand vers Ethernet, tout en garantissant une latence la plus faible au sein du centre de données.

La conception de Slingshot est similaire à l'ancien concept Mellanox SwitchX – prenant en charge à la fois un réseau hautes performances (dans ce cas, le Slingshot propriétaire) et la possibilité de se connecter à Ethernet standard. Avec cette approche, on peut enregistrer les boîtiers de passerelle externe sur Ethernet et connecter le réseau Ethernet externe directement au réseau Slingshot, mais le coût est une augmentation de la latence. Le commutateur Slingshot a une latence de 300 ns, près de 3 fois plus élevée que les dispositifs de commutation InfiniBand. En tant que tel, un réseau InfiniBand à 2 couches à pleine vitesse de 200 gigabits par seconde connectant 800 nœuds aura presque la même latence qu'un seul commutateur Slingshot connectant 64 nœuds. De toute évidence, il est préférable d'utiliser des boîtiers de passerelle externes plutôt qu'un commutateur de silicium qui intègre la fonctionnalité de passerelle et réduit les performances pour les applications de centre de données.

Le réseau propriétaire Slingshot est le premier du genre – de la même manière que tous les réseaux propriétaires précédents. Ses principaux points forts sont le routage adaptatif et le contrôle de la congestion, des éléments qui existent dans InfiniBand depuis de nombreuses années maintenant. De plus, InfiniBand offre également la technologie SHIELD, apportant d'abord sur le marché des capacités d'auto-réparation pour des infrastructures Exascale résilientes, et bien d'autres avantages.

En raison des inconvénients des approches de réseaux propriétaires par rapport aux réseaux basés sur des normes, les sociétés de réseaux propriétaires peuvent essayer de commercialiser leurs produits en tant que «semi-normes», affirmant, par exemple, qu'elles ont conçu une version «hautes performances» d'un réseau standard. , dans lequel ils ont modifié les en-têtes de protocole de réseau ou les tailles de paquet, et ajouté de nouveaux mécanismes pour les protocoles d'échange de réseau. Une fois que l'on change le protocole réseau, ce n'est plus le protocole standard. Il s'agit d'un protocole propriétaire. S'il ressemble à un canard, nage comme un canard et quacks comme un canard, alors c'est probablement un canard.

InfiniBand est le meilleur choix pour une infrastructure informatique haute performance. Il s'agit d'un protocole réseau standard offrant: la latence la plus faible, 200 gigabits par seconde de bout en bout tout au long de la journée, les moteurs de calcul en réseau, les moteurs d'auto-guérison, le contrôle de la congestion, le routage adaptatif, RDMA et plus encore. InfiniBand est utilisé pour connecter les meilleurs superordinateurs du monde, et il est conçu pour évoluer et prendre en charge toute topologie de réseau qui peut être créée.

Les centres de données connectés InfiniBand peuvent être directement connectés aux plateformes de stockage basées sur InfiniBand. Et s'il est nécessaire de se connecter à des réseaux Ethernet externes, on peut utiliser les systèmes de passerelle Mellanox Skyway ™ InfiniBand de 100 gigabits et 200 gigabits vers Ethernet. InfiniBand offre également une connectivité longue portée de 10 et 40 kilomètres, permettant de connecter des centres de données distants, un stockage distant ou des bureaux de recherche distants directement à un supercalculateur InfiniBand, avec faible latence, RDMA natif, routage adaptatif et prise en charge de l'agrégation et de la réduction hiérarchiques évolutives Mellanox Protocole (SHARP) ™ jusqu'au bout. Il existe également des produits tiers permettant de connecter des centres InfiniBand sur des milliers de kilomètres.

Avec les directives de la feuille de route IBTA, il semble qu'InfiniBand démontrera les vitesses NDR de 400 gigabits, tandis que d'autres produits propriétaires pourraient enfin prendre en charge 200 gigabits pour une connectivité de bout en bout. Par conséquent, InfiniBand continuera de démontrer des performances et des capacités de pointe, protégeant les investissements matériels et logiciels des centres de données et offrant des avantages une génération à venir.

Rien contre les canards. Mais quand il s'agit de connecter des infrastructures de calcul intensif hautes performances, les canards ne seront pas votre meilleur choix…


Les références:

[1] https://www.hpcwire.com/2019/06/10/super-connecting-the-supercomputers/

[2] https://www.hpcwire.com/2019/07/15/super-connecting-the-supercomputers-innovations-through-network-topologies/

[3] https://www.hpcwire.com/2019/08/05/super-connecting-the-supercomputers-protect-your-network-investment/

[4] https://www.hpcwire.com/2016/06/18/offloading-vs-onloading-case-cpu-utilization/

[5] https://www.hpcwire.com/2016/04/12/interconnect-offloading-versus-onloading/

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.