Le nouveau superordinateur π 2.0 de Shanghai Jiao Tong University

« π 2.0 » utilise des processeurs Intel® Xeon® Scalable de 2ᵉ génération et des produits Cornelis Networks1 dans le cadre de recherches sur le calcul intensif (HPC) et l'IA.

En bref :

  • Shanghai Jiao Tong University compte plus de 60 000 étudiants, dont beaucoup nécessitent les ressources d'un superordinateur pour faire des recherches et obtenir des renseignements dans des domaines comme l'astrophysique, l'aéronautique, la génomique computationnelle et d'autres sciences.

  • Le superordinateur π 2.0 sera un système de 658 nœuds utilisant des processeurs Intel® Xeon® Scalable de 2ᵉ génération reliés par des produits Cornelis Networks et soutenus par un système de fichiers parallèle évolutif Lustre* utilisant des unités de stockage SSD Intel® série DC pour NVMe*.

author-image

Par

Synthèse

Shanghai Jiao Tong University est l'une des universités les plus prestigieuses de Chine. Le centre HPC de l'université a installé son dernier superordinateur en 2013. Pour les chercheurs computationnels comptant parmi les 60 000 étudiants et 6 000 membres du corps enseignant, cette ressource manque de capacité pour prendre en charge les travaux en cours de manière efficace. L'université s'est tournée vers Inspur* pour son cluster de nouvelle génération basé sur les processeurs Intel® Xeon® Scalable de 2ᵉ génération et les produits Cornelis Networks.

Enjeux

Fondée en 1896 , Shanghai Jiao Tong University est l'une des plus anciennes universités de Chine. Ses 28 départements et 15 hôpitaux forment 30 000 étudiants de premier cycle et 30 000 étudiants de cycle supérieur dans un large éventail de disciplines. Nombre de ces départements nécessitent les ressources d'un superordinateur pour faire des recherches et obtenir des renseignements dans des domaines comme l'astrophysique, l'aéronautique, la génomique computationnelle et d'autres sciences traditionnelles. Au cours des dernières années, la recherche s'est étendue à de nouveaux domaines, notamment le Big Data et l'apprentissage machine.

La ressource HPC existante de l'université, nommée π, a été construite en 2013. Il s'agit d'un cluster hétérogène de 260 téraFLOPS équipé de processeurs Intel® Xeon® E5 et de GPU NVIDIA* avec une architecture d'interconnexion InfiniBand*.

« Les choses ont beaucoup changé au cours des six dernières années », déclare James Lin, vice-directeur du centre HPC. « Alors que les recherches réalisées à l'université ont abordé des problèmes toujours plus complexes et plus profonds et comprennent maintenant de nouveaux domaines comme l'apprentissage machine et le Big Data, davantage d'étudiants nécessitent du temps de traitement. Les listes d'attente de π pour des tâches de recherche sont devenues de plus en plus longues, ce qui retarde des travaux de recherche importants. »

La plupart des superordinateurs du top500 s'appuient sur l'architecture Intel® (AI). Et nous avons beaucoup d'expérience dans l'architecture Intel®, notamment dans la modernisation des codes entre les GPU et l'AI. Nous avons donc choisi des processeurs Intel® Xeon® Scalable de nouvelle génération pour notre nouveau cluster. » — James Lin, vice-directeur du centre HPC

En plus du manque de capacité de π pour les travaux en cours, les chercheurs veulent tirer parti de codes plus évolutifs pouvant exécuter leurs tâches plus rapidement sur plus de cœurs de processeur. En 2018, l'université a contacté l'OEM Inspur pour construire un nouveau système homogène d'environ deux pétaFLOPS, appelé π 2.0.

Solution

« Nous soutenons des recherches utilisant des applications commerciales, des codes Open Source pour la modélisation CFD traditionnelle et d'autres sciences, et des codes de haute évolutivité développés en interne », explique Stephen Wang, directeur de l'assistance technique. « Nous fournissons aux chercheurs de l'aide sur l'optimisation et pour porter leurs codes d'évolutivité sur des systèmes parallèles. »

π 2 sera un système de 658 nœuds utilisant des serveurs Inspur à deux sockets équipés de processeurs Intel® Xeon® Gold 6248 de 2e génération possédant 20 cœurs chacun, pour un total de 26 320 cœurs de calcul fournissant environ 2 pétaFLOPS de performances en crête. Il s'agira du 3e superordinateur de toutes les universités de Chine en termes de taille. Les nœuds de calcul seront reliés par la fabric Intel OPA et soutenus par un système de fichiers parallèle évolutif Lustre* utilisant des unités de stockage SSD Intel® SSD série DC pour NVMe*.

« La plupart des superordinateurs du Top500 s'appuient sur l'architecture Intel® (AI) », ajoute James. « Et nous avons beaucoup d'expérience dans l'architecture Intel®, notamment dans la modernisation des codes entre les GPU et l'AI. Nous avons donc choisi des processeurs Intel® Xeon® Scalable de nouvelle génération pour notre nouveau cluster. »

Le choix de Cornelis Networks pour l'interconnexion était un peu plus compliqué.

« Nous nous sommes rendus dans les deux principaux centres HPC du Japon : le JCAHPC (Joint Center for Advanced High Performance Computing) de l'Université de Tokyo et de l'Université de Tsukuba, et le GSIC (Global Scientific Information and Computing Center) de l'Institut technologique de Tokyo », explique James. « JCAHPC héberge Oakforest-PACS, un très grand superordinateur doté de produits Cornelis Networks, représentant de surcroît son plus grand déploiement au monde. Tsubame3 GSIC est aussi un très gros cluster utilisant Cornelis Networks. Nous avons choisi Cornelis Networks sur la base de nos recherches dans ces centres et de nos visites d'autres clients de Cornelis Networks en Chine. »

La consommation d'énergie était une préoccupation critique pour le centre HPC. Avec 26 320 cœurs, π 2.0 sera sept à huit fois plus grand que π.

Nous sommes tenus de respecter un indice d'efficacité énergétique de 1,3 », commente Stephen. « Grâce à la technologie plus efficace des derniers processeurs Intel Xeon Scalable, la demande énergétique de π 2.0 ne sera qu'entre deux et trois fois supérieure à celle de π, bien que le système soit presque huit fois plus grand. »

Un domaine de préoccupation essentiel était le système de fichiers Lustre. Avec π et un nombre croissant de tâches de génomique computationnelle (jusqu'à 1 000 à la fois), Lustre devenait un goulot d'étranglement, car la génomique utilise de nombreuses petites tâches. Le système de fichiers Lustre de π 2.0 comprendra des unités de stockage SSD Intel série DC pour accélérer les E/S dans tout le cluster de stockage.

Résultats

Alors que le système est toujours en phase de construction, les chercheurs sont bien conscients de la nouvelle capacité et des nouvelles technologies disponibles sur π 2.0. Le service d'assistance technique de Stephen reçoit des questions des utilisateurs concernant la mise à l'échelle de leurs codes.

« Nous nous concentrons sur le développement de codes évolutifs », indique Stephen, « Nous offrons de l'aide sur les méthodologies, comme OpenMP* et MPI. Nous avons également des stagiaires qui aident en fait les chercheurs à réaliser le portage de leurs codes. Comme nous avons de l'expérience dans la modernisation des codes GPU, nous pouvons les aider à cibler leurs applications d'apprentissage machine pour les processeurs Intel® Xeon® Scalable de 2e génération qui possèdent des fonctionnalités comme les instructions VNNI (Vector Neural Network Instructions). »

Les premiers clients du superordinateur seront les plus grands utilisateurs de l'université, exécutant leurs codes à haute évolutivité développés en interne et optimisés pour les processeurs Intel® Xeon® Scalable de 2e génération. Les autres projets initiaux comprendront des tâches d'apprentissage machine.

« Les utilisateurs sont très enthousiastes à l'idée d'accéder au système », ajoute James.

Le nouveau superordinateur π 2.0 de Shanghai Jiao Tong University soutiendra des recherches sur des applications commerciales, des codes Open Source pour la modélisation CFD traditionnelle et d'autres sciences, et des codes de haute évolutivité développés en interne.

Synthèse de la solution

  • Système constuit par Inspur équipé de 658 nœuds de processeurs Intel® Xeon® Gold 6248 de 2e génération
  • 26 320 cœurs de calcul au total (52 640 threads)
  • Unités de stockage SSD Intel® DC pour NVMe* pour le système de fichiers parallèle Listre à réponse rapide
  • Cornelis Networks pour des communications rapides sur les nœuds de calcul
  • Infrastructures d'apprentissage machine, y compris TensorFlow* et Pytorch* utilisant Intel® Optimizations for TensorFlow et Intel® Distribution of Python*