JAXA lance TOKI, le supercalculateur multi-cluster

TOKI utilise les technologies HPC Intel® équipées de processeurs Intel® Xeon® Scalable de 2ᵉ génération et de la mémoire persistante Intel® Optane™.

En bref :

  • L'Agence japonaise d'exploration aérospatiale (JAXA) est la principale agence chargée du développement et de l'utilisation de l'espace au Japon.

  • Les systèmes de calcul intensif de JAXA (JSS) lui fournissent les ressources informatiques nécessaires pour mener ses recherches, des plus basiques à celles liées au développement et à l'utilisation de l'espace. TOKI, un nouveau système JSS3 récemment installé, héberge un cluster HPC à usage général doté d'une grande capacité de mémoire. TOKI-RURI, tout comme les autres, repose sur les technologies HPC Intel® équipées de processeurs Intel® Xeon® Gold 6240 et 6240L de 2ᵉ génération et de la mémoire persistante Intel Optane™.

author-image

Par

Synthèse

L'Agence japonaise d'exploration aérospatiale (JAXA) est la principale agence chargée du développement et de l'utilisation de l'espace au Japon. Les systèmes de calcul intensif de JAXA (JSS) lui fournissent les ressources informatiques nécessaires pour mener ses recherches, des plus basiques à celles liées au développement et à l'utilisation de l'espace. Les SORA (Supercomputer for earth Observation, Rockets, and Aeronautics), leurs anciens systèmes de calcul intensif (HPC) JSS2, sont constitués de plusieurs clusters répartis dans plusieurs installations.

TOKI, un nouveau système JSS3 récemment installé, héberge un cluster HPC à usage général doté d'une grande capacité de mémoire. TOKI-RURI, tout comme les autres, repose sur les technologies HPC Intel® équipées de processeurs Intel® Xeon® Gold 6240 et 6240L de 2ᵉ génération et de la mémoire persistante Intel® Optane™ (PMem Intel Optane).

Défi

Le système JSS2 précédent est composé de plusieurs clusters répartis sur divers sites. Il s'agit des centres spatiaux de Chofu, de Tsukuba et de Kakuda, et du complexe universitaire de Sagamihara de l'Institut des sciences spatiales et astronautiques de JAXA. SORA-MA, le cluster principal, est hébergé au centre aérospatial de Chofu à Tokyo avec des clusters de pré/post-traitement et de connexion disposant d'une grande capacité de mémoire.

Le cluster JSS2 SORA-MA a été migré en 2016 vers une machine de 3,49 PFLOPS. Toutefois, malgré cette mise à niveau, les ressources informatiques à la disposition des chercheurs de JAXA restaient limitées. Elles ne pouvaient pas répondre à leurs besoins pour les charges de travail informatiques traditionnelles (telles que la dynamique des fluides numérique) qui nécessitent des opérations massives et parallèles. Le système ne pouvait pas non plus facilement prendre en charge les méthodes émergentes comme l'intelligence artificielle (IA) et le machine learning (ML). Cette capacité de puissance limitée était un frein au développement des systèmes existants. Des technologies plus récentes et plus efficaces étaient disponibles pour l'IA, à l'instar d'Intel® DL Boost. En outre, la capacité de stockage de leur ancien cluster d'archivage était insuffisante. Afin de continuer à faire progresser l'exploration spatiale, la découverte, la conception et la mise en œuvre, JAXA nécessitait une prise en charge générale de l'IA et l'amélioration de ses charges de travail informatiques grâce au calcul intensif.

La fusée H3 de nouvelle génération. Son lancement depuis le centre spatial de Tanegashima est prévu pour 2021. (Crédit photo : JAXA)

Solution

JSS3 TOKI est un système multi-cluster composé de racks situés dans les préfectures de TOkyo et d'IbaraKI (d'où son nom : TOKI). Toki est une expression japonaise qui signifie « temps et espace » et « solution ». Ce mot renvoie également au nom commun donné à l'Ibis japonais à crête, un oiseau qui a échappé à l'extinction grâce aux efforts des défenseurs de l'environnement au Japon. Selon JAXA, TOKI ouvre la voie à de nouvelles opportunités et découvertes.

Fujitsu a conçu JSS3 TOKI pour répondre aux exigences les plus élevées en matière de performances dans les limites des ressources énergétiques disponibles dans le centre. Le nouveau système a été conçu pour prendre en charge les domaines informatiques suivants :

  • Les simulations numériques, afin de renforcer la compétitivité internationale du Japon dans le domaine de l'aérospatiale.
  • L'analytique à grande échelle.
  • La recherche et le développement, afin de trouver des solutions aux besoins émergents.

TOKI est composé des clusters suivants au sein du centre aérospatial de Chofu :

  • TOKI-SORA : un système HPC de grande taille, spécialement conçu pour prendre en charge les activités de SORA, telles que la dynamique des fluides numérique (CFD).
  • TOKI-RURI (all-RoUnd Role Infrastructure) de 1,24 PFLOPS1 : un supercalculateur à usage général basé sur les nœuds Fujitsu PRIMERGY RX2540 M5 dotés de processeurs Intel Xeon Gold 6240 et 6240L de 2ᵉ génération. TOKI-RURI héberge des nœuds à usage général (TOKO-RURI GP), des nœuds à grande mémoire disposant chacun de 1,5 To de mémoire persistante Intel Optane (TOKO-RURI LM) plus 192 Go de DRAM, ainsi que des nœuds de mémoire extrême de 6 To de mémoire persistante Intel Optane par nœud (TOKO-RURI XM) plus 768 Go de DRAM. La capacité totale de la mémoire est de 104 To.
  • TOKI-FS (système de fichiers) : également basé sur les nœuds PRIMERGY RX2540 M5 et les processeurs Intel Xeon Scalable de 2ᵉ génération avec 10 Po de stockage 100 % flash et 40 Po de disque dur.
  • TOKI-LI (système de connexion) : 14 nœuds PRIMERGY RX2540 M5 dotés de processeurs Intel Xeon Scalable de 2ᵉ génération.

Figure 1. Système TOKI-RURI du centre aérospatial de Chofu (https://www.jss.jaxa.jp/mediadir/2020/11/JSS3SystemConfiguration02_202012_landscape.jpg).

Résultats

Les nœuds à grande mémoire de TOKI-RURI dotés de la mémoire persistante Intel Optane offrent des performances et une capacité améliorées qui permettent de gérer les applications ISV commerciales et les charges de travail très mobiles dont JAXA a besoin. Ces applications incluent Ansys ICEM CFD, Fluent et Chemkin, mais aussi FieldView, CRUNCH CFD, Siemens STAR-CCM+, Metacomp Technologies, CFD++, Dassault Systemes ABAQUS CAE et Mechanica.

Manœuvre orbitale martienne de la dernière version de la navette spatiale MMX en 2019. (Crédit photo : JAXA)

Pour les autres charges de travail HPC, les informaticiens de JAXA s'appuient sur les outils logiciels HPC Intel pour optimiser les performances du nouveau supercalculateur. Grâce aux nouvelles capacités des processeurs Intel Xeon Scalable de 2ᵉ génération, ils peuvent également tirer parti des nouvelles approches de développement logiciel, avec notamment oneAPI. Ce modèle de programmation ouvert et unifié est basé sur des normes qui facilitent le développement et le déploiement des charges de travail axées sur les données dans les processeurs, les processeurs graphiques, les FPGA et d'autres accélérateurs.

« Les scientifiques de JAXA développent efficacement des applications à plus grande échelle à l'aide d'Intel Advanced Vector Extensions 512 (Intel AVX-512) et d'Intel DL Boost grâce aux kits d'outils Intel oneAPI Base et Intel oneAPI HPC », explique Naoyuki Fujita, chef du service de calcul intensif chez JAXA.

Intel oneAPI Base Toolkit est un ensemble d'outils et de bibliothèques de base qui permet de développer des applications hautes performances axées sur les données à travers diverses architectures. Il dispose d'un compilateur C++ de pointe et du langage Data Parallel C++ (DPC++), une évolution de C++ pour l'informatique hétérogène. Le kit d'outils Intel oneAPI HPC est un module d'extension pour le kit d'outils de base. Il comprend également un accès à Intel Distribution for Python, le compilateur Intel oneAPI DPC++/C++, de puissantes bibliothèques axées sur les données et des outils d'analyse avancés.

Au fil de la préparation de TOKI, les bancs d'essai indiquent que les performances du système répondent aux besoins des utilisateurs de JAXA sur la base de cinq charges de travail internes et bancs d'essai traditionnels : HINOCA (simulation de combustion), FaSTAR (outil CFD à haute efficacité), UPACS (logiciel d'analyse des fluides), P-FLOW (simulation des particules en mouvement) et LS-FLOW (code CFD).

L'astronaute Sochi Noguchi cultive des plantes asiatiques dans le cadre du projet d'expérimentation Space Plant. (Crédit photo : JAXA)

La mémoire persistante Intel Optane accélère les charges de travail non parallélisées

La plupart des applications de JAXA sont des charges de travail informatiques distribuées et bien parallélisées, destinées au grand cluster HPC. Certains programmes ne sont toutefois pas encore parallélisés ou sont des applications en série qui ne peuvent pas être parallélisées. Plus rapides, les nœuds à grande mémoire (LM) et les nœuds de mémoire extrême (XM) de TOKIRURI accélèrent ces applications. Ces nœuds offrent des performances inégalées à faible coût, permettant ainsi de répondre aux besoins de l'agence en termes de programmes en série et de grande capacité de mémoire.

« Grâce aux nouveaux systèmes TOKI, JAXA innove dans la recherche sur le traitement des données d'observation de la Terre, la télédétection et la prévision des changements climatiques », déclare Fujita-san. « Grâce à Intel DL Boost et à la mémoire persistante Intel Optane, nous pourrons contribuer à la recherche accélérée dans ces domaines. »

Synthèse de la solution

  • Nœuds des serveurs Fujitsu PRIMERGY RX2540 et CX2750 M5 répartis dans plusieurs clusters : TOKI-RURI, TOKI-TRURI et TOKI-LI.
  • Processeurs Intel Xeon Gold 6240 et 6240L de 2ᵉ génération.
  • Mémoire Intel Optane (6 To/nœud dans les nœuds XM ; 1,5 To dans les nœuds LM).
  • Performances de pointe de 1,24 petaFLOPS.

Télécharger le PDF ›