KISTI : repousser les limites de la science et de la technologie

Grâce aux processeurs Intel® Xeon® Scalable, NURION est le plus grand supercalculateur en Corée du Sud.

Synthèse
Ne se concentrant plus uniquement sur les charges de travail gourmandes en calcul, les centres HPC modernes ont besoin de systèmes performants mais polyvalents qui peuvent répondre aux nombreuses demandes de ressources difficiles et conflictuelles nécessaires pour réaliser des avancées scientifiques dans un large éventail de projets de recherche de plus en plus complexes et gourmands en mémoire et en données. De plus, les supercalculateurs de classe mondiale tels que le système NURION de l'Institut coréen des sciences et technologies de l'information (KISTI) sont également des outils technologiques phares achetés par une organisation pour assurer l'avenir, que ce soit dans le domaine scientifique ou pour répondre aux besoins économiques d'une région.

Selon le Dr Hee-yoon Choi (président du KISTI), "KISTI se développera avec l'industrie, l'académie et la communauté des instituts en tant qu'organisation centrale pour soutenir l'écosystème dynamique de données scientifiques et technologiques qui, partageant les données et créant de la valeur, jette les bases de la croissance de l'innovation en Corée"1. Équipé de processeurs Intel® Xeon® Scalable et Intel® Xeon Phi™ reliés via une structure de communication Intel® Omni-Path Architecture (Intel® OPA), la grappe NURION 146 rack Cray* CS500 a été achetée pour étendre et accélérer le rythme des innovations R&D. Il s'agit du plus grand supercalculateur de Corée du Sud et actuellement le 13e supercalculateur le plus rapide au monde2.

Défi
L'évolutivité et la nécessité de résoudre des problèmes PDE à grande échelle, qui impliquent des opérations matricielles éparses, ont été les principales motivations technologiques dans l'acquisition par KISTI d'un nouveau superordinateur puissant de classe dirigeante. Très simplement, les chercheurs avaient dépassé la grappe TACHYON-II existante, vieille de dix ans, et devaient aller au-delà.

La recherche sur les matériaux est l'un des domaines d'application sur lesquels le KISTI s'est concentré en tant qu'institut de recherche et de développement HPC de premier plan, car il a le fort potentiel de diriger la conception avancée de dispositifs à semi-conducteurs qui est importante pour la compétitivité nationale de la Corée du Sud. En particulier, le KISTI a cherché à simuler des structures atomiques solides à grande échelle avec des HPC.

Le Dr Soonwook Hwang (directeur général et chercheur principal, Division du Calcul intensif national au KISTI) explique : "la simulation électronique de structures solides de taille réaliste est tout à fait essentielle pour aider les expérimentateurs qui travaillent sur la conception de nouveaux matériaux ou de dispositifs électroniques avancés. Avec des simulations à grande échelle, nous espérons couvrir les facteurs de conception des dispositifs à l'échelle nanométrique avec des simulations à grande échelle qui peuvent prédire les comportements physiques de structures solides ayant jusqu'à plusieurs millions d'atomes".

Approche
L'utilisation efficace de la grande quantité de processeurs multicœurs à l'échelle ainsi que du parallélisme vectoriel au niveau de la puce nécessite des connaissances scientifiques et techniques détaillées. Alors que le KISTI a fermement maintenu le leadership dans la recherche et le développement HPC en Corée du Sud au cours de la dernière décennie avec la grappe Tachyon-II, le nouveau NURION a introduit de nouveaux niveaux de technologie. Le Dr Hwang explique : "notre projet Intel® Parallel Computing Center (Intel® PCC) a été une excellente occasion pour nous de mieux comprendre et utiliser les nombreux processeurs Intel® multicœurs. Grâce au système NURION, nous sommes maintenant prêts à élargir le leadership dans la recherche et le développement HPC en République de Corée".

Résultats
L'effort de collaboration Intel PCC a porté ses fruits avec des retours rapides car les chercheurs du KISTI ont déjà obtenu un succès significatif, même si NURION a été installé récemment et commence à être mis à la disposition des utilisateurs publics.

Le projet Intel PCC s'est concentré sur le développement d'un progiciel pour des simulations de liaison strictes de structures électroniques à grande échelle. Le Dr Hoon Ryu (responsable PCC Intel et chercheur principal, Centre de calcul scientifique appliqué du KISTI) note : "le code est utile pour les dispositifs semi-conducteurs avancés, qui est une activité nationale clé de la Corée du Sud". Le KISTI a été le premier PCC Intel dans la région Asie-Pacifique à partir de 2013.

Le Dr Ryu poursuit : "ce travail doit essentiellement résoudre une équation de Schrödinger qui implique normalement des nanostructures constituées de dizaines de millions d'atomes,lesquels sont décrits numériquement avec des matrices système d'un milliard de degrés de liberté. Par conséquent, des processeurs évolutifs sont absolument nécessaires avec la parallélisation des opérations numériques de base, y compris les problèmes de valeurs propres impliquant des matrices de système à grande échelle. Avec les processeurs Intel Xeon Phi, nous sommes en mesure de réduire considérablement les temps de simulation de bout en bout pour des millions de systèmes atomiques".

Points forts du supercalculateur Nurion

  • Le 13e supercalculateur le plus rapide au monde à partir de la liste du TOP500 de novembre 20183
  • Équipé à la fois de processeurs Intel Xeon Scalable et de processeurs Intel Xeon Phi et utilisant l'architecture Intel Omni-Path, il est le plus grand supercalculateur de Corée du Sud.
  • Conçu pour fournir les ressources nécessaires à la réalisation d'avancées scientifiques pour un large éventail de défis de plus en plus complexes et gourmands en données à travers la modélisation, la simulation, l'analyse et l'IA

Cas d'utilisation : mise à l'échelle à 1000k+ d'atomes
Le Dr Min Sun Yeom (directeur et chercheur principal du Centre de calcul scientifique appliqué du KISTI) déclare : "grâce à des simulations à liaison étroite de nanostructures ayant plus de 1 000 000 d'atomes sur le système NURION, nous avons pu explorer l'effet de la taille et de l'ingénierie structurelle sur les énergies de bande interdite des nanostructures pérovskites aux halogénures de plomb physiquement réalisables dans des délais assez raisonnables. Nous avons également obtenu les idées préliminaires sur la façon de réduire la séparation de phases induite par la lumière dans les mélanges d'halogénures, ce qui ne serait pas possible avec des simulations DFT qui peuvent normalement manipuler de solides composés de centaines d'atomes".

La pérovskite aux halogénures métalliques est un matériau candidat prometteur pour les dispositifs optoélectroniques et fournit ainsi la motivation pour la modélisation empirique du système des structures atomiques à grande échelle. En bref, il peut fournir de bonnes lignes directrices pour la conception de dispositifs tels que la façon de cartographier les lacunes optiques et de réduire la séparation de phases induite par la lumière (un goulot d'étranglement dans les conceptions LED). La meilleure partie de la modélisation empirique est qu'elle peut fournir des connexions directes aux expériences.

Connexion des expériences et des simulations à grande échelle (a) Image expérimentale de points quantiques de pérovskite (CsPbBr3) (Nano Letters 15, 3692-3696) (b) Dépendance des énergies de la bande interdite par rapport à la taille des points quantiques. Les résultats numériques du KISTI se connectent bien à l'expérimentation.

Le Dr Ryu souligne que l'utilisation de la bibliothèque Intel® Math Kernel Library (Intel® MKL) a aidé à mettre à l'échelle leurs calculs, "Intel MKL (paquets scalapack tels que lib_mkl_scalapack_lp64 et libmkl_blacs_intelmpi_lp64) a beaucoup aidé à améliorer l'évolutivité de notre solveur Schrödinger. Nous avons utilisé l'algorithme LANCZOS, une méthode itérative bien connue pour s'attaquer au problème des valeurs propres à grande échelle qui a une partie numérique qui est difficile à mettre en parallèle avec le MPI par les utilisateurs et devient un goulot d'étranglement des performances à mesure que les processus itératifs se poursuivent. Grâce aux sous-programmes Intel MKL, nous avons pu réduire la charge de calcul correspondante avec une évolutivité améliorée".

Cas d'utilisation : performances à plusieurs cœurs sur des opérations à matrice éparse
S'appuyant sur les travaux antérieurs sur la première génération de coprocesseurs Intel Xeon Phi, M. Kyu Nam Cho (ancien chercheur associé à l'université de Corée, aujourd'hui ingénieur principal à Samsung Research, Samsung Electronics) déclare : "les performances de la multiplication matrice-vecteur, qui est l'opération numérique de base nécessaire pour résoudre les structures électroniques à grande échelle, n'étaient pas mauvaises même lorsque nous avons travaillé avec les processeurs multi-cœurs Intel de première génération (coprocesseurs Intel Xeon Phi) par rapport aux processeurs Intel® Xeon® V3. Les performances sur les nœuds NURION Intel Xeon Phi sont bien meilleures, en particulier lorsqu'elles sont combinées avec MCDRAM". Cho note qu'"une autre force essentielle des systèmes basés sur le processeur Intel Xeon Phi est leur facilité d'utilisation, en particulier si l'on considère la quantité de travail qui doit être effectuée pour porter le code existant afin qu'il fonctionne sur les périphériques d'extension PCI-E".

Le KISTI Intel PCC a constaté que l'accélération due aux performances de la mémoire à haute bande passante (HBM) du processeur Intel Xeon Phi signifiait qu'un seul nœud pouvait prendre une charge de travail plus importante. Le Dr Ryu souligne que "l'évolutivité inter-nœuds est assez agréable". Les tests d'évolutivité démontrent une accélération lors de l'augmentation du nombre de nœuds de calcul. Le KISTI Intel PCC a observé une accélération de 1,5 à 3 fois4 Lorsqu'ils utilisaient la mémoire à bande passante élevée (HBM) fournie avec le processeur à plusieurs cœurs Intel Xeon Phi 7250 nœuds. Plus récemment, ils ont exécuté avec succès une structure atomique de 0,4 milliard dans le système NURION et vérifié la forte évolutivité jusqu'à 2 500 nœuds de calcul (170 000 cœurs de calcul).

Le Dr Ryu souligne que "la technologie Intel® correspond à l'objectif du KISTI HPC". Selon une analyse statistique de la charge de travail effectuée au KISTI, environ 50 % de leurs charges de travail impliquent des opérations matricielles clairsemées. Cela signifie que le supercalculateur NURION devrait bien répondre aux besoins des chercheurs du KISTI dans un large éventail de domaines de recherche.

Performances réalisées
L'importance des simulations à grande échelle pour la recherche avancée sur les matériaux en Corée du Sud ne peut pas être sous-estimée, comme en témoigne l'argent dépensé pour se procurer un supercalculateur de classe mondiale5. Pour cette raison, le KISTI Intel PCC a évalué de manière critique les différentes solutions matérielles sur lesquelles l'approvisionnement NURION pourrait être basé, y compris les systèmes accélérés par GPU. Leurs résultats ont été publiés dans la documentation pour les processeurs Intel6 7 8 Et GPU 9. Ils présentent des preuves techniques solides pour montrer pourquoi le choix pour NURION était un système basé sur Intel qui fournit 25,7 PFlop/s (Rpeak), 13,9 PFlop/s (Rmax),10 classement au n°13 sur la liste du TOP500 de novembre 2018.11 Le Dr Ryu élabore un livre blanc pour raconter l'histoire complète du CPU vs. GPU dans un article qui sera publié plus tard cette année12.

Forte extensibilité des simulations de bout en bout (a) L'objectif du BMT à petite échelle était de calculer 5 états de la bande de conduction la plus basse dans le point quantique SI:P 27x33x33 nm3 (~1,5 million d'atomes) 13L'évolutivité est testée jusqu'à 3 nœuds de calcul (204 cœurs). (b) La cible BMT à très grande échelle consistait à calculer les 3 sous-bandes de conduction les plus basses dans les nanofils Si:P à 2715x54x54 nm3 (0,4 milliard d'atomes). L'évolutivité ici est testée jusqu'à 2 560 nœuds de calcul (170 000 cœurs) dans le système NURION.

Mais l'histoire ne s'arrête pas au système NURION, puisque le KISTI Intel PCC évalue l'utilisation des FPGA pour les calculs de structures électroniques à grande échelle. En particulier, la famille de processeurs Intel Scalable offre une voie vers une future accélération FPGA 14. Comme pour les évaluations des processeurs GPU et Intel, le KISTI Intel PCC a également publié ses travaux sur les FPGA 15.

Le personnel du KISTI qui a permis des simulations à l'échelle de structures électroniques extrêmement grandes dans le système NURION : (de gauche à droite) Dr. Hoon Ryu, Dr. Ji-Hoon Kang (chercheur principal, Centre de calcul scientifique appliqué), M. Taeyoung Hong (chef de l'équipe opérationnelle de NURION et chercheur principal, Centre du service de supercalcul

Découvrez les produits et solutions associés

Processeurs Intel® Xeon® Scalable

Générez des données exploitables, faites confiance à la sécurité assistée par matériel et mettez en place des prestations de services dynamiques avec les processeurs Intel® Xeon® Scalable.

En savoir plus

Intel® Omni-Path Architecture

L'architecture Intel® Omni-Path (Intel® OPA) diminue le TCO des systèmes tout en améliorant la fiabilité, en offrant des performances élevées et une évolutivité extrême.

En savoir plus

Solutions Intel® Select

Fournissez une infrastructure de centre de données simplifiée avec des configurations optimisées pour les charges de travail afin de faciliter et d'accélérer le déploiement.

En savoir plus

Avis et avertissements

Les fonctionnalités et avantages des technologies Intel® dépendent de la configuration du système et peuvent nécessiter du matériel et des logiciels compatibles et l'activation de certains services. Les performances varient d'une configuration à une autre. Aucun ordinateur ne saurait être totalement sécurisé. Consultez le constructeur ou le revendeur de votre ordinateur.vous pouvez consulter le site https://www.intel.fr pour en savoir plus. // Les logiciels et charges de travail utilisés dans les tests de performance ont peut-être été optimisés uniquement pour les microprocesseurs Intel®. Les tests de performance tels que SYSmark* et MobileMark* portent sur des configurations, composants, logiciels, opérations et fonctions spécifiques. Les résultats peuvent varier en fonction de ces facteurs. Pour l'évaluation d'un produit, il convient de consulter d'autres tests et d'autres sources d'information, notamment pour connaître le comportement de ce produit avec d'autres composants. Pour des informations plus complètes, visitez https://www.intel.fr/benchmarks. // Les résultats de performances s'appuient sur les tests réalisés aux dates indiquées dans les configurations et peuvent ne pas refléter toutes les mises à jour de sécurité disponibles. Pour obtenir plus de détails, veuillez lire les informations de configuration. Aucun produit ou composant ne saurait être totalement sécurisé. // Les scénarios de réduction de coûts décrits sont fournis à titre d'exemples montrant comment un produit de technologie Intel® donné, dans les circonstances et configurations spécifiées, peut affecter les coûts futurs et entraîner des économies de coûts. Les circonstances peuvent varier selon les cas. Intel ne garantit aucun coût ni réduction de coûts. // Intel ne maîtrise et ne vérifie pas les bancs d'essai cités ici ou sur les sites Web mentionnés en référence. Vous êtes invité à consulter vous-même ces sites Web et à vérifier l'exactitude des données. // Dans certains cas, les résultats ont été estimés ou simulés à l'aide d'une analyse, d'une simulation ou d'une modélisation d'architecture réalisée en interne par Intel et sont mentionnés à titre indicatif. Toute différence matérielle, logicielle ou de configuration du système peut avoir une incidence sur vos performances effectives.

Infos sur le produit et ses performances

1 nœuds Intel Xeon Phi 7250 ; 68 cœurs/nœud utilisant 2 processus MPI + 32 threads par nœud ; mode mémoire Quad/Flat ; connectivité réseau 100G. 2500 nœuds Intel Xeon Phi, soit un total de 68x2500 cœurs de calcul ont été utilisés pour le test de référence du code interne de KISTI. BIOS : S72C610.86B.01.03.0018.C0001.012420182107 ; Mémoire : 96 Go de mémoire DDR4-2400 + 16 Go de MCDRAM 7,2GT/s ; Mise en réseau et stockage : architecture Intel Omni-Path, connectivité réseau 100 Go ; détails sur le système d'exploitation et le noyau : CentOS Linux version 7.3, noyau Linux 3.10.0- 514.26.2.el7.x86-64 ; Logiciel d'application : outil de simulation quantique pour les dispositifs avancés à l'échelle nanométrique ; testé par KISTI en novembre 2018
4 test effectué par KISTI en novembre 2018. Rmax est la performance LINPACK maximale atteinte ; Rpeak est la performance de pointe théorique selon TOP500.org. Configuration : nœuds Intel Xeon Phi 7250 ; jusqu'à 272 (68x4) cœurs/nœud en utilisant 4 processus MPI + 68 threads par nœud ; mode mémoire Quad/Flat ; 10 G de connectivité réseau.
8Ji-Hoon Kang, Oh-Kyoung Kwon, Jinwoo Jeong, Kyunghun Lim, Hoon Ryu : Évaluation des performances des applications scientifiques sur les grappes d'atterrissage Intel Xeon Phi Knights. HPCS 2018: 338-341.
9 les résultats des GPU ont été publiés dans "Simulations de structures électroniques rapides et économes en énergie pour des systèmes atomiques de plusieurs millions d'unités avec des dispositifs GPU" par Hoon Ryu et Oh-Kyoung Kwon dans Journal of Computational Electronics (2018) 17: 698–706, https://doi.org/10.1007/s10825-018-1138-4.
10Test effectué par KISTI en novembre 2018. Rmax est la performance LINPACK maximale atteinte ; Rpeak est la performance de pointe théorique selon TOP500.org. Configuration : nœuds Intel Xeon Phi 7250 ; jusqu'à 272 (68x4) cœurs/nœuds utilisant 4 processus MPI + 68 threads par nœud ; mode mémoire Quad/Flat ; connectivité réseau 10 G.
11Actuellement selon la liste du TOP500 de novembre 2018
12Veuillez consulter la liste des publications du Dr Ryu pour voir l'article lorsqu'il paraîtra : https://www.researchgate.net/profile/Hoon_Ryu3
13 les structures en alliage Si:P ont été étudiées de manière populaire pour construire des systèmes de qubit basés sur le Si. Voir Nature Nanotechnology 9, 430-435 et Nano Letters 15, 1, 450-456.
14https://www.intel.com/content/www/fr/fr/programmable/solutions/acceleration-hub/platforms.html
15 https://ieeexplore.ieee.org/document/8048988