Contenu mis en valeur par notre partenaire, Lenovo.
Introduction
L'Université de Harvard est vouée à l'excellence dans l'enseignement, l'apprentissage et la recherche, et à la formation de leaders dans de nombreuses disciplines qui font la différence au niveau mondial. L'université, basée à Cambridge, Boston, Massachusetts, compte plus de 20 000 candidats au diplôme, dont des étudiants de premier, deuxième et troisième cycles et des professionnels.
Le centre de recherche informatique de la faculté des arts et des sciences de Harvard (FASRC) a été créé en 2007 avec pour principe fondateur de faciliter l'avancement de recherches complexes en fournissant des services en périphérie (« edge computing »).
Défi
Le FASRC fournit aux chercheurs les ressources de calcul intensif (HPC) dont ils ont besoin pour traiter d'énormes ensembles de données, effectuer des calculs complexes et répondre à des questions importantes en science, en ingénierie, en mathématiques, en médecine et dans des dizaines d'autres disciplines.
Afin de fournir aux chercheurs les meilleurs outils pour soutenir leurs travaux et répondre à la demande croissante de ses services, le FASRC renouvelle son infrastructure HPC tous les deux ou trois ans.
Le FASRC traite plus de 290 millions de tâches par an, dont 15 000 à tout moment. Les chercheurs ont rapidement besoin de résultats, afin d'acquérir de nouvelles connaissances, de poursuivre leurs expériences et d'approfondir leurs travaux.
Nous avons voulu augmenter notre nombre de processeurs pour répondre à la demande croissante. Nous avons également décidé d'augmenter les performances de chaque processeur, puisque 25 % des heures de processeur sont consommées par des milliers de calculs sur un seul cœur qui sont faiblement couplés ». -Scott Yockel, directeur de l'informatique pour la recherche universitaire, Université de Harvard
Choisir un nouveau modèle de cluster à refroidissement liquide
Désireux de tirer pleinement parti des dernières avancées technologiques en matière de processeurs avec des puissances plus élevées, tout en permettant une plus grande performance par cœur, le FASRC a déployé un cluster de supercalculateurs à refroidissement liquide de Lenovo.
Scott Yockel commente : « Notre ancien cluster était refroidi avec de l'air, donc le passage à la technologie de refroidissement liquide Lenovo Neptune a représenté un grand changement. Le refroidissement liquide permet d'augmenter les niveaux de performance beaucoup plus efficacement, ce qui est crucial pour répondre à nos besoins informatiques actuels et futurs. »
Construire un système HPC de pointe
Le nouveau système, baptisé Cannon, est dédié à l'astronome pionnière Annie Jump Cannon. Il se compose de 72 boîtiers Lenovo NeXtScale n1200 sur 12 racks abritant 670 serveurs Lenovo ThinkSystem SD650 avec refroidissement liquide direct aux nœuds. Chaque serveur est équipé de processeurs Intel® Xeon® Platinum et de 192 Go de RAM, ce qui donne à Cannon un total de 32 160 cœurs de calcul. Les serveurs sont ensuite regroupés à l'aide d'un fabric InfiniBand HDR 100 Gbps. L'installation a été prise en charge par Lenovo Professional Services et s'est achevée dans les délais prévus.
La technologie de refroidissement liquide direct aux nœuds Neptune élimine la chaleur des unités centrales, de la mémoire, des E/S, du stockage local et des régulateurs de tension en utilisant une boucle d'eau à base de cuivre. Cela permet au FASRC de faire fonctionner les processeurs à une fréquence d'horloge de 3,5 GHz, par rapport à leur fréquence de base de 2,90 GHz, sans refroidissement supplémentaire par air. Avec 2 076 PetaFLOPs en performance Linpack, Cannon est actuellement classé 186 dans le TOP500 des supercalculateurs les plus rapides au monde1
Le FASRC occupe environ 10 000 pieds carrés dans trois centres de données. Le principal cluster Cannon est situé au Centre de calcul de haute performance du Massachusetts Green (MGHPCC) à Holyoke. Les nœuds de stockage et de connexion, les machines virtuelles et les ressources informatiques spécialisées sont répartis entre les campus de Harvard à Boston et à Cambridge, tous interconnectés par le réseau Northern Crossroads (NOX).
Le cluster Cannon fonctionne sous CentOS Linux avec Puppet pour la gestion de la configuration du cluster et SLURM Workload Manager pour la planification des tâches.
Le FASRC continue d'ajouter des serveurs Lenovo ThinkSystem au cluster en réponse à la demande croissante des chercheurs. Les facultés et les groupes de recherche peuvent utiliser leurs propres fonds pour acheter des nœuds supplémentaires, auxquels ils ont un accès prioritaire. « Le système Lenovo est facile à développer », confirme M. Yockel.
Résultats
Grâce au cluster Cannon, les chercheurs de tout Harvard ont accès à des ressources HPC de classe mondiale via le FASRC.
Scott Yockel précise : « Notre nouveau cluster Cannon offre des performances quatre fois supérieures à celles de notre précédente infrastructure dans un même espace physique, mais il ne nécessite que 50 % de puissance en plus2 Cela est dû en grande partie à la conception du refroidissement liquide direct, car elle nous permet de faire fonctionner les processeurs Intel® Xeon® Scalable à 3,5 GHz pendant 85 % du temps sans qu'ils ne surchauffent. Cela a considérablement augmenté notre puissance de traitement, de sorte que nous pouvons exécuter plus de tâches plus rapidement. »
Aujourd'hui, le pôle Cannon soutient des milliers de projets de recherche. Les principaux utilisateurs sont le Centre pour la science du cerveau et le Centre d'astrophysique.
M. Yockel explique : « Un exemple de travail actuellement effectué à l'aide du cluster Cannon consiste à étudier la relation entre le mouvement et la vision dans le cerveau. Les chercheurs utilisent des électrodes implantées pour mesurer l'activité cérébrale dans le cortex visuel primaire lorsque des rats se déplacent dans un enclos. Les chercheurs ont ensuite utilisé ces données pour créer des modèles 3D des cerveaux et exécuter des algorithmes d'apprentissage automatique pour étudier la façon dont les neurones transmettent les signaux. »
De la même façon, le Centre d'astrophysique utilise le cluster Cannon pour traiter des centaines de téraoctets d'images de télescope afin d'étudier les trous noirs et de faire de nouvelles découvertes. Au cours des derniers mois, le FASRC a intégré un certain nombre de nouveaux projets de recherche axés sur la COVID-19, que ce soit des épidémiologistes étudiant les taux de transmission aux économistes examinant l'impact financier de la pandémie.
- 4 fois plus de performances que le précédent cluster avec seulement 50 % d'augmentation de la consommation d'énergie2
- 32 160 noyaux de calcul
« La science est une question d'itération et de répétabilité. Mais l'itération est un luxe qui n'est pas toujours possible dans le domaine de la recherche universitaire car vous travaillez souvent contre la montre pour respecter un délai. Grâce aux performances de calcul accrues et au traitement plus rapide du cluster Cannon, nos chercheurs ont maintenant la possibilité d'essayer de nouvelles choses, d'échouer et de réessayer. Permettre que l'échec soit une option rend nos chercheurs plus compétitifs. Le FASRC se consacre à l'avancement de la recherche et nous sommes convaincus qu'à mesure que la demande de ressources HPC continue de croître, le système Lenovo nous soutiendra pendant les années à venir ». -Scott Yockel, directeur de l'informatique pour la recherche universitaire, Université de Harvard