TACC et UCSD : lutter contre la COVID-19 à l'aide du calcul intensif

Le supercalculateur Frontera, financé par la National Science Foundation, est en tête de la course à la découverte de traitements pour la COVID-19.

En bref :

  • Le Texas Advanced Computing Center (TACC) conçoit et exploite certaines des ressources informatiques les plus puissantes du monde, dont Frontera, l'un des plus grands supercalculateurs de la planète.

  • Frontera est équipé de processeurs Intel® Xeon® Scalable de 2e génération dotés de la technologie Intel® Deep Learning Boost (Intel® DL Boost) et de la mémoire persistante Intel® Optane™. Grâce à ces technologies, Frontera peut prendre en charge les applications TACC axées sur les données et qui en consomment beaucoup, ainsi que l'apprentissage machine et l'apprentissage approfondi.

  • Frontera soutient plusieurs dizaines de projets en réponse à la COVID-19. Ce webinaire explore l'un de ces projets, en collaboration avec le laboratoire Amaro de l'Université de Californie à San Diego (UCSD). Composants dont l'objectif est de faire le lien entre la recherche fondamentale et la recherche clinique.

author-image

Par

Dans ce webinaire, les docteurs Dan Stanzione, directeur du Texas Advanced Computing Center, et Rommie Amaro, professeur de chimie et de biochimie à l'Université de Californie à San Diego, discutent de projets en réponse à la COVID-19 .

Le Texas Advanced Computing Center (TACC) fait partie de l'Université du Texas à Austin. Le TACC est financé par la National Science Foundation pour fournir des ressources informatiques avancées. Cela inclut des ressources de calcul intensif et de données à grande échelle, ainsi que des personnes qui aident à les utiliser pour faire progresser la science dans la société à destination des utilisateurs dans le pays et le monde entier.

L'ordinateur qui est au centre des discussions aujourd'hui, à savoir Frontera, a été conçu par Intel et Dell. C'est l'un des plus grands supercalculateurs au monde. À l'heure actuelle, Frontera prend en charge plusieurs dizaines de projets en réponse à la COVID-19. Le plus important est le travail que le TACC effectue avec le laboratoire Amaro à l'université de San Diego (UCSD).

Le laboratoire Amaro développe différents modèles atomiques du virus COVID-19 et d'autres systèmes (des systèmes biologiques principalement à l'échelle atomique), puis utilise des ressources comme le Frontera au TACC pour effectuer des simulations de dynamique moléculaire de tous les atomes. Il s'agit essentiellement de la représentation informatique et numérique des systèmes biologiques et de leur évolution dans le temps. Ces approches de calcul nous permettent d'avoir une meilleure vision de ce à quoi ressemblent ces systèmes, afin de mieux préparer et concevoir des thérapies.

Mary Killelea : Bonjour. Bienvenue à tous. Merci de nous avoir rejoints pour notre série consacrée aux clients d'Intel. Cette série met en avant des entreprises innovantes leaders de l'industrie qui ont amorcé la transformation numérique, relevé des défis commerciaux et technologiques, et créé de nouvelles opportunités en utilisant les technologies et plateformes Intel centrées sur les données. Aujourd'hui, nous sommes heureux de présenter la recherche révolutionnaire qui se déroule au TACC, avec le supercalculateur Frontera financé par la National Science Foundation.

L'animateur du jour est Tim Crawford. Tim est conseiller stratégique auprès des DSI et travaille avec de grandes entreprises. Tim, je vous cède maintenant la parole pour engager la conversation d'aujourd'hui.

Tim Crawford : Ça marche. Merci, Mary, pour cette introduction et bienvenue à tous ceux qui nous rejoignent en ligne.

Nous disposons d'environ 25 minutes pour traiter le sujet, puis consacrerons les 15 dernières minutes aux questions-réponses.

Je suis accompagné aujourd'hui des docteurs Dan Stanzione et Rommie Amaro. Dan, Rommie, merci beaucoup de participer à la conversation d'aujourd'hui.

Tim Crawford : Alors, commençons par établir un point de départ pour les personnes présentes et qui nous écoutent. Peut-être pourrions nous commencer par parler du TACC, le Texas Advanced Computing Center.

Et ensuite, Rommie, nous nous tournerons vers vous pour parler un peu de l'Université de Californie à San Diego et présenter le travail que votre équipe et votre laboratoire effectuez. Alors, Dan, voulez-vous donner le coup d'envoi ?

Dr Dan Stanzione : Avec plaisir. Alors, je suis le directeur du Texas Advanced Computing Center, qui fait partie de l'Université du Texas à Austin. Cependant, nous sommes financés par la National Science Foundation pour fournir des ressources informatiques avancées, des ressources de calcul intensif et de données à grande échelle, avec des individus qui aident à les utiliser pour faire progresser la science dans la société pour les utilisateurs du pays et du monde entier. Donc, pour cette raison nous sommes vraiment une sorte de ressource nationale.

Et la machine dont nous parlons aujourd'hui, Frontera, que nous avons conçue avec Intel et Dell, est l'un des plus grands supercalculateurs au monde. Et bien sûr, en ce moment, nous l'utilisons beaucoup pour prendre en charge plusieurs dizaines de projets en réponse à la COVID-19. Et le plus important de tous est le travail que nous faisons avec le laboratoire de Rommie. Donc je peux ici passer la parole à Rommie.

Tim Crawford : Parfait. Rommie ?

Dr Rommie Amaro : Bien. Oui. Alors, je suis professeure de chimie et de biochimie à l'Université de Californie à San Diego. Et pour faire simple, mon laboratoire développe ces différents modèles atomiques.

Donc, nous modélisons le virus et d'autres systèmes, des systèmes biologiques principalement à l'échelle atomique, puis utilisons des ressources comme le TACC pour réaliser des simulations de dynamique moléculaire de tous les atomes. Ces simulations ne sont en fait que la représentation informatique et numérique de ces systèmes biologiques et de leur évolution dans le temps.

Tim Crawford : Ouah, cela fait beaucoup, j'ai hâte d'en savoir un peu plus sur le sujet. Nous avons eu l'occasion de parler un peu du travail que vous faites et je suis vraiment très heureux de partager cela avec notre auditoire.

Avant d'approfondir ce sujet, peut-être pourriez-vous parler un peu de la relation entre le TACC et l'UCSD. Ce n'est pas le premier projet sur lequel vous avez travaillé ensemble. Pourriez-vous nous en toucher un mot rapidement ?

Dr Rommie Amaro : Oui, bien sûr. Je ne sais pas si Dan veut tenter le coup, mais je peux dire que nous (notre laboratoire et plusieurs autres) utilisons le TACC pour étudier divers types de questions scientifiques depuis de nombreuses années, je dirais depuis plus de 10 ans maintenant.

Et donc, nous avons travaillé ensemble, je pense assez étroitement, sur des projets comme le cancer, les environnements de la chimie, qui est un autre domaine dans lequel nous avons beaucoup d'activités, ainsi que dans la recherche sur les virus. Avant le SRAS-CoV-2, nous avons beaucoup travaillé sur la grippe. Je ne sais pas si Dan a quelque chose à ajouter.

Dr Dan Stanzione : Oui. Je pense que le public a l'impression que lorsqu'un événement comme la COVID-19 se produit, nous faisions tous d'autres choses et sommes en quelque sorte passés à l'action. Et ces choses se produisent instantanément, et nous pouvons créer des résultats spectaculaires.

Mais ces résultats spectaculaires sont le fruit d'une longue période passée à établir des relations. Vous savez, comme je l'ai mentionné, que le laboratoire de Rommie a été le plus grand utilisateur de nos systèmes, et a été l'un des premiers à répondre au COVID. Cela parce que nous avons déjà travaillé ensemble de nombreuses fois et ces relations comptent énormément.

Elle et tous les autres membres de son laboratoire savent comment faire bon usage des systèmes que nous leur fournissons, comment ils fonctionnent et à quoi ressemble l'environnement logiciel. Nous savons comment prendre en charge les codes qu'elle utilise et exécute à l'échelle et nous avons déjà travaillé ensemble.

Donc, lorsque ça a commencé, nous avons eu une conversation rapide, nous avons mis les choses en place, puis nous nous sommes lancés. Mais, vous savez, si nous n'avions jamais travaillé ensemble avant, si les systèmes n'avaient pas été en place et si les équipes du laboratoire de Rommie n'avaient pas travaillé pendant des années pour se préparer à ce genre d'événement, nous n'aurions jamais pu offrir ce genre de réponse rapidement et de la façon attendue par la société.

C'est pourquoi cette relation à long terme et cette collaboration antérieure ont été essentielles pour mener ce travail à bien.

Tim Crawford : Super, merci de nous avoir dépeint le contexte de départ. Vous savez, beaucoup de gens vont parler du calcul intensif et de la recherche, et cela devient bien plus qu'un simple problème de laboratoire. C'est un domaine dans lequel même les entreprises commencent à s'engager et résolvent ces grands problèmes.

Mais quand on parle de résoudre ces grands problèmes, on parle de les résoudre au niveau clinique ou au niveau du génome. J'aimerais peut-être passer un peu la parole à Rommie et parler de l'importance de comprendre ce genre de problèmes à l'échelle atomique.

Alors, peut-être pourriez-vous nous parler du travail que vous faites et expliquer pourquoi la compréhension à l'échelle atomique est si importante.

Dr Rommie Amaro : Oui, bien sûr. Alors, je commencerai par rebondir sur le fait que vous avez mentionné ne pas avoir l'habitude d'entendre parler des études au niveau clinique et des études au niveau génomique. Le niveau atomique est vraiment très étroitement lié à ces deux derniers, mais ce n'est qu'un aspect différent du même problème.

Donc, ce que nous faisons, comme je l'ai mentionné plus tôt, c'est créer des sortes de modèles très détaillés, comme vous le disiez, à l'échelle atomique. Ainsi, nous représentons le virus, le virus SRAS-CoV-2 par exemple. Nous commençons avec tous les types de données expérimentales, ou un certain nombre de types différents de données expérimentales ,qui nous montrent à quoi ressemble le virus.

Ensuite, nous construisons ces représentations en silicium et explorons en détail le rôle de ces molécules. La raison pour laquelle nous y prêtons attention est qu'en fin de compte le traitement se résume à une sorte de molécule médicamenteuse que vous prendrez une fois que vous aurez contracté le SRAS-CoV-2, pour essayer de réduire la durée de la maladie. Ou par exemple, pour les personnes qui essaient de concevoir des vaccins.

Nous entendons aujourd'hui beaucoup parler d'anticorps neutralisants. Ce sont ces molécules qui, espérons-le, nous serons injectées dans l'organisme pour nous permettre de retourner dehors et embrasser à nouveau les gens. Pouvoir concevoir et comprendre le fonctionnement de ces anticorps neutralisants nécessite de comprendre comment les molécules et les atomes du virus se déplacent.

Et l'une des choses vraiment unique sur l'informatique dans cet univers, je pense, et en particulier avec le TACC, c'est que les expériences en laboratoire ne peuvent pas nous dévoiler tout ce que nous avons besoin de savoir.

Ces approches informatiques nous permettent en effet d'avoir une meilleure vision de ce à quoi ressemblent réellement ces systèmes et de ce à quoi nous avons affaire, afin de mieux préparer et concevoir des traitements.

Tim Crawford : Vous savez, Rommie, l'un des sujets dont nous avons discuté lors de la préparation de ce webinaire, est comment vous commencez à comprendre la forme des molécules, ou du virus dans ce cas précis, et comment vous exécutez différentes simulations dans ce contexte. Pouvez-vous nous expliquer comment ce genre de chose s'applique au système du TACC, à Frontera ?

Dr Rommie Amaro : Bien. OK. Donc le virus, et les virus en général, permettez-moi d'abord de vous donner un peu de contexte biologique, puis j'essaierai de répondre à votre question. Donc, les virus en général ont développé cette manière vraiment intéressante d'essayer d'échapper en quelque sorte au système immunitaire humain. Ils se cachent manifestement sous une sorte de bouclier en sucre, ou ce que nous appelons le glycane, une sorte de bouclier en glycane.

Et encore une fois, c'est une chose dont nous connaissons l'existence expérimentalement, mais qu'il est très difficile de visualiser réellement de façon expérimentale. Et donc, ce que nous avons fait, c'est encore une fois de concevoir des modèles de ces boucliers en glycane, ce qui nous donne vraiment un premier aperçu de ce à quoi ressemble cette sorte de revêtement protecteur qui entoure le virus.

Et, encore une fois, c'est important car le bouclier n'est pas une sorte de bouclier d'armure parfait. Il y a des trous dans le bouclier, et nous pouvons atteindre ces trous avec des thérapies comme les anticorps neutralisants ou les médicaments.

Et le truc, c'est que ces molécules sont vraiment grosses. Donc, des machines comme CAT; ou Frontera en particulier, qui mettent à notre disposition tous leurs nœuds et toute leur puissance de calcul, deviennent vraiment essentielles pour pouvoir interroger ces systèmes suffisamment rapidement et précisément. Ainsi, nous pouvons rapidement faire passer ces données aux développeurs de vaccins et aux cliniciens afin qu'ils puissent les exploiter dans cette bataille que nous menons actuellement contre la COVID-19.

Tim Crawford : Formidable. J'aimerais que vous m'en disiez davantage sur Frontera, si c'est possible. Dan, je vais me tourner un peu vers vous. Puisque nous parlons de Frontera, peut-être pourriez-vous nous donner un aperçu de ce qu'est cette machine. Je sais que vous en avez parlé brièvement dans votre introduction, mais peut-être pourriez-vous approfondir davantage pour notre auditoire.

Dr Dan Stanzione : Avec plaisir. Frontera est donc une machine financée par la National Science Foundation à l'Université du Texas pour relever les défis informatiques de niveau supérieur, c'est-à-dire les problèmes informatiques majeurs auxquels le monde est confronté. Cette machine a été conçue il y a environ un an. Elle a débuté à la cinquième place mondiale et a conservé ce classement malgré quelques mises à jour de la liste classant les supercalculateurs.

En fait, une de ces mises à jour a eu lieu lundi dernier et nous sommes tombés au huitième rang mondial, car de nouveaux systèmes ont été mis en ligne au Japon et en Italie cette semaine. Mais Frontera fait toujours partie des machines les plus grosses. C'est toujours la plus grosse machine de toutes les universités de la planète.

Un peu plus de 8 000 serveurs indépendants et environ 450 000 cœurs de traitement fournis par Intel composent la machine, et un réseau très étroitement couplé permet à des personnes comme Rommie d'exploiter des centaines de milliers de données pour un seul problème à la fois.

Ainsi, le TACC prend en fait en charge un éventail de machines différentes à des échelles différentes. Nous soutenons plusieurs milliers de chercheurs dans tout le pays, mais réservons Frontera pour les projets les plus importants. Et nous n'avons qu'environ 705 projets sur la machine à un instant donné, afin que chaque utilisateur puisse disposer d'assez de temps et d'une marge assez importante pour s'attaquer à certains de ces gros problèmes.

Par conséquent, dans l'écosystème des machines que nous avons pour les chercheurs universitaires, Frontera est celle réservée aux plus grands utilisateurs. Depuis le mois de mars, lorsque la réponse à la pandémie est vraiment entrée dans sa phase informatique, environ 30 % du temps passé sur la machine au cours des derniers mois a été consacré d'une façon ou d'une autre à la recherche sur le COVID.

Vous savez, Rommie a mentionné le type de travail en cours réalisé à l'échelle atomique, et son projet, ainsi que plusieurs autres avec des objectifs similaires, ont été les plus grands utilisateurs de calcul.

Nous avons aussi fait ces autres choses que vous avez mentionnées, notamment travailler au niveau du génome avec quelques douzaines de projets. Puis, avec quelques douzaines d'autres, nous avons en quelque sorte modélisé les interactions entre les personnes, soit en faisant de l'épidémiologie pour comprendre comment le virus se répand dans le pays, soit en faisant des choses comme le suivi à grande échelle des données des téléphones portables pour observer les déplacements et les interactions des individus.

Le New York Times d'aujourd'hui a publié un excellent article dans lequel l’un de nos chercheurs a pu apporter sa contribution et qui montre comment tous ces cas se propagent.

Tim Crawford : Formidable. Vous avez également évoqué la façon dont Frontera est utilisé dans certains projets COVID ou certains projets liés à la COVID, par rapport à d'autres solutions. Il existe de nombreuses autres solutions. Pouvez-vous nous en parler brièvement ?

Dr Dan Stanzione : Des autres solutions ou des autres problèmes, Tim ?

Tim Crawford : Des autres solutions. Alors, par exemple, lorsqu'on pense au consortium HPC par exemple, il existe d'autres solutions faisant partir de ce consortium qui s'associent pour résoudre ces problèmes importants.

Dr Dan Stanzione : Avec plaisir. En effet, il existe un certain nombre d'architectures et d'autres approches informatiques que les gens utilisent. Il existe donc maintenant, depuis environ 90 jours au moment où nous parlons, un consortium national COVID HPC organisé par l'Office of Science and Technology Policy de la Maison Blanche et qui coordonne actuellement environ 15 fournisseurs de services informatiques à grande échelle, dont Amazon, Microsoft et Google en tant que fournisseurs de Cloud, les laboratoires du DOE, quelques universités, et maintenant d'autres ressources dans le monde entier. Le Royaume-Uni, le Japon et un centre en Suisse font désormais partie du consortium.

Ce consortium soutient collectivement 70 projets liés à la recherche sur la COVID-19. Ceux-ci vont sur différents sites, en fonction de leurs besoins informatiques. Nous nous sommes donc concentrés sur une sorte de gros ordinateur centré sur le processeur, qui est, selon nous, l'objectif le plus évident, mais il existe des architectures plus spécifiques, des ordinateurs davantage centrés sur le cœur graphique, et d'autres qui ne sont que de grandes collections de problèmes plus vaguement couplés que vous pouvez exécuter sur des serveurs Cloud.

La plupart de ces architectures sont utilisées lorsque nous avons de très grandes collections de petits problèmes d'analyse de données. Par exemple, les problèmes de Rommie, qui utilisent des milliers de nœuds à la fois, ne fonctionneraient pas très bien dans cette configuration, mais beaucoup d'autres projets le font. C'est pourquoi nous avons, je pense, le plus grand nombre de ces fournisseurs.

Nous soutenons une douzaine de projets qui nous ont été attribués par le consortium, mais il existe aussi des architectures plus spécialisées et des fournisseurs de Cloud qui participent tous pour essayer d'aider au moins à relever la partie informatique du défi.

Tim Crawford : Formidable. J'aimerais maintenant qu'on évoque le rôle d'Intel dans tout ça, et qu'on parle de la place qu'occupe Intel dans Frontera. Vous avez parlé des 450 000 cœurs, des cœurs Intel, mais je sais que la programmation et les relations jouent un rôle dans ce domaine. Dan, peut-être pourriez-vous commencer par nous donner votre avis sur la façon dont les relations et la programmation s'inscrivent dans votre relation avec Intel.

Dr Dan Stanzione : Avec plaisir. Vous savez, j'ai évoqué tout à l'heure les relations avec les chercheurs. Le TACC se situe en quelque sorte au milieu, entre les utilisateurs finaux, les scientifiques qui font le travail et les fournisseurs comme Intel, qui fournissent la technologie nécessaire pour réaliser ce travail.

Et donc, cet ensemble de relations a également été d'une importance capitale pour nous. Encore une fois, Frontera est conçu et intégré par Dell, mais repose sur les technologies Intel®, notamment les Xeon [processeurs Intel® Xeon®] et les derniers Xeon Cascade Lake [processeurs Intel® Xeon® Scalable] que nous avons utilisés pour construire le système.

Nous avons également intégré certaines des technologies Optane [technologie Intel® Optane™] et DIMM pour les gros nœuds de mémoire. Mais c'est loin d'être notre première machine avec Intel. En fait, c'est une sorte de suite linéaire à nos supercalculateurs Stampede et Stampede2, que nous avons également construits avec Intel.

Et c'est en partie grâce à cela que ces choses fonctionnent vraiment, d'une part grâce aux puces qui fonctionnent, mais d'autre part grâce aux logiciels, aux microprogrammes et aux réglages qui vont avec. Nous avons donc travaillé en étroite collaboration avec les ingénieurs d'Intel pour régler les bibliothèques de transmission de messages qui sous-tendent les codes de dynamique moléculaire que Rommie et d'autres utilisent. Ainsi, nous nous sommes assurés que nous n'avons pas seulement de grosses machines, mais qu'elles sont vraiment adaptées à la science.

Et nous avons travaillé avec Intel pour régler les applications afin qu'elles fonctionnent bien. Et oui, c'est aussi quelque chose qui dure depuis des décennies, mais qui s'est intensifié ces derniers mois autour de ces problèmes spécifiques.

Tim Crawford : Bien entendu. Rommie, j'aimerais que vous preniez part à cette conversation. Dans quelle mesure cette cohérence joue-t-elle un rôle dans votre travail ?

Dr Rommie Amaro : Oh, je dirais que c'est vraiment important. Vous savez, et comme l'a souligné Dan, surtout pour ce problème précis, pour la COVID-19 nous devions réagir très rapidement.

Et, ayant eu auparavant cette longue expérience de développement du code sur ces systèmes, en plus de la relation déjà établie avec le TACC et l'ensemble de l'équipe, cela nous a permis d'aller de l'avant. Je dirais que nous avons gagné au moins un mois, ce qui, vous savez, dans des périodes comme celle-ci, est vraiment crucial.

Je pense donc qu'il a été très important de répondre rapidement, surtout pour ce problème particulier.

Tim Crawford : C'est formidable. Lorsque vous parlez des différents types de projets dans lesquels vous êtes engagée, Rommie, vous savez, nous nous sommes concentrés sur la question du COVID, car c'est un peu au centre de la vie de chacun en ce moment, que ce soit professionnellement ou personnellement.

Mais donnez-nous un aperçu des autres types de projets que votre équipe et votre groupe ont menés à l'UCSD.

Dr Rommie Amaro : Je peux en citer quelques-uns. Alors, nous travaillons dans deux domaines majeurs, dont l'un relève du domaine des maladies. Nous y avons bon nombre de projets passionnants, notamment celui de développer un traitement anticancéreux.

C'est une initiative qui a été couronnée de succès. Nous avons pu utiliser le TACC, enfin, l'ancien système, Stampede, auquel Dan a également participé je pense. La tonicité des modèles de niveaux qui étaient simulés ont permis de trouver de nouvelles poches de médicaments jusque là inconnues. C'était devenu des molécules de médicaments avancées, qui d'une certaine façon ciblaient cette toute nouvelle modalité de classe d'action contre le cancer.

Et puis un autre domaine qui nous passionne vraiment, et je pense qu'il pourrait s'agir de notre prochaine pandémie, est lié au changement climatique. Nous essayons de comprendre comment les aérosols ou ces petites particules en suspension, en particulier les embruns, contrôlent en quelque sorte la chimie et participent à diverses réactions chimiques. En effet, ils flottent dans l’atmosphère et sont responsables par exemple de la formation de nuages de germes ou, par exemple, de la pluie qui tombe.

Nous essayons donc de comprendre ces très petits détails qui ont finalement un effet à très grande échelle. Mais tout commence en quelque sorte en essayant de comprendre vraiment les plus petits pas que nous pouvons faire au niveau atomique.

Tim Crawford : Je suis stupéfait que vous résolviez ces énormes problèmes critiques au niveau le plus atomique, au sens propre comme au sens figuré.

Alors, quels sont les projets à venir pour le TACC, l'UCSD, ainsi que vous et votre laboratoire, Rommie ? Permettez-moi de commencer par vous, Dan, pour parler du TACC, puis, nous passerons à Rommie et parlerons de son laboratoire.

Dr Dan Stanzione : Avec plaisir. Donc, puisque nous nous intéressons aux systèmes du futur et à leur développement, il se passe toujours quelque chose au TACC. On peut dégager en quelque sorte en trois fils conducteurs.

D'abord, les opérations, n'est-ce pas ? Vous savez, comment soutenons-nous les chercheurs, comme Rommie et beaucoup d'autres, dans tous les différents domaines de la science qui utilisent nos machines le plus efficacement ?

Comment la pile logicielle évolue-t-elle avec l'augmentation des méthodes d'intelligence artificielle que nous voyons se développer dans de plus en plus de flux de travail scientifiques, l'augmentation des données numériques très bon marché qui arrivent en grande quantité pour des choses comme, tout, des véhicules autonomes à la surveillance de l'environnement en passant par la physique des particules dans la salle du grand collisionneur de hadrons.

Donc, nous travaillons en quelque sorte sur le plan opérationnel, sur la façon dont nous pouvons intégrer la pile logicielle pour aider les utilisateurs, mais nous planifions aussi toujours les futurs systèmes. Ainsi, même aujourd'hui, bien qu'il reste encore plusieurs années (Frontera n'a qu'un an, contrairement à Stampede qui a maintenant plusieurs années), nous examinons les systèmes qui vont le suivre, et le type de technologie de la prochaine génération, et ensuite comment tout cela va répondre aux besoins de la science dans les années à venir.

Nous prévoyons donc [inaudible] sur Frontera dans quatre ans environ, ce qui devrait multiplier par 10 la capacité de cette machine, à la fois en termes de capacité à résoudre des problèmes individuels plus rapidement, dans le cas de problèmes très importants comme celui de Rommie, mais aussi à gérer dix fois plus de travail scientifique en même temps.

Tim Crawford : Ouah, c'est impressionnant. Et vous, Rommie ?

Dr Rommie Amaro : Oui. Eh bien, en ce qui nous concerne, nous allons essentiellement continuer à accroître la complexité et la taille des systèmes que nous étudions. Vous savez, la première étude que nous avons faite sur le SRAS-CoV-2, par exemple, ne portait que sur la protéine dite de spicule, qui est en quelque sorte le principal mécanisme d'infection dont elle dispose. Mais, ce que nous faisons déjà maintenant, nous essayons de nous orienter vers une simulation de l'ensemble du virus SRAS-CoV-2, puis d'observer comment il s'associe fondamentalement aux cellules hôtes.

Ainsi, nous allons en quelque sorte continuer à élargir l'échelle, la taille du problème réel que nous cherchons à résoudre sur Frontera et son successeur.

Tim Crawford : C'est stupéfiant. Alors, peut-être une question à ce sujet. Quelle est la contrainte pour comprendre ces problèmes majeurs ? Est-ce l'informatique ? Est-ce le groupe d'experts ? Est-ce le temps ? Quelle est la contrainte quand on parle de résoudre certains de ces grands problèmes ?

Dr Rommie Amaro : Je dirai que c'est un peu tout cela. Je m'explique. Tout d'abord, vous savez, nos modèles s'appuient sur des données expérimentales. Ainsi, une limitation, ou quelque chose que nous devons continuellement mettre à jour, c'est comme faire des expériences. Nous récupérons davantage d'informations sur le contexte du problème, donc des détails sur le virus ou sur ce avec quoi il interagit dans le système humain, puis nous revenons en arrière pour mettre nos modèles à jour pour nous assurer qu'ils reflètent ce que nous savons aussi précisément que possible. Puis, nous les résolvons ou essayons de les résoudre une nouvelle fois.

Donc, je suppose que le groupe d'experts s'interroge sur la nature des données qui alimentent nos modèles pour aider à les rendre plus précis ? Mais en même temps, l'informatique est importante. Nous sommes un groupe de chercheurs très friands de solutions de calcul de grande envergure et nous continuerons à élargir le type de questions que nous poserons, à mesure que ces solutions de calcul se développeront et prendront de l'ampleur, vous savez.

Donc, nous continuerons à grandir pour nous adapter à la taille des machines, je pense. Je ne sais pas si Dan a un point de vue différent sur la question.

Dr Dan Stanzione : Non, votre réponse est parfaite, Rommie. J'allais répondre par l'affirmative à la question de Tim, car ce sont toutes ces choses réunies et c'est vraiment une sorte de processus itératif, n'est-ce pas ? Ce que nous observons, en augmentant la résolution et la quantité de physique qui entrent dans les modèles informatiques, c'est que ce processus exécute deux tâches.

D'un côté, il vous aide à résoudre les divergences avec les observations faites dans l'univers réel quant à la façon dont les choses se passent à mesure que ces modèles s'améliorent. Et de l'autre, il vous conduit à de nouvelles connaissances, n'est-ce pas ? Donc, si on réfléchit plus en termes d'astronomie et d'astrophysique, les études actuelles sur la matière noire, l'énergie noire et ce que sont ces forces dans l'univers sont le résultat des divergences entre le modèle et l'observation aboutissant à une nouvelle théorie. On en arrive là, n'est-ce pas ?

Ainsi, d'une certaine manière, surtout lorsque nous sommes confrontés à des éléments de très petite taille, que nous travaillons avec des atomes et des matériaux fondamentaux de la nature, ou des éléments très grands, comme les galaxies qui tournent les unes autour des autres ou entrent en collision avec des trous noirs, les expériences sont difficiles.

Nous remplaçons donc les expériences très coûteuses ou impossibles à réaliser par le calcul pour obtenir de nouvelles connaissances dans ce domaine. Et, à mesure que les modèles s'améliorent, les scientifiques se posent de nouvelles questions. De ce fait, il y a une sorte de processus itératif qui se produit, et nous continuons à fournir ces nouveaux outils. De plus, de nouvelles choses passionnantes continuent à se produire avec des personnes comme Rommie, qui peut passer à la question suivante.

Tim Crawford : Formidable. Avant de passer aux questions-réponses, je voudrais juste conclure sur un sujet que vous avez évoqué précédemment, à savoir le calcul d'urgence. Et en quoi il est comparable au calcul intensif. Et je crois, je ne me souviens plus, Dan, si c'est vous qui en avez parlé ou Rommie, mais peut-être pourriez-vous nous expliquer très très rapidement ce que vous entendez par là.

Dr Dan Stanzione : Oui. Donc, vous savez, le calcul intensif est quelque chose que nous faisons en permanence et dont nous avons un énorme besoin. Il est en quelque sorte motivé par la nécessité de tout faire en partant de faire progresser la science fondamentale - l'étude de ces sortes de trous noirs ou des mécanismes fondamentaux de la science - puis l'ingénierie rapide, en passant par la construction de meilleures voitures, comme les voitures autonomes, et il reste beaucoup de temps pour gérer la pression liée aux itérations rapides pour améliorer le processus de fabrication.

Mais, il existe également cette nouvelle sous-catégorie de calcul intensif que j'appellerais le calcul d'urgence. Il est associé aux catastrophes naturelles et aux autres défis sociétaux, n'est-ce pas ? Aujourd'hui, il s'agit de la COVID. Si nous avions eu cette discussion il y a deux ans, nous aurions parlé de la réponse informatique à l'ouragan Harvey.

C'est l'été, ce qui signifie qu'en ce moment même, nous faisons une tonne de prévisions de tornades. Nous faisons beaucoup de modélisation des tremblements de terre, dans un monde où les tempêtes et les événements climatiques sont plus violents et les populations plus touchées. Et surtout en allant dans des régions qui sont sujettes aux inondations, ou tout simplement parce que le monde devient plus peuplé, vous savez, ces catastrophes ont un impact de plus en plus important.

Nous avons besoin d'une sorte de réponse informatique en temps réel à cela, et cela entraîne une forte demande qui, autrement, s'orienterait vers la recherche fondamentale et changerait notre façon de faire fonctionner ces grosses machines. Donc, il s'agit pour nous d'une sorte de nouveau pilote, et c'est pourquoi nous devons construire des systèmes très grands et très réactifs.

Tim Crawford : Oui. L'un des points que j'ai retenu de notre discussion de préparation de ce webinaire est que le travail que vous faites n'est pas seulement universitaire. Le travail que vous faites tous les deux est très attentif et très critique pour les humains et la terre. Et donc, je pense que c'est incroyablement important.

Passons aux questions-réponses. Nous avons quelques questions provenant de notre auditoire. La première question est la suivante : comment transformez-vous vos connaissances en matière de structure et de mouvement moléculaires en un modèle algorithmique à exécuter sur HPC ?

Dr Rommie Amaro : Eh bien, il s'agit là d'une excellente question. Alors, vous savez, il s'agit en fait d'un des domaines de la chimie qui, par le passé, était purement d'ordre théorique, et où des chercheurs rédigeaient des théories au stylo et au crayon et ainsi de suite, vous voyez ? Mais maintenant, nous avons toutes ces différentes façons d'encoder numériquement ces théories et de les résoudre maintenant sur ces architectures.

Il y a donc quelques éléments vraiment importants qui entrent dans ce type particulier de modélisation informatique. Le premier est que, comme je l'ai mentionné, nous décrivons le système au niveau atomique. Ainsi, nous définissons sommairement une équation mathématique qui nous indique quelles devraient être les interactions entre les différents atomes et les types d'atomes dans notre système.

Et puis nous avons eu cette chose appelée champ de force, qui a été développée au cours de nombreuses décennies et qui est en quelque sorte un paramètre de cette équation. Puis, tout ce que nous faisons, c'est utiliser ces formidables machines comme Frontera pour intégrer l'équation du mouvement de Newton au fil du temps.

Cela nous donne essentiellement cette propagation dynamique du mouvement atomique dans son véritable contexte biologique en quelque sorte. Je ne sais pas si c'est trop technique, mais c'est essentiellement cela. Vous avez en quelque sorte posé une question technique, c'est donc essentiellement ainsi que nous procédons. En gros, c'est ainsi que nous procédons.

Tim Crawford : Super. La question suivante, et je pense que pour y répondre, vous, Rommie, êtes probablement encore la mieux placée pour commencer. Je me demande si vous pourriez nous parler un peu de certaines des entrées du modèle. Et y a-t-il un moment où le modèle sera « achevé » ?

Dr Rommie Amaro : Bien. C'est une autre excellente question. Alors, les entrées du modèle. Comme je l'ai fait savoir, elles sont variées. En ce qui nous concerne, il s'agit de divers types de données expérimentales. Il est donc très important pour cela que nous construisions des représentations tridimensionnelles de ces thèmes biologiques ou des composants viraux dans les cellules hôtes.

Donc, nous utilisons des données structurelles. Par exemple des données issues de la cryo-microscopie électronique, de la cristallographie aux rayons X et de la tomographie. Ce sont donc là tous les moyens dont disposent les expérimentateurs pour obtenir des informations structurelles sur les ensembles de données structurelles en biologie. Nous fusionnons ensuite ces données avec ce que nous appelons une glycomique.

Donc, en gros, c'est comme comprendre à quoi ressemble ce bouclier de glycane. C'est possible en utilisant diverses approches de spectrométrie de masse. Ici, nous exploitons des données glycomiques, génomiques et lipidomiques.

Nous avons donc là toutes ces informations issues d'expériences. Nous exploitons une grande partie de ces données pour nous donner une sorte de condition limite initiale, si vous voulez, ou pour savoir en quelque sorte à quoi ressemble le système. Et puis nous lui donnons vie, par la simulation.

Tim Crawford : Super.

Dr Dan Stanzione : Oui. Puis-je ajouter quelque chose à ce sujet, Tim ? Oui. Il y a toujours une autre question à poser, n'est-ce pas ? Et ces modèles viennent toujours en quelque sorte compléter nos connaissances sur l'univers. Dans une certaine mesure, ce travail n'est jamais achevé. Cependant, je pense que ce que beaucoup de gens ne comprennent peut-être pas s'ils ne sont pas au milieu du processus, c'est que ce n'est pas parce que ce n'est pas fini que nous n'obtenons pas assez d'informations pour pouvoir agir de manière efficace, n'est-ce pas ?

Et donc, beaucoup de ces informations, comme la structure de la protéine S à laquelle Rommie faisait référence, sont déjà assez fiables pour être utilisées en amont par d'autres chercheurs. Vous savez, nous travaillons avec une équipe de l'Université de Chicago qui a un pipeline de données. Basé sur de ce que nous savons de la structure, existe-t-il des composants qui ne pourront jamais être utilisés comme médicament ?

Ainsi, ils ont passé en revue et éliminé des millions de possibilités, n'en laissant juste que quelques douzaines qu'ils ont confiées aux chimistes médicaux pour essayer de les synthétiser et de les tester, ce qui accélère considérablement le développement de traitements et de vaccins.

Ainsi, sur la base de nos connaissances actuelles, leur phase de recherche de ce que nous devons tester dans le cadre de nouveaux essais cliniques passe de millions de possibilités à des milliers. En conclusion, la science ne s'arrête jamais. Et, vous savez, je pourrais vous citer des exemples dans une douzaine d'autres domaines où des situations similaires se produisent.

Mais ce n'est pas parce que cela n'est pas fini que ce que nous avons fait jusqu'à présent n'est pas utile et exploitable. Et, vous savez, des réponses spectaculaires peuvent en sortir. C'est un peu le processus, n'est-ce pas ? Rommie et son équipe réalisent des simulations. Ils effectuent de nombreuses analyses. Ils publient leurs résultats.

Ensuite, ils ont plus de travail à faire et passent à la réalisation d'un modèle plus détaillé pour répondre à la question de la meilleure des manières ou répondre à de nouvelles questions, mais en même temps, les informations ont un impact et sont utilisées. Vous savez, nous en sommes déjà au point où, à mon avis, cela a eu un impact énorme sur notre quête de traitements et de vaccins pour ça.

Et donc, il y a toujours plus à faire. La réponse peut toujours être meilleure, mais elle est déjà utile. Et je pense que cette distinction vaut la peine d'être soulignée.

Tim Crawford : Si nous avions plus d'ordinateurs, plus de personnes et plus de scientifiques, nous pourrions faire beaucoup plus pour répondre à ces questions.

Dr Dan Stanzione : Absolument.

Tim Crawford : Nous avons encore quelques questions et il nous reste seulement quelques minutes pour y répondre. Permettez-moi de passer à la vitesse supérieure et de voir comment nous pouvons les aborder très rapidement. Alors, ma première question est la suivante : combien de temps prennent généralement les simulations ?

Dr Rommie Amaro : Oh, OK. Cela dépend de la taille du système ainsi que de la question que l'on souhaite poser. Mais de façon générale, je veux dire pour nous - et vous parlez de l'heure de l'horloge mondiale ? Je suppose que oui, ou alors vous parlez du temps réel ?

Tim Crawford : Oui. C'est une excellente question. C'est une question dans la question.

Dr Rommie Amaro : Une question du Commonwealth. Oui. OK. Alors, pour nous, pour ce système particulier pour lequel nous avons très récemment utilisé Frontera, il s'agit de simuler sur une échelle de temps biologique, plusieurs microsecondes. Disons environ 10 microsecondes, et cela nous a pris environ deux mois sur le supercalculateur Frontera, en gros.

Dr Dan Stanzione : Oui. C'était une énorme série. Nous procédons à des expériences et heureusement, nous pouvons faire ce que nous appelons des points de contrôle, en arrêtant et en redémarrant les simulations. Ainsi, elles ont en quelque sorte 48 heures sur la machine, puis quelqu'un d'autre vient les exécuter. Mais effectivement, c'est une expérience, nous avons eu des projets qui ont pris jusqu'à un an et demi juste pour achever un seul passage.

Tim Crawford : Ouah. OK, question suivante. Quel est l'impact de la convergence du calcul intensif et de l'IA sur notre capacité à résoudre les problèmes de grande ampleur, notamment l'impact de la COVID, le changement climatique et les catastrophes naturelles ?

Dr Dan Stanzione : Oui. Je vais essayer de répondre à cette question. En réalité, c'est la convergence de nos méthodes numériques scientifiques classiques et de l'IA, car l'informatique sous-jacente est en fait assez similaire. Il y a des différences. Lorsque nous entraînons des réseaux neuronaux par rapport aux simulations, nous pouvons utiliser une précision réduite et il y a quelques différences de calcul fondamentales. Mais il y a une sorte de notion de convergence du calcul intensif et de l'IA.

Nous exécutons des charges de travail d'IA sur des plateformes de calcul intensif. En bref, la réponse est oui, et nous faisons quelques ajustements à ce sujet. Toutefois, la réponse la plus rapide en science est que nous intégrons des méthodologies d'IA, plus précisément la notion de ce que nous appelons les modèles de substitution. Ce sont des types de modèles statistiques déduits des données, contrairement aux types de modèles basés sur des principes physiques dérivés de principes premiers pour accélérer la base de recherche.

Et il existe tellement de questions ouvertes sur la façon d'utiliser l'IA dans le domaine scientifique. L'une d'elles concerne la manière dont vous validez les réponses et vérifiez que les résultats sont corrects. Mais effectivement, là où nous la rencontrons le plus, et même dans ce projet de pipeline de médicaments, si vous utilisez l'IA et le modèle de substitution, qui est entraîné, peut-être que vous exécutez la sortie de 1 000 simulations précédentes. Vous réduisez alors votre base de recherche, n'est-ce pas ?

Donc, vous prenez 10 millions de réponses possibles pour avoir une réponse sur, soit un composé lié au COVID, soit la forme d'une voilure sur un avion par exemple. Au lieu d'avoir un million de possibilités, l'IA vous réduit ce nombre à cinq ou dix candidats et vous n'avez plus qu'à faire une analyse physique approfondie de ceux-ci. C'est donc une technique que nous pouvons utiliser pour accélérer considérablement les choses.

Tim Crawford : C'est super.

Dr Rommie Amaro : Oui, c'est vrai. Et si je puis me permettre d'ajouter quelque chose rapidement. En effet, l'une des choses que nous avons observées est que, comme dans l'univers de la découverte de médicaments, il existe vraiment une intersection comme le laissait entendre cette question. L'intersection de ces modèles basés sur la physique avec l'IA est particulièrement puissante pour rendre le modèle plus prédictif de manière significative.

Tim Crawford : Formidable. Malheureusement, le temps est écoulé. Je tiens d'abord à remercier les docteurs Dan Stanzione et Rommie Amaro. Merci beaucoup d'avoir partagé vos idées dans ce webinaire.

Télécharger la transcription ›