Le CERN accélère les charges de travail de simulation avec l'IA

Les chercheurs du CERN réalisent une inférence plus rapide grâce à Intel® DL Boost et oneAPI avec les processeurs Intel® Xeon® Scalable.

En bref :

  • Les physiciens et les chercheurs du CERN, l'Organisation européenne pour la recherche nucléaire, utilisent une gamme unique d'installations d'accélérateurs de particules pour étudier les constituants les plus fondamentaux des particules fondamentales de la matière.

  • Les futures mises à niveau du LHC (Large Hadron Collider) du CERN entraîneront une augmentation spectaculaire des taux de collision de particules. Les chercheurs ont utilisé le kit d'outils Intel® AI Analytics pour obtenir des performances plus élevées pour l'inférence dans les processeurs Intel® Xeon® Scalable avec Intel® Deep Learning Boost.

author-image

Par

Synthèse

En cherchant à accélérer les charges de travail de simulation, les chercheurs ont fait bon usage de techniques susceptibles d'avoir une large application pour accélérer les simulations basées sur Monte Carlo et l'inférence d'apprentissage en profondeur (deep learning) en général. Leurs résultats ont permis de mettre en évidence l'efficacité des capacités d'accélération de l'IA présentes dans les processeurs Intel® Xeon® Scalable.

Défi

Les physiciens et les chercheurs du CERN, l'Organisation européenne pour la recherche nucléaire, utilisent une gamme unique d'installations d'accélérateurs de particules pour étudier les constituants les plus fondamentaux des particules fondamentales de la matière. La Grille de calcul mondiale du LHC, une collaboration mondiale de plus de 170 centres de calcul dans 42 pays, est utilisée pour la simulation, mais aussi pour analyser et stocker la vaste quantité de données générées par cette recherche.

Les ingénieurs observent la petite roue de la chambre de Muon qui est descendue dans la caverne en préparation des récentes expériences ATLAS à grande échelle et à usage général. La chambre détecte les collisions qui fournissent les données pour l'analyse. Photographie utilisée avec permission © CERN.

Afin de répondre aux besoins futurs du LHC (Large Hadron Collider - le plus grand accélérateur de particules au monde) du CERN, les chercheurs du CERN, de SURFsara et d'Intel ont repensé les approches permettant de fournir de nouveaux niveaux extraordinaires de simulations basées sur Monte Carlo. Les futures mises à niveau du LHC entraîneront une augmentation considérable des taux de collision de particules. À la suite des collisions des expériences LHC, les calorimètres mesurent l'énergie qu'une particule perd lorsqu'elle passe à travers le détecteur. L'interprétation des données des calorimètres se fait par des simulations de Monte Carlo qui reconstituent efficacement les collisions.

L'équipe de chercheurs voulait accélérer une charge de travail d'inférence deep learning qui promettait de donner des résultats beaucoup plus rapidement que les simulations basées sur Monte Carlo. Ces travaux sont menés dans le cadre de la collaboration de longue date entre Intel et le CERN par l'intermédiaire de l'openlab du CERN. Le CERN openlab est un partenariat public-privé, fondé en 2001, qui vise à accélérer l'innovation dans le domaine des technologies de l'information et de la communication (TIC). Aujourd'hui, Intel et le CERN travaillent ensemble sur un large éventail de recherches, de l'évaluation du matériel au calcul intensif (HPC) en passant par l'IA.

Solution

Les chercheurs ont utilisé le kit d'outils Intel AI Analytics pour obtenir des performances plus élevées pour l'inférence dans les processeurs Intel Xeon Scalable avec Intel® Deep Learning Boost (Intel DL Boost). Intel DL Boost étend le jeu d'instructions AVX-512 pour offrir une accélération d'inférence beaucoup plus efficace pour les charges de travail de deep learning.

De plus, ces recherches fournissent des informations sur la façon d'accélérer les modèles dépendants de simulations Monte Carlo qui pourraient être utiles dans de nombreux autres domaines.

L'accélération intégrée de l'IA fournie par Intel DL Boost était essentielle aux gains de performance du projet. Il a été démontré qu'Intel DL Boost accélère l'inférence sans sacrifier la précision.

Résultats

Les chercheurs ont démontré des gains de performance en simulant un calorimètre pour un futur accélérateur de particules potentiel - en utilisant un réseau antagoniste génératif (GAN) conditionnel - avec seulement une fraction des ressources de calcul auparavant nécessaires. Leur approche consistant à former les GAN et à utiliser Intel DL Boost pour accélérer via la quantification sans sacrifier la précision, ouvre de nouvelles possibilités passionnantes pour toutes les applications qui utilisent les simulations de Monte Carlo.

(Figure 2, à gauche) La quantification a donné lieu à une accélération de 1,8 fois1 en utilisant Intel® DL Boost (plus précisément les calculs INT8) sur un processeur Intel® Xeon® Platinum 8280, et elle montre également une précision légèrement améliorée.

(Figure 3, à droite) Le multistreaming de l'inférence a permis d'améliorer les performances par 2,2 fois1 sur un processeur Intel Xeon Platinum 8280 avec Intel DL Boost.

Ce travail a de vastes implications. Comme le fait remarquer le Dr Sofia Vallecorsa, physicienne spécialisée dans l'IA et la recherche quantique au CERN, plus de la moitié des calculs de la Grille de calcul mondiale du LHC sont utilisés pour la simulation. La performance, le coût et la précision sont tous d'une importance capitale dans le déploiement de leur modèle formé.

Comme l'illustre la figure 2, l'équipe a constaté des gains de 1,8 fois pour son modèle complexe d'inférence GAN. Il montre également une légère amélioration de la précision (moins c'est mieux : précision INT8 de 0,05324 contre précision FP32 de 0,061227)1.

La quantification a conduit à une accélération de 1,8 fois en utilisant Intel DL Boost (plus précisément les calculs INT8) sur un processeur Intel Xeon Platinum 8280, et elle montre également une précision légèrement améliorée1.

Synthèse de la solution

Afin d'adopter leur modèle pour utiliser Intel DL Boost sans aucune perte de précision, les chercheurs du CERN ont utilisé l'outil d'optimisation de la précision Intel Low Precision Tool, qui est une nouvelle bibliothèque open source Python prenant en charge les stratégies de réglage automatique par précision. L'outil permet d'accélérer le déploiement de solutions d'inférence de faible précision sur des frameworks DL populaires, notamment TensorFlow, PyTorch, MXNet, etc. L'outil est disponible sur le site GitHub et est inclus dans le kit d'outils analytiques Intel AI ainsi que les versions optimisées par Intel de TensorFlow, PyTorch et des modèles pré-formés pour accélérer les flux de travail de deep learning. La figure 4 montre le flux utilisé lors de l'auto-réglage de la quantification automatisée.

Les chercheurs du CERN ont découvert qu'environ la moitié des calculs de leur réseau pouvaient passer de la précision numérique float32 à INT8, telle que soutenue par Intel DL Boost, sans perte de précision. Ils ont vu leur performance presque doubler1 de ce fait. Cela correspond à l'attente selon laquelle une conversion complète de float32 à INT8 pourrait donner jusqu'à un gain de performance théorique maximum de 4X en raison des performances de calcul supplémentaires et de la réduction de la bande passante mémoire. Avec la moitié du réseau converti, il est logique qu'un gain légèrement inférieur à 2X ait été obtenu alors que 4X était le maximum théorique pour une conversion complète.

Figure 4. La quantification est réalisée avec un contrôle total des compromis de précision, ce qui se traduit par des gains de performance significatifs pour l'inférence.

Cet affichage, similaire à l'une des deux grandes expériences polyvalentes qui sont célèbres pour la découverte du Higgs, présente le détecteur Solénoïde compact Muon (CMS) ainsi que l'événement candidat au cours duquel trois bosons W sont produits. Image utilisée avec permission © CERN

Il est important de noter que ce gain significatif s'est passé sans sacrifier la précision. Une conversion complète à l'INT8 donnerait de meilleures performances, mais avec une perte de précision que cette équipe ne souhaitait pas pour son application. La quantification est une technique importante rendue relativement facile grâce à des outils permettant un réglage automatique en fonction de la précision. Cela permet aux utilisateurs d'obtenir des performances accrues tout en gérant la précision à n'importe quel niveau souhaité.

La quantification s'avère être un moyen efficace d'accélérer l'inférence, et les processeurs Intel Xeon Scalable avec prise en charge intégrée de l'accélération IA (Intel DL Boost) avec INT8 montrent à quel point cela peut être puissant. Les performances ont presque doublé par rapport aux 32 bits précédents. La précision a été maintenue grâce à l'outil de quantification open-source.

Les inférences FP32 et INT8 ont toutes deux été optimisées pour le multicœur. Valeriu Codreanu, responsable du calcul haute performance et de la visualisation chez SURF, explique cette optimisation des performances : « Comme l'inférence est moins coûteuse en termes de calcul que le training (car seule la partie générateur du GAN est utilisée), l'efficacité du matériel lors de l'utilisation de plusieurs cœurs dans ce processus n'est pas optimale. Pour surmonter cela, nous avons utilisé l'inférence quantifiée multiflux, atteignant une accélération de 2,2X 1 par rapport à l'inférence quantifiée à un seul flux, en utilisant le même système Intel Xeon Platinum 8280. » Cela est illustré dans la figure 3.

Le multistreaming de l'inférence a permis d'augmenter les performances 2,2 fois1 sur un processeur Intel Xeon Platinum 8280 avec Intel DL Boost.

Les principales parties des outils utilisés, y compris l'accélération contenue dans TensorFlow et Python, utilisent des bibliothèques avec le support oneAPI. Cela signifie qu'ils sont ouvertement prêts pour des systèmes hétérogènes au lieu d'être spécifiques à un seul fournisseur ou à un seul produit (par exemple, le GPU).

oneAPI est un modèle de programmation unifié, multisectoriel, ouvert et normalisé qui offre une expérience de développement commune dans toutes les architectures d'accélérateur. Intel a aidé à créer oneAPI et le soutient avec une gamme de compilateurs, bibliothèques et autres outils open source.

En programmant pour utiliser INT8 via oneAPI, le type de travail discuté dans cette étude de cas pourrait être réalisé en utilisant des GPU Intel® Xe, des FPGA ou tout autre dispositif supportant INT8 ou d'autres formats numériques pour lesquels ils peuvent quantifier.

Composants de la solution

Présentation vidéo « Increasing AI Inference with Low-Precision Optimization Tool with Intel Deep Learning Boost–A High Energy Physics Use Case » (Augmenter l'inférence de l'IA avec un outil d'optimisation de faible précision grâce à Intel Deep Learning Boost - Un cas d'utilisation de la physique des hautes énergies) par Haihao Shen (Intel) et le Dr. Sofia Vallecorsa (CERN openlab).

Document du CERN, « Reduced Precision Strategies for Deep Learning : A High Energy Physics Generative Adversarial Network Use Case » (Stratégies de précision réduite pour le deep learning : un cas d'utilisation de la physique des hautes énergies dans le cadre d'un réseau antagoniste), qui sera présenté à la 10ᵉ conférence internationale sur les applications et les méthodes de reconnaissance des modèles en février.

Travaux sur le GAN du CERN

Télécharger le PDF ›