Qu'est-ce que l'IA générative ?
L'IA générative a eu un impact important sur le monde en relativement peu de temps. Grâce à cette technologie, un texte engageant et informatif peut être produit à partir de simples entrées de l'utilisateur. Des chatbots numériques intelligents, réactifs et semblables à des êtres humains peuvent aider les clients, sans aucune intervention d'un employé. De superbes images, vidéos ou séquences audio peuvent être créées presque instantanément en réponse à toute requête que vous pouvez imaginer.
L'IA générative est rendue possible grâce à des ensembles de données massifs et à des algorithmes d'IA soigneusement formés qui nécessitent des efforts importants de la part des scientifiques des données et des développeurs pour que leur entreprise obtienne le résultat ou l'expérience qu'elle recherche. Dans l'idéal, ces charges de travail sont déployées sur du matériel puissant et soigneusement sélectionné qui offre la faible latence et les temps de réponse rapides nécessaires dans le cadre des contraintes budgétaires.
En général, l'IA générative se rapporte à des solutions d'IA qui produisent du contenu, qu'il s'agisse d'un e-mail de génération de demande, d'un paysage fantastique ou d'une réponse dynamique de chatbot, en réponse à une invite de l'utilisateur. Les solutions qui s'appuient sur ces technologies, telles que ChatGPT, Stable Diffusion et Dall-E, font les gros titres chaque jour et les entreprises du monde entier cherchent des moyens de les rendre opérationnelles et de tirer parti de leur valeur révolutionnaire.
L'IA générative est formée sur des ensembles de données non structurées à l'aide de modèles de transformateurs dont la sortie doit être ajustée par des scientifiques des données et des développeurs pour obtenir les résultats ou l'expérience que recherche leur entreprise.
Les entreprises qui cherchent à appliquer l'IA générative ont la possibilité de former des modèles à partir de zéro ou de sélectionner un modèle préformé qu'elles peuvent adapter à leurs besoins.
L'IA générative s'appuie et est déployée conjointement à l'IA linguistique et au traitement du langage naturel (NLP) qui permettent à l'IA de traiter et de comprendre le langage humain. Ensemble, l'IA générative et le NLP peuvent comprendre une invite de l'utilisateur pour produire une réponse appropriée, qu'il s'agisse de texte, de vidéo, d'imagerie ou d'audio.
Comment fonctionne l'IA générative ?
L'IA générative est rendue possible grâce à des ensembles de données étendus qui « enseignent » à des modèles d'IA comment répondre aux invites des utilisateurs. Les modèles d'IA générative trouvent des points communs entre des types de données et d'informations similaires pour créer de nouveaux contenus. La formation du modèle s'appuie également sur l'intervention de scientifiques des données et d'experts en la matière qui contribuent à guider l'apprentissage de l'algorithme et à l'orienter vers des résultats plus précis.
Les solutions d'IA générative peuvent utiliser des modèles Open Source qui peuvent être personnalisés pour répondre aux besoins uniques d'une entreprise. Par exemple, un algorithme de chatbot d'IA généralisé peut être formé selon les attributs spécifiques de la clientèle et du modèle de fonctionnement d'une entreprise. Ou encore, pour prendre un autre exemple, un modèle destiné à produire du texte destiné au marketing de contenu peut être spécialisé davantage ou affiné pour se concentrer sur un secteur et un public cible spécifiques. Des modèles spécifiques à des domaines particuliers émergent également à un rythme rapide. Ils sont formés sur des ensembles de données de moindre taille et plus ciblés que les grands modèles. Les résultats émergents indiquent que ces petits modèles peuvent offrir la précision des grands modèles s'ils sont formés à partir de données soigneusement sélectionnées.
Les solutions d'IA générative utilisent une branche de l'IA appelée grands modèles de langage (LLM). Il s'agit de modèles d'IA de langage qui utilisent des réseaux neuronaux profonds pour traiter et produire du texte. Ils sont formés sur des quantités massives de données textuelles et sont conçus pour fournir des résultats cohérents et significatifs. Les LLM s'appuient sur des architectures de transformateurs pour traiter les séquences d'entrée en parallèle, ce qui améliore les performances et la vitesse par rapport aux réseaux neuronaux traditionnels.
Cas d'utilisation de l'IA générative et de l'IA linguistique
Ensemble, l'IA générative et l'IA linguistique peuvent être combinées pour créer de nouveaux outils, services et applications, notamment :
- Génération de contenu : créer automatiquement des articles, des publications de blog, des descriptions de produits et d'autres documents écrits.
- Chatbots : alimentent des modèles d'IA conversationnels dynamiques et intelligents avec lesquels vos clients peuvent interagir par écrit ou verbalement.
- Génération d'images, de vidéos et d'audio : créer de nouvelles images et de nouveaux sons en examinant les ressources préexistantes et en suivant les invites de l'utilisateur.
- Traduction linguistique : traduire du texte d'une langue à une autre.
- Augmentation de données : créer des données synthétiques pour d'autres modèles de Machine Learning afin d'améliorer leur précision et leurs performances.
- Résumé de texte : résumer des textes de grande taille dans un format concis afin que les lecteurs puissent rapidement comprendre les principaux points et idées.
Pour en savoir plus sur les cas d'utilisation de l'IA, notamment en dehors des applications linguistiques et d'IA générative, consultez la présentation des cas d'utilisation d'Intel® AI.
Former et déployer l'IA générative avec les technologies Intel®
Mettre la puissance de l'IA générative au service de votre entreprise est une question d'équilibrage de la vitesse, des coûts et de l'échelle. Pour vous aider à déployer des capacités d'IA générative en toute confiance, Intel propose un portefeuille spécialisé de technologies matérielles et logicielles qui se combinent pour rationaliser votre initiative et accélérer le ROI. Notre mission est de permettre aux innovateurs de l'IA de déployer l'IA partout où elle est nécessaire, de la périphérie au Cloud et au centre de données, en offrant des performances, une évolutivité et des coûts optimaux.
Ressources logicielles qui simplifient la formation et le déploiement de l'IA générative
Intel offre aux développeurs et aux scientifiques des données une large gamme d'outils et d'optimisations logiciels qui peuvent contribuer à optimiser les performances et à stimuler radicalement la productivité pendant la formation et le déploiement.
Pour les frameworks de science des données populaires comme PyTorch et TensorFlow, nous offrons des optimisations qui améliorent considérablement les performances sur l'architecture Intel®. Dans le cadre de notre langage de programmation unifié oneAPI, nous proposons la bibliothèque Intel® oneAPI Deep Neural Network Library avec des implémentations hautement optimisées de composants de Deep Learning. Le modèle de programmation unifiée oneAPI® peut également être utilisé pour prendre en charge des plateformes matérielles hétérogènes avec moins d'efforts des équipes de développement.
Intel® Extension for Transformers est un autre outil essentiel qui peut vous aider à accélérer les modèles basés sur la transformation sur les plateformes Intel®. Ce kit d'outils offre une expérience utilisateur transparente pour la compression de modèles, l'optimisation logicielle avancée, un fichier d'exécution unique qui tient compte de la compression et des packages de modèles optimisés, notamment Stable Diffusion, GPT-J-6BM et BLOOM-176B.
En outre, grâce à notre partenariat avec Accenture, nous proposons une gamme de kits de référence qui peuvent vous aider à démarrer votre projet d'IA générative ou linguistique.
Distribution Intel® du kit d'outils OpenVINO™
La distribution Intel® du kit d'outils OpenVINO™ aide les développeurs à gagner du temps et à accélérer les résultats lorsqu'ils développent et déploient l'IA générative. Ce kit d'outils Open Source permet aux développeurs d'écrire du code une seule fois et de le déployer n'importe où. Vous pouvez facilement convertir et optimiser des modèles de frameworks populaires, notamment TensorFlow, PyTorch et Caffe, et les déployer de manière accélérée sur les différents types d'architectures matérielles qu'exige votre stratégie d'IA.
Pour commencer, consultez les carnets Image Generation with Stable Diffusion (Génération d'images avec Stable Diffusion) et Text-to-Image Generation with ControlNet Conditioning (Génération de texte en image avec conditionnement ControlNet) sur GitHub.
Vous pouvez également consulter cet article pour obtenir plus de détails sur l'utilisation de Stable Diffusion sur les GPU et les processeurs Intel® avec la distribution Intel® du kit d'outils OpenVINO™.
Partenariat Hugging Face pour l'IA générative
Pour faciliter la formation et l'innovation en matière d'IA générative et d'IA linguistique, Intel s'est associée à Hugging Face, une plateforme populaire de partage de modèles d'IA et d'ensembles de données. Hugging Face est notamment connue pour sa bibliothèque de transformateurs conçus pour le NLP.
Nous avons collaboré avec Hugging Face pour créer des accélérations matérielles et logicielles de pointe afin de former, d'affiner et d'effectuer des prévisions avec des modèles de transformateurs. L'accélération matérielle est pilotée par les processeurs Intel® Xeon® Scalable, alors que l'accélération logicielle s'appuie sur notre portefeuille d'outils logiciels, de frameworks et de bibliothèques d'IA optimisés.
Optimum Intel fournit une interface entre la bibliothèque de transformateurs Hugging Face et nos différents outils et bibliothèques qui accélèrent les pipelines de bout en bout sur les architectures Intel®, notamment Intel® Neural Compressor. Intel Labs, UKP Lab et Hugging Face ont également collaboré pour créer SetFit, un framework efficace permettant le réglage few-shot de transformateurs de phrase.
Les accélérateurs de Deep Learning Habana® Gaudi® d'Intel sont également couplés à des logiciels Open Source Hugging Face par le biais de la bibliothèque Habana® Optimum pour permettre aux développeurs d'utiliser facilement des milliers de modèles optimisés par la communauté Hugging Face.
Hugging Face a également publié plusieurs évaluations des performances de Habana® Gaudi®2 sur des modèles d'IA générative : Stable Diffusion, T5-3B, BLOOMZ 176B et 7B et le nouveau modèle BridgeTower.
Pour en savoir comment Intel et Hugging Face peuvent vous aider à planifier et à optimiser vos efforts en matière d'IA générative, consultez :
- Blog : Fine-tuning Stable Diffusion Models on Intel® CPUs (Ajuster avec précision les modèles Stable Diffusion sur les processeurs Intel®)
- Blog : Accelerating Stable Diffusion Inference on Intel® CPUs (Accélérer l'inférence de Stable Diffusion sur les processeurs Intel®)
- Blog : Optimizing Stable Diffusion for Intel® CPUs with NNCF and Hugging Face Optimum (Optimiser Stable Diffusion pour les processeurs Intel® avec NNCF et Hugging Face Optimum)
- Blog : Accelerating PyTorch Transformers with Intel® Xeon® Scalable processors, part 1 (Accélérer les transformateurs PyTorch avec les processeurs Intel® Xeon® Scalable, 1ᵉ partie)
- Blog : Accelerating PyTorch Transformers with Intel® Xeon® Scalable processors, part 2 (Accélérer les transformateurs PyTorch avec les processeurs Intel® Xeon® Scalable de 4ᵉ génération, 2ᵉ partie)
- Webinaire SetFit : Few-Shot Learning in Production (Apprentissage Few-Shot en production)
- Optimiser les modèles de transformateurs avec des outils d'Intel et de Hugging Face
Recommandations matérielles pour la formation et le déploiement de l'IA générative
Bien qu'il soit essentiel de disposer d'un ensemble d'outils logiciels adaptés pour réussir un déploiement d'IA générative et linguistique, le matériel joue également un rôle essentiel. Alors que l'IA a progressé du laboratoire à une utilisation quotidienne, son évolutivité et sa durabilité sont devenues des préoccupations majeures, tant en matière de formation que d'inférence.
Les exigences de calcul du déploiement de vos modèles d'IA générative ou linguistique varient grandement en fonction du nombre de paramètres impliqués. Il en est de même pour la formation du modèle. Quelle que soit l'échelle de votre initiative, Intel propose une solution matérielle adaptée à vos besoins.
Formation et inférence à grande échelle : Habana® Gaudi®2
À grande échelle, la formation, l'ajustement précis et les inférences des charges de travail d'IA générative nécessitent du matériel d'IA spécialisé et c'est là que nos solutions Habana® entrent en jeu.
Selon vos besoins de formation et de déploiement, les déploiements Habana® Gaudi®2 peuvent évoluer d'un seul accélérateur à un cluster Habana® Gaudi®2 composé de huit serveurs d'IA équipés d'accélérateurs. Sur Intel® Developer Cloud, vous pouvez explorer les avantages qu'offre l'exécution de charges de travail de formation et d'inférence sur la plateforme Habana® Gaudi®2.
Pour en savoir plus sur les capacités de performance avancées des solutions Habana® Gaudi®2, consultez https://habana.ai/blog/.
Formation et inférence d'échelle moyenne : processeurs Intel® Xeon® Scalable avec moteurs d'accélérateurs intégrés ou partie graphique dédié
De manière générale, nous recommandons les processeurs Intel® Xeon® Scalable pour des charges de travail de formation moins exigeantes du modèle d'inférence d'IA générative. Ces solutions peuvent accueillir un GPU dédié pour traiter les charges de travail plus avancées.
Pour optimiser la rentabilité de votre déploiement, les derniers processeurs Intel® Xeon® Scalable sont équipés de deux puissants moteurs d'accélération d'IA intégrés :
- Intel® Advanced Matrix Extensions (Intel® AMX) pour optimiser les charges de travail de formation de Deep Learning et d'inférence grâce à une architecture spécialisée.
- Intel® Auto Mixed Precision (Intel® AMP) pour accélérer la formation et accroître l'efficacité de la mémoire en tirant parti de représentations à simple précision (32 bits) et à demi-précision (16 bits).
En tirant parti de ces fonctionnalités intégrées, vous pouvez utiliser les processeurs Intel® Xeon® Scalable pour prendre en charge des charges de travail d'inférence et de formation plus exigeantes sans investir dans du matériel spécialisé. Cela permet d'accroître la rentabilité et l'évolutivité de votre solution d'IA.
Inférence à petite échelle : processeurs Intel® Core® avec partie graphique intégrée ou dédiée
Pour les tâches d'inférence de base, notamment les déploiements de périphérie, les futurs processeurs Intel® Core™ Ultra peuvent être déployés pour optimiser la rentabilité tout en répondant aux besoins de performance. Ces processeurs possèdent une partie graphique intégrée qui peut gérer de nombreuses tâches d'inférence de moindre complexité. Ils peuvent également être accompagnés de cartes graphiques Intel® Arc™ pour améliorer les performances et prendre en charge davantage de complexité.
En outre, les processeurs Intel® Core™ Ultra offriront également des capacités d'inférence hautes performances pour les charges de travail complexes par le biais d'une puissante partie graphique intégrée ou d'accélérateurs graphiques dédiés. En vous appuyant sur des processeurs polyvalents pour l'inférence, vous pouvez améliorer votre flexibilité globale en prenant en charge un plus grand éventail de charges de travail à mesure que vos besoins évoluent.
Commencez à vous appuyer sur la plateforme d'IA Intel® dès aujourd'hui
L'étendue et la profondeur des portefeuilles de matériels et de logiciels Intel® AI offrent de nombreux moyens de rechercher l'innovation en matière d'IA en toute confiance, en minimisant les risques et avec une flexibilité maximale. Nous sommes prêts à vous aider pour que votre initiative d'IA générative et linguistique réussisse, qu'il s'agisse de former un modèle à partir de zéro, de régler un algorithme existant ou de trouver un moyen d'exécuter une inférence avancée à grande échelle.
Pour en savoir plus sur notre portefeuille d'IA complet et découvrir comment vous pouvez bénéficier davantage des technologies Intel®, consultez :