Logo DataRobot

Utilisez le machine learning automatisé pour accélérer le processus de valorisation de l'IA

Grâce à la plateforme AutoML de DataRobot et aux dernières technologies Intel®, les entreprises peuvent rapidement former de grands ensembles de données et créer des modèles de machine learning prêts pour la production.

Avantages de la solution :

  • Comble les lacunes en matière de compétences en science des données. Autonomisez un large éventail d'utilisateurs professionnels pour développer des modèles de machine learning.

  • Offre un bon rapport qualité-prix pour la formation par machine learning. Forme de manière rentable plusieurs modèles simultanément avec de grands ensembles de données.

  • Construit le succès de l'intelligence artificielle. Produit rapidement des modèles de machine learning robustes et transparents, facilitant ainsi l'adoption de l'IA.

author-image

Par

Synthèse

Le désir croissant de tirer une valeur commerciale de l'intelligence artificielle (IA) a créé un écart entre la demande d'expertise en science des données et l'offre de spécialistes des données. La plateforme de machine learning automatisé (AutoML) de DataRobot, qui fonctionne sur une architecture Intel®, relève ce défi en automatisant de nombreuses tâches nécessaires au développement d'applications d'IA et de machine learning.

Les utilisateurs de DataRobot peuvent créer des modèles prédictifs précis et transparents en quelques minutes. Les experts en science des données peuvent travailler plus efficacement. Les utilisateurs professionnels peuvent créer des modèles de machine learning robustes en appliquant leur compréhension des données et des processus de l'entreprise. Les organisations peuvent appliquer l'IA à des défis commerciaux importants et se positionner pour le succès dans l'économie émergente des algorithmes.

Optimisée pour les dernières technologies Intel®, la solution DataRobot AutoML offre des performances, une capacité de mémoire et une évolutivité inégalées pour créer, former et déployer des modèles de machine learning sur une infrastructure familière et rentable. Grâce aux processeurs Intel® Xeon® Scalable de 2ᵉ génération et à la mémoire persistante Intel® Optane™, les entreprises peuvent former des modèles sur des ensembles de données allant jusqu'à 100 Go. Dans les tests de banc d'essai, un système doté de la mémoire persistante Intel® Optane™ s'est formé pratiquement à la même vitesse qu'un système uniquement DRAM, en fonction de la taille de l'ensemble de données et de la méthode de formation. Le système doté de la mémoire persistante Intel® Optane™ a été projeté pour former un ensemble de données jusqu'à 1,33 fois plus grand au même coût de mémoire par rapport à un système uniquement DRAM.1

Figure 1. S'appuyant sur les technologies Intel®, DataRobot contribue au succès de l'IA en automatisant le développement d'outils robustes de machine learning.

Un défi pour les entreprises : Combler la pénurie de talents en science des données

Les organisations de toutes tailles sont impatientes d'appliquer l'IA à leurs défis les plus difficiles et à leurs opportunités les plus intéressantes. Nombreux sont ceux qui considèrent le machine learning et d'autres formes d'IA comme des moyens puissants d'acquérir un avantage concurrentiel en tirant de nouvelles informations de leurs réserves de données croissantes. Le marché mondial de l'IA, évalué à 20,67 milliards de dollars en 2018, devrait atteindre 202,57 milliards de dollars d'ici 2026, soit un taux de croissance annuel cumulé à partir de 2019 de 33,1 %.2

La demande croissante de solutions d'IA a entraîné une importante pénurie de talents dans ce domaine. Selon un rapport de TalentSeer datant de janvier 2020, la demande de personnes possédant des compétences en IA a augmenté de 74 % au cours de chacune des quatre années précédentes.3 Dans une enquête de Gartner menée auprès de 3 000 directeurs informatiques d'entreprises de 89 pays, 54 % ont identifié la pénurie de compétences comme leur plus grand défi en matière d'IA4.

En parallèle de la pénurie d'experts en science des données, le développement du Machine Learning est entravé par des tâches souvent complexes, fastidieuses et chronophages. Par conséquent, les spécialistes des données passent un temps précieux à effectuer ces tâches au lieu de tirer pleinement parti de leur expertise. En outre, de nombreuses personnes ayant une connaissance des données d'entreprise ne disposent pas des compétences spécifiques pour créer des modèles de machine learning. Ces problèmes ralentissent le développement de l'IA et empêchent les entreprises de déployer l'IA aussi rapidement et largement que les besoins commerciaux l'exigent.

Présentation de la solution : Machine learning automatisé avec DataRobot et Intel

DataRobot utilise le machine learning automatisé (AutoML) pour aider à combler les lacunes en matière de compétences en IA. La solution DataRobot automatise et remplace une grande partie du travail manuel fastidieux requis par les processus traditionnels de science des données. Elle autonomise les utilisateurs avertis en matière de données, quel que soit leur niveau de compétence, pour développer, tester, modéliser et déployer rapidement des algorithmes de machine learning, en utilisant les meilleures pratiques et les mesures de protection pour éviter les erreurs humaines.

Avec DataRobot, les utilisateurs d'une entreprise peuvent s'appuyer sur leur connaissance des données commerciales pour générer des modèles avancés de machine learning, sans avoir besoin de créer du code ou de comprendre les subtilités d'algorithmes spécifiques. Les spécialistes des données peuvent appliquer de manière productive leur expertise unique à la sélection et au réglage fin des modèles. Les organisations peuvent créer rapidement des modèles précis de machine learning et tirer une plus grande valeur des données d'entreprise. La Figure 2 montre l'interface utilisateur graphique (GUI) de la solution DataRobot.

Figure 2. L'interface utilisateur graphique intuitive de DataRobot permet aux utilisateurs ayant des compétences en matière de données commerciales de développer des modèles de machine learning sans avoir à maîtriser les détails du développement d'algorithmes, de la formation de fonctions et d'autres aspects.

DataRobot utilise le machine learning et les technologies Intel® pour analyser d'énormes volumes de données et capturer les relations, les tendances et les modèles qui peuvent être trop subtils pour être détectés par les systèmes d'intelligence économique et analytiques précédents. Les utilisateurs saisissent les données pertinentes et sélectionnent la variable qu'ils veulent prédire. DataRobot choisit les algorithmes les plus appropriés et optimise le retraitement des données, l'ingénierie des fonctionnalités et le réglage des paramètres pour chaque algorithme. Elle construit et forme des centaines de modèles prédictifs, classe et note les modèles, et recommande le meilleur modèle à déployer pour les données et la cible de prédiction. Au lieu de passer des semaines ou des mois à développer et à tester quelques modèles codés à la main, les utilisateurs peuvent construire et explorer des centaines de modèles et déployer le modèle le plus performant, le tout en quelques heures.

DataRobot est conçu pour la transparence, afin que les utilisateurs puissent comprendre et expliquer comment les modèles ont été construits et pourquoi ils ont fait les prédictions qu'ils ont faites. Les visualisations intégrées montrent quels types de données ont le plus d'impact sur un modèle, ce qui permet de comprendre comment les variables individuelles affectent l'entreprise. La solution utilise les performances, l'évolutivité et la capacité de mémoire des technologies Intel® pour construire, former et évaluer des modèles de machine learning, ainsi que pour gérer des ensembles de données et des cas d'utilisation croissants.

Générez des informations et de la valeur avec AutoML

Divers secteurs utilisent la solution DataRobot AutoML pour créer des modèles prédictifs qui renforcent l'expertise humaine, améliorent la prise de décision basée sur les données, améliorent l'efficacité, etc. Voici quelques exemples :

  • Les compagnies d'assurance ciblent des domaines allant de la souscription au marketing. Ils utilisent des informations issues du machine learning pour optimiser les algorithmes de tarification, affiner l'évaluation des risques et réduire les demandes frauduleuses.
  • Les entreprises de technologie financière prédisent les transactions frauduleuses par carte de crédit et créent de nouveaux produits d'investissement. Elles renforcent la sécurité de la blockchain en détectant les comportements anormaux au sein de la chaîne et augmentent les taux de réponse marketing grâce à un meilleur ciblage.
  • Les détaillants acquièrent de nouvelles informations sur les habitudes de consommation et le comportement d'achat des clients sur tous les canaux. Ils appliquent ces informations pour mieux aligner la gamme de produits, les promotions, les messages et les choix médiatiques afin de sélectionner le bon produit au bon endroit et au bon moment.
  • Les fabricants passent à l'étape suivante de l'automatisation des usines et de l'optimisation de la chaîne d'approvisionnement, en réalisant de nouveaux gains de productivité, des économies et des améliorations de la qualité. Grâce à la maintenance prédictive et aux flux de données en temps réel provenant de ressources connectées, ils optimisent les coûts et le temps de fonctionnement en assurant la maintenance des ressources avant qu'elles ne tombent en panne. Ils intègrent des modèles de machine learning dans la conception des produits intelligents de la prochaine génération.
  • Les organismes du secteur public utilisent des modèles de machine learning avec des flux de données en temps réel pour prévoir les activités terroristes potentielles, les activités frauduleuses et les menaces pour la cybersécurité. Les solutions évolutives de machine learning sont un élément clé de la fonctionnalité de ville intelligente pouvant améliorer la sécurité publique, l'efficacité de la circulation, etc.
  • Les organismes de santé complètent le jugement des équipes de soins cliniques par des modèles de machine learning qui signalent les patients présentant un risque élevé de développer des infections potentiellement mortelles ou nécessitant des réadmissions coûteuses. Les entreprises pharmaceutiques optimisent la logistique des expéditions de médicaments, améliorant ainsi les coûts de livraison et le service à la clientèle.

Valeur de la solution : Une voie simplifiée vers une entreprise pilotée par l'IA

La solution AutoML de DataRobot et Intel change la vitesse et l'économie de l'analytique prédictive et fournit une voie rapide vers le succès de l'IA. Cette plateforme de niveau industriel répond à la pénurie de compétences en rendant les spécialistes des données plus productifs. Elle autonomise les professionnels des données qui ont des compétences en la matière et un sens des affaires pour développer et déployer rapidement des modèles prédictifs précis. Elle répond également au besoin de nombreux utilisateurs de DataRobot de former des modèles sur de très grands ensembles de données. Les entreprises peuvent étendre leurs efforts en matière de machine learning afin de mener à bien davantage de projets, d'itérer et d'explorer de nouveaux cas d'utilisation, et d'appliquer l'IA plus largement dans leurs activités. Elles peuvent démocratiser l'IA et créer des entreprises axées sur l'IA.

DataRobot est une solution complète qui apporte une valeur ajoutée tout au long des phases critiques du développement et du déploiement des modèles de machine learning.

  • Ingestion de données. DataRobot transforme les données structurées et non structurées dans le format spécifique dont chaque algorithme a besoin pour des performances optimales. Elle suit les meilleures pratiques en matière de partage des données.
  • Fonctionnalités de l'ingénieur. DataRobot développe de nouvelles fonctionnalités à partir de fonctionnalités numériques, catégorielles et textuelles existantes. Elle sait quels algorithmes bénéficient d'une ingénierie des fonctionnalités supplémentaires et lesquels n'en bénéficient pas, et ne génère que les fonctionnalités qui ont un sens compte tenu des caractéristiques des données.
  • Explorer et sélectionner des algorithmes. DataRobot offre un accès à des centaines d'algorithmes ainsi qu'au prétraitement approprié pour que les utilisateurs puissent les tester sur leurs données. Elle aide les utilisateurs à sélectionner les algorithmes qui correspondent le mieux à leurs données et à leur défi en matière d'IA.
  • Former et régler les modèles de machine learning. DataRobot forme des modèles sur les données de l'utilisateur, en utilisant un réglage intelligent pour optimiser les hyperparamètres les plus importants pour chaque algorithme.
  • Trouver des combinaisons d'algorithmes optimales. Les modèles d'ensemble ou mixtes donnent généralement de meilleurs résultats que les algorithmes individuels. DataRobot trouve les algorithmes optimaux à combiner et règle la pondération des algorithmes dans chaque modèle d'ensemble.
  • Comparer les modèles les uns aux autres DataRobot construit et forme des dizaines de modèles, compare les résultats et classe les modèles selon leur précision, leur rapidité et la combinaison la plus efficace. Les utilisateurs peuvent explorer les modèles grâce à l'interface utilisateur graphique intuitive de DataRobot et choisir ceux qu'ils souhaitent utiliser.
  • Construire de la confiance. Pour garantir la transparence, DataRobot explique les décisions prises dans le cadre de son modèle, en indiquant les caractéristiques qui ont le plus d'impact sur la précision du modèle et les modèles adaptés à chaque fonctionnalité. Elle fournit des explications pour illustrer le raisonnement qui sous-tend une prédiction spécifique.
  • Déployer des modèles prêts pour la production. DataRobot produit des modèles prêts pour la production que les utilisateurs peuvent intégrer aux applications d'entreprise avec seulement quelques lignes de code. Les modèles peuvent être déployés pour les prédictions en temps réel, les déploiements par lots, le scoring sur Apache Hadoop, ou d'autres méthodes. Les utilisateurs peuvent développer leurs propres modèles à l'aide de R, Python, Apache Spark, MLlib, H2O et d'autres outils et appeler la bibliothèque DataRobot pour les activer.
  • Surveiller et gérer. Après le déploiement, DataRobot permet de comparer facilement les prédictions aux résultats réels et de former un nouveau modèle sur les dernières données. DataRobot met en évidence de manière proactive si les performances d'un modèle se détériorent au fil du temps.

Architecture de solutions pour le machine learning automatisé

Les puissantes technologies Intel® permettent à DataRobot d'optimiser ses performances afin d'automatiser, de former et d'évaluer simultanément plusieurs modèles de machine learning et de fournir des applications d'IA à grande échelle (voir la Figure 3).

Figure 3 : DataRobot tire parti des dernières technologies Intel® pour offrir des performances exceptionnelles en matière de développement de Machine Learning automatisé.

Pour chaque nouveau modèle, DataRobot consulte sa bibliothèque croissante de milliers de modèles de machine learning open source.

DataRobot évalue les combinaisons possibles d'algorithmes, d'étapes de prétraitement ainsi que d'autres attributs afin de sélectionner ou de construire les éléments les plus appropriés pour un ensemble de données et une cible de prédiction donnés. Elle forme les meilleurs modèles sur les données de l'utilisateur et présente les plus performants pour que les utilisateurs puissent les évaluer. Les modèles déployés peuvent analyser des milliards de combinaisons de données pour fournir de nouvelles informations et découvrir des signaux qui auraient pu être cachés auparavant par des données « bruyantes ». La solution peut être déployée dans un Cloud privé sur site ou dans un Cloud Amazon Web Services (AWS) géré par DataRobot.

DataRobot s'intègre facilement dans l'écosystème des technologies qui existent déjà dans l'entreprise. Il s'agit notamment des technologies de sécurité et de confidentialité des données, des outils d'intégration et de visualisation des données et des plateformes d'infrastructure telles que Apache Hadoop et les bases de données SQL. Les données structurées et non structurées peuvent être ingérées à partir de lacs de données, de tableaux et d'autres sources d'entreprise, et les utilisateurs peuvent interagir avec le système par le biais d'interfaces graphiques ou programmatiques.

La plateforme DataRobot comprend deux produits indépendants mais liés entre eux :

  • Regression and Classification incorpore une variété de techniques de régression : de la simple régression linéaire aux modèles statistiques de régression classique en passant par des techniques plus complexes telles que l'amplification de gradient et les réseaux neuronaux. La plateforme résout aussi bien des problèmes de classification binaire simples que des problèmes complexes et multi-classes comportant jusqu'à 100 catégories.
  • Time Series automatise le développement de modèles sophistiqués qui prédisent les valeurs futures d'une série de données sur la base de son historique et de ses tendances. La plateforme intègre l'ingénierie des fonctionnalités des séries temporelles pour découvrir des signaux prédictifs.

Elle utilise des modèles de séries temporelles de base et avancés pour optimiser la précision des prévisions. Elle peut visualiser les résultats dans le temps et déployer les modèles en production.

Les technologies Intel® pour une formation AutoML hautes performances et rentable

La dernière génération de technologies de centres de données Intel® est conçue de A à Z pour les charges de travail d'IA. Elles offrent des performances, une évolutivité et une capacité de mémoire exceptionnelles pour les charges de travail de DataRobot, qui consomment beaucoup de CPU et de mémoire. Les organisations peuvent faire progresser leur utilisation de l'IA tout en maintenant un environnement cohérent et rentable pour le développement de l'IA et le déploiement de modèles.

  • Les processeurs Intel® Xeon® Scalable constituent des plateformes puissantes pour les charges de travail centrées sur les données. Les processeurs Intel® Xeon® Scalable de 2ᵉ génération comportent un accélérateur matériel intégré et Intel® Deep Learning Boost avec Vector Neural Network Instruction (VNNI) pour augmenter les performances d'inférence. Ils ajoutent également des fonctionnalités de sécurité renforcées par le matériel pour contribuer à l'établissement d'une base informatique fiable. Les nouveaux processeurs Intel® Xeon® Scalable de 3ᵉ génération ajoutent d'autres fonctionnalités de performance, notamment la prise en charge x86 du format numérique Brain Floating Point 16 bits (bfloat16), une première dans le secteur, pour des performances de formation accrues.
  • La mémoire persistante Intel® Optane™ est une nouvelle catégorie de mémoire non volatile qui comble les lacunes entre la DRAM rapide mais coûteuse et les SSD NAND moins coûteux et moins performants. Cette mémoire innovante s'approche des niveaux de performances de la DRAM, mais à un coût inférieur par gigaoctet. Elle réside sur le bus mémoire et permet de disposer de plus de 3 To de mémoire par socket du processeur. En mode Mémoire, la mémoire persistante Intel® Optane™ peut être utilisée de manière transparente comme une extension volatile de la DRAM.
  • Les cartes réseau Ethernet Intel® XXV710 offrent des performances flexibles et évolutives avec la possibilité de négocier automatiquement pour les connexions 1/10/25 GbE. Ces cartes réseau fournissent des déchargements et des accélérateurs intelligents pour débloquer les performances du réseau sur les serveurs équipés de processeurs Intel® Xeon® Scalable.

Ensemble, ces technologies permettent aux entreprises qui déploient DataRobot de former des ensembles de données massifs et plusieurs modèles simultanément avec des performances élevées.

Banc d'essai pour la formation AutoML

La formation par machine learning est une tâche à forte intensité de données qui peut nécessiter d'importantes quantités de mémoire. Les exigences peuvent être particulièrement élevées pour une solution AutoML telle que DataRobot, qui forme plusieurs modèles simultanément en utilisant les données du client avant de les classer. Bien que les modèles puissent être formés avec des quantités variables de données, un ensemble de données plus important peut contribuer à augmenter la précision du modèle.

Pour étudier les besoins en mémoire de DataRobot, une équipe du groupe AI Solutions d'Intel a utilisé DataRobot en mode Autopilot pour sélectionner et former des modèles de manière aléatoire dans le catalogue de modèles de DataRobot. Nous avons constaté que la formation de plusieurs modèles choisis au hasard nécessitait une empreinte mémoire de 6 à 25 fois la taille de l'ensemble de données. La portée dépendait des types de modèles ainsi que du pourcentage de données utilisées pour la formation. En raison du rapport élevé entre les ensembles de données et l'empreinte mémoire, les organisations qui forment de grands ensembles de données peuvent avoir besoin d'un grand réservoir de données pour éviter la perte de performance des charges de travail liées à la capacité mémoire. Pourtant, la configuration d'un grand pool de données entièrement en DRAM peut représenter un coût prohibitif.

L'équipe de banc d'essai a voulu voir dans quelle mesure la mémoire persistante Intel® Optane™ pouvait répondre à cette situation. L'innovation d'Intel en matière de mémoire pourrait-elle fournir aux utilisateurs de DataRobot une solution rentable pour la formation de l'AutoML hautes performances sur de grands ensembles de données ?

L'équipe a commencé par former DataRobot en mode Autopilot avec un ensemble de données de test de 50 Go. Ils ont ensuite sélectionné au hasard plusieurs modèles dans le classement et les ont réentraînés sur deux systèmes qui ne différaient que par le type de mémoire de leurs nœuds de travail. L'un utilisait uniquement de la DRAM, et l'autre de la mémoire persistante Intel® Optane™. La Figure 4 et le Tableau 1 résument les systèmes de banc d'essai.

Nous avons configuré les deux systèmes avec la même capacité de mémoire et comparé les performances (temps de formation) des deux configurations. Nous nous attendions à ce que la mémoire persistante Intel Optane offre des performances légèrement inférieures à celles du système fonctionnant uniquement avec de la DRAM. Toutefois, lorsque nous avons analysé le temps de formation pour les modèles sélectionnés, nous avons constaté que les performances du système doté de la mémoire persistante Intel® Optane™ étaient similaires à celles du système entièrement DRAM, selon le modèle en cours de formation.

Puis, à l'aide d'un modèle de tarification Intel, nous avons reconfiguré les deux systèmes pour un coût de mémoire identique au lieu d'une capacité identique. Selon notre analyse, la mémoire persistante Intel® Optane™ offrirait une capacité d'ensemble de données pour la formation jusqu'à 1,33 fois supérieure à celle de la configuration entièrement DRAM, toujours en fonction du modèle à former.

La Figure 41 montre ces résultats pour la formation sur le classificateur Gradient Boosted Trees pour le système de mémoire persistante Intel® Optane™ par rapport au système uniquement DRAM. La moitié gauche du graphique illustre les performances et les performances par dollar pour la même capacité de mémoire. Le côté droit montre la capacité projetée de l'ensemble de données de formation et la capacité de l'ensemble de données de formation par dollar pour le coût de mémoire équivalent.

Figure 4 : La mémoire persistante Intel® Optane™ a fourni des performances par dollar 1,23 fois supérieures à capacité égale (côté gauche). Elle devrait offrir une capacité de données de formation 1,33 fois supérieure et une capacité de formation par dollar 1,26 fois meilleure qu'une configuration entièrement DRAM.

En résumé, nos tests ont démontré ce qui suit :

  • Les organisations peuvent se former pratiquement à la même vitesse sur un système doté de la mémoire persistante Intel Optane que sur un système fonctionnant uniquement avec de la DRAM, obtenant ainsi une amélioration des performances par dollar pouvant aller jusqu'à 1,23 fois.
  • Les entreprises devraient être en mesure de former un ensemble de données jusqu'à 1,33 fois plus important pour le même coût sur un système doté de la mémoire persistante Intel Optane par rapport à un système uniquement DRAM. Cela devrait produire une capacité indexée par dollar allant jusqu'à 1,26 fois.

Configuration typique pour le déploiement de DataRobot

Le Tableau 1 résume la configuration type d'un système permettant d'exécuter DataRobot sur site avec un déploiement Hadoop pour des ensembles de données de formation allant jusqu'à 100 Go. En fonction de la taille de votre entreprise et du nombre et de la taille des ensembles de données, vous pouvez avoir besoin de plusieurs nœuds de travail. Veuillez contacter votre représentant DataRobot pour en savoir plus sur le dimensionnement optimal pour vos besoins de formation.

Conclusion : IA à l'échelle

L'IA est devenue un élément central des opérations commerciales et une source essentielle de différenciation concurrentielle. Grâce à la plateforme d'IA et AutoML de DataRobot et aux technologies Intel® de pointe, les entreprises peuvent remédier à la pénurie de spécialistes des données et lever un obstacle majeur au succès de l'IA. Elles peuvent créer rapidement des modèles de machine learning prêts pour la production, augmenter la productivité des spécialistes des données, intensifier leurs efforts de développement de l'IA et appliquer le machine learning à leurs plus grands défis et opportunités commerciaux.

En tirant parti des technologies Intel® optimisées pour l'IA, les entreprises peuvent profiter de toute la puissance d'AutoML. Elles peuvent déployer de puissantes plateformes de formation avec jusqu'à 3 To de mémoire persistante Intel® Optane™ par socket du processeur. Elles peuvent également former de grands ensembles de données à un coût inférieur à celui des configurations de mémoire entièrement DRAM. Qu'elles choisissent une infrastructure sur site ou dans le Cloud, elles peuvent s'appuyer sur une architecture polyvalente, conforme aux normes du secteur, offrant des performances, une évolutivité et une fiabilité exceptionnelles. Grâce à la solution AutoML de DataRobot et aux technologies Intel®, les entreprises peuvent se concentrer sur l'innovation en matière d'IA et la création d'une entreprise axée sur l'IA.

Trouvez la solution adaptée à votre entreprise. Contactez votre représentant Intel ou rendez-vous sur intel.com/ai.