Qu'est-ce que l'analyse de données ?

La création de données est plus rapide que jamais. Cependant, tirez-vous suffisamment avantage des données que vous collectez ?

Une compréhension approfondie des données est essentielle pour bâtir une organisation performante. L'analyse de données est le processus par lequel des données brutes deviennent des connaissances utilisables pouvant être exploitées. La technologie Intel® fonctionne à toutes les phases du pipeline de données pour faciliter la collecte et l'analyse de données pour n'importe quel but ou presque, au sein des organisations.

Pour les entreprises et organisations de toutes sortes, la transformation de données en intelligence exploitable peut marquer la différence entre effort et épanouissement. Optimiser la valeur de l'information nécessite l'analyse de données : le processus par lequel les données brutes sont analysées pour tirer des conclusions.

Alors que presque toutes les organisations font de l'analyse de données, l'analyse moderne offre une compréhension et une vision sans précédent. Jusqu'où votre entreprise a-t-elle exploité cette culture axée sur les données et l'analyse ? C'est quoi la prochaine étape ?

Tout commence par le pipeline de données.

Compréhension du pipeline de données

L'établissement d'une approche d'analyse de données bien structurée est un processus évolutif qui exige du temps et de l'engagement. Pour les organisations désireuses de passer à l'étape supérieure, il est essentiel de comprendre le pipeline de données et le cycle de vie des données qui passent par ce pipeline.

  • Ingestion : collecte de données
    La première phase du pipeline de données est l'ingestion. À ce stade, les données sont collectées à partir des sources et transférées dans un système où elles seront stockées. La collecte de données peut se faire en continu ou en plusieurs étapes distinctes.

    Pour la plupart des données non structurées (entre 80 et 90 pour cent selon IDC1), l'ingestion est à la fois le début et la fin du cycle de vie des données. Ces données, appelées « dark data », sont ingérées mais jamais analysées ou utilisées pour avoir une incidence sur le reste de l'organisation.

    Aujourd'hui, l'une des principales tendances de l'analytique avancée commence dès la phase d'ingestion. Dans ces cas, l'analyse en temps réel des données en continu se produit en même temps que le processus d'ingestion. On parle alors d'analyse en périphérie qui nécessite des performances de calcul élevées avec une faible consommation d'énergie. L'analyse en périphérie implique souvent des appareils et capteurs IoT qui recueillent des données sur d'autres appareils, tels que les machines d'usine, les lampadaires de ville, le matériel agricole ou d'autres objets connectés.

  • Préparation : traitement de données
    La deuxième phase du pipeline de données prépare les données à l'utilisation et au stockage des informations dans un système accessible aux utilisateurs et aux applications. Afin d'obtenir une qualité optimale, les données doivent être nettoyées et transformées en informations facilement accessibles et pouvant faire l'objet d'une requête.

    Généralement, les informations sont préparées et stockées dans une base de données. Différents types de bases de données sont utilisés pour comprendre et analyser les données sous différentes formes et à des fins diverses. Les systèmes de gestion de bases de données relationnelles SQL*, comme SAP HANA* ou Oracle DB*, traitent en général des ensembles de données structurés. Cela peut inclure les données financières, la vérification d'identité ou encore le suivi des commandes. Les charges de travail des données non structurées et l'analyse en temps réel sont plus susceptibles d'utiliser des bases de données NoSQL* comme Cassandra et HBase.

    L'optimisation de cette phase du pipeline de données nécessite des performances de calcul et de mémoire ainsi qu'une gestion de données, pour des requêtes plus rapides. Elle exige également une évolutivité pour prendre en charge des volumes de données élevés. Les données peuvent être stockées et hiérarchisées en fonction de l'urgence et de leur utilité. Ainsi, la vitesse d'accès aux données les plus importantes est très élevée.

    Les technologies Intel® alimentent quelques-uns des boîtiers disposant de bases de données qui exigent une grande capacité de stockage et de mémoire. Grâce aux unités de stockage Intel® Optane™, Alibaba Cloud* a pu fournir 100 To de capacité de stockage à chaque instance POLARDB.

  • Analyse : modélisation de données
    À la troisième phase du pipeline de données, les données stockées sont analysées, et les algorithmes de modélisation sont créés. Les données peuvent être analysées par une plateforme d'analyse complète comme SAP, Oracle ou SAS, ou traitées à grande échelle par des outils comme Apache Spark*.

    L'accélération et la réduction des coûts de cette phase du pipeline de données est essentielle pour bénéficier d'un avantage concurrentiel. Les bibliothèques et les kits d'outils peuvent réduire le temps et les coûts de développement. Dans le même temps, les optimisations matérielles et logicielles peuvent contribuer à réduire les coûts des serveurs et des centres de données tout en améliorant les délais de réponse.

    Des technologies comme les analyses en mémoire peuvent améliorer les capacités d'analyse de données et rendre les investissements d'analyse plus rentables. Grâce à Intel, l'entreprise de produits chimiques Evonik a réalisé des redémarrages 17 fois plus rapides pour les tables de données SAP HANA*2.

  • Action : prise de décision
    Après ingestion, préparation et analyse, les données sont prêtes à être exploitées. La visualisation et le rapport de données servent à communiquer les résultats de l'analyse.

    Habituellement, une interprétation faite par des spécialistes ou analystes de données était nécessaire afin de transformer ces résultats en intelligence d'affaires pour une plus grande exploitation. Cependant, les entreprises ont commencé à utiliser l'IA pour automatiser les actions (comme envoyer une équipe d'entretien ou changer la température d'une pièce) basées sur l'analyse.

Pour des informations plus approfondies sur le pipeline de données et sur la façon dont les organisations peuvent faire évoluer leurs capacités d'analyse, consultez notre livre électronique From Data to Insights: Maximizing Your Data Pipeline (Des données aux informations : comment optimiser votre pipeline de données).

Jusqu'où votre entreprise a-t-elle exploité cette culture axée sur les données et l'analyse ? C'est quoi la prochaine étape ?

Les quatre types d'analyse de données

L'analyse de données peut être divisée en quatre types de base : l'analyse descriptive, l'analyse diagnostique, l'analyse prédictive et l'analyse normative. Il s'agit d'étapes menant à une analyse plus mature, chaque étape réduisant peu à peu la distance entre la phase d'« analyse » et la phase d'« action » du pipeline de données.

  • Analyse descriptive
    L'analyse descriptive permet de résumer et de visualiser les données historiques. En d'autres termes, elle informe les organisations sur leurs activités antérieures.
    Type d'analyse le plus simple, l'analyse descriptive peut être aussi élémentaire qu'un graphique analysant les chiffres de vente de l'année dernière. Tout effort d'analyse dépend d'une base d'analyse descriptive solide. De nombreuses entreprises s'appuient encore essentiellement sur cette forme d'analyse qui comprend des tableaux de bord, des visualisations de données et des outils de rapport.

  • Analyse diagnostique
    À mesure que les efforts d'analyse mûrissent, les organisations commencent à poser des questions plus difficiles sur leurs données historiques. L'analyse diagnostique ne se limite pas qu'à l'examen de vos activités antérieures, mais analyse également les raisons de ces activités. Pour effectuer une analyse diagnostique, les analystes doivent être en mesure de faire des requêtes détaillées pour identifier les tendances et les liens de causalité.
    Grâce à l'analyse diagnostique, de nouveaux rapports entre variables peuvent être découverts : pour une entreprise de vêtements de sport par exemple, une augmentation des chiffres de vente dans le Midwest peut être en corrélation avec son climat ensoleillé. L'analyse diagnostique fait correspondre les données aux motifs et s'attèle à trouver des explications aux données anormales ou aberrantes.

  • Analyse prédictive
    Alors que les deux premiers types d'analyse examinent les données historiques, l'analyse prédictive et l'analyse normative, elles, se penchent sur l'avenir. L'analyse prédictive fait une prévision des résultats probables sur la base des tendances identifiées et des modèles statistiques provenant des données historiques.
    La mise en place d'une stratégie d'analyse prédictive nécessite un modèle de construction et de validation permettant de créer des simulations optimisées, afin que les décideurs d'entreprise obtiennent les meilleurs résultats. Le machine learning est couramment utilisé pour l'analyse prédictive et les modèles de formation sur des ensembles de données très étendus afin de faire des prévisions plus intelligentes.

  • Analyse normative
    Un autre type d'analyse avancée est l'analyse normative. Grâce à l'analyse normative, qui recommande la meilleure solution basée sur l'analyse prédictive, l'évolution vers une véritable prise de décision fondée sur les données est complète.
    L'analyse normative s'appuie énormément sur l'analyse du machine learning et sur les réseaux neuronaux. Ces charges de travail s'exécutent sur un calcul et sur une mémoire aux performances élevées. Ce type d'analyse nécessite une base solide qui s'appuie sur les trois autres types d'analyse et ne peut être exécuté que par des entreprises dotées d'une stratégie d'analyse très évoluée et disposées à consacrer des ressources importantes à cet effort.

Cas d'utilisation de l'analyse de données

La technologie Intel® modifie la façon dont les organisations d'entreprises modernes pratiquent l'analyse. Grâce à des cas d'utilisation applicables à de nombreux secteurs dans le monde entier, Intel s'efforce de faire évoluer l'analyse en permanence, tout en contribuant à l'optimisation des performances et de la rentabilité des entreprises.

  • Industrie
    Pour l'industrie automobile, le contrôle qualité permet d'économiser de l'argent, et de sauver des vies. À l'usine automatisée d'Audi, les analystes ont utilisé l'échantillonnage pour garantir la qualité de la soudure. Grâce à l'analyse prédictive en périphérie, s'appuyant sur le logiciel Industrial Edge Insights d'Intel, le fabricant peut procéder à la vérification automatique de toutes les soudures sur toutes les voitures, et prévoir les problèmes de soudure en fonction des résultats des relevés des capteurs obtenus lors de la soudure.

  • Santé
    Former l'IA à lire des radiographies du thorax permet d'obtenir un diagnostic plus rapide pour les patients et les professionnels de santé. Grâce aux processeurs Intel® Xeon® Scalable qui alimentent le réseau neuronal, l'organisation de recherche SURF a réduit la durée de formation d'un mois à six heures, tout en améliorant la précision.

  • Télécommunications
    Les smartphones et l'Internet mobile ont créé des quantités de données mobiles sans précédent. Afin d'améliorer l'expérience client, l'entreprise de télécommunications Bharati Airtel a déployé des analyses de réseau avancées à l'aide des processeurs Intel® Xeon® et des unités de stockage SSD Intel®, pour obtenir des détections et des corrections des problèmes de réseau plus rapidement.

Les technologies Intel® d'analyse de données

Grâce à un vaste écosystème de technologies et de partenaires qui permettent aux entreprises de créer les solutions de demain, Intel fournit des services d'analyse avancée aux entreprises du monde entier. Du centre de données à la périphérie, Intel travaille à tous les niveaux de l'écosystème de l'analyse pour fournir un apport considérable et des performances optimales.

  • Les processeurs Intel® Xeon® Scalable permettent d'analyser des quantités de données massives à une vitesse incroyable, que ce soit en périphérie, dans le centre de données ou dans le Cloud.
  • La technologie Intel® Optane™ représente une approche révolutionnaire de la mémoire et du stockage qui permet de surmonter les goulots d'étranglement liés au transfert et au stockage des données.
  • Les FPGA Intel® accélèrent le centre de données afin d'améliorer les délais de réponse.
  • La vérification des solutions Intel® Select offre des performances optimales, ce qui permet d'éviter les approximations et d'accélérer le déploiement de solutions.

Questions-Réponses

L'analyse de données est le processus par lequel les informations passent des données brutes à des données exploitables par l'entreprise.

L'analyse des Big Data utilise des ensembles de données à grande échelle pour dévoiler de nouveaux rapports et mieux comprendre de plus grandes quantités d'informations.

L'analyse avancée n'est pas une technologie ou un ensemble de technologies spécifiques. Il s'agit d'une classification des cas d'utilisation et des solutions qui utilisent des technologies avancées comme le machine learning, l'analyse augmentée et les réseaux neuronaux.

L'analyse de données fournit des renseignements commerciaux qui permettent aux organisations de comprendre les événements antérieurs, de prévoir les événements futurs et de planifier leurs actions.

Les quatre phases du pipeline de données sont l'ingestion, la préparation, l'analyse et l'action.

L'analyse descriptive et l'analyse diagnostique se penchent toutes les deux sur la vie antérieure de l'entreprise. L'analyse descriptive se concentre sur les événements antérieurs de l'entreprise en eux-mêmes, tandis que l'analyse diagnostique étudie les causalités de ces évènements.

L'analyse descriptive se penche sur le passé de l'entreprise pour parler des événements qui ont déjà eu lieu, et constitue la base de tous les autres types d'analyses. L'analyse normative formule des recommandations basées sur les données existantes et les algorithmes prédictifs.

L'analyse prédictive et l'analyse normative donnent toutes les deux des informations sur le futur de l'entreprise. L'analyse prédictive fait une prévision sur les événements prédits et l'analyse normative recommande un plan d'action basé sur ces prévisions.

L'analyse prédictive permet de mieux anticiper les événements futurs. L'analyse prédictive peut identifier les besoins de maintenance avant qu'ils ne se développent ou évaluer l'impact le plus probable des conditions économiques sur les futures prévisions de ventes.

Contenus associés

Plus d'infos sur les technologies Intel® d'analyse de données.

Analyse de données

Découvrez comment l'analyse permet aux organisations de fournir des informations fiables et exploitables et comment faire évoluer sa stratégie d'analyse.

Tirez pleinement avantage de l'analyse de données

Analytique avancée des données

Les entreprises les plus intelligentes commencent par une analyse avancée. Découvrez comment s’implanter dans un marché axé sur les données grâce aux technologies Intel®.

Soyez à la tête d'une stratégie d'analyse plus intelligente

Analyse du machine learning

Obtenez des informations plus approfondies plus rapidement grâce au machine learning et à l'intelligence artificielle pour stimuler les efforts d'analyse.

Libérez tout votre potentiel

Analyse prédictive

Exploitez vos données pour bénéficier d'un avantage concurrentiel en faisant des prévisions exploitables sur l'avenir.

Ayez une vision à long terme grâce à l'analyse prédictive

Avis et avertissements
Les technologies Intel® peuvent nécessiter du matériel, des logiciels ou l'activation de services compatibles. // Aucun produit ou composant ne saurait être totalement sécurisé en toutes circonstances. // Vos coûts et résultats peuvent varier. // Intel ne maîtrise et ne vérifie pas les données tierces. Vous devriez consulter d'autres sources pour évaluer leur précision.

Infos sur le produit et ses performances

1« What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses  » (Ce que vos données ne vous disent pas : les données sombres dévoilent les problèmes et les opportunités à saisir pour les grandes entreprises), Forbes, juin 2019, forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e.
2 Charge de travail simulée SAP HANA* pour l'édition SAP BW du banc d'essai de l'application standard SAP HANA* Version 2 au 30 mai 2018. Les logiciels et charges de travail utilisés dans les tests de performance ont peut-être été optimisés uniquement pour les microprocesseurs Intel®. Les tests de performance tels que SYSmark* et MobileMark* portent sur des configurations, composants, logiciels, opérations et fonctions spécifiques. Les résultats peuvent varier en fonction de ces facteurs. Pour l'évaluation d'un produit, il convient de consulter d'autres tests et d'autres sources d'information, notamment pour connaître le comportement de ce produit avec d'autres composants. Consultez www.intel.fr/benchmarks à ce sujet. Les résultats de performance s'appuient sur les tests réalisés aux dates indiquées dans les configurations et peuvent ne pas refléter toutes les mises à jour de sécurité disponibles. Voir la sauvegarde pour obtenir des détails de configuration. Aucun produit ou composant ne saurait être totalement sécurisé. Configuration de base avec DRAM traditionnelle : serveur Lenovo ThinkSystem SR950 doté de 8 processeurs Intel® Xeon® Platinum 8176M (28 cœurs, 165 watts, 2,1 GHz). La mémoire totale est composée de 48 modules RDIMM TruDDR4 de 16 Go à 2 666 MHz et de 5 unités de stockage (SSD) ThinkSystem PM1633a de 2,5 pouces d'une capacité de 3,84 To SAS et de 12 Go de pilotes remplaçables à chaud pour le stockage SAP HANA *. Le système d'exploitation est SUSE Linux Enterprise Server 12* SP3. Il utilise SAP HANA* 2.0 SPS 03 avec un ensemble de données de 6 To. Temps de démarrage moyen pour toutes les données après préchargement du tableau pour 10 itérations : 50 minutes. Nouvelle configuration avec une combinaison de DRAM et de mémoire persistante Intel® Optane™ DC : Intel Lightning Ridge SDP avec 4 processeurs CXL QQ89 AO (24 cœurs, 165 W, 2,20 GHz). La mémoire totale est composée de 24 DDR4 de 32 Go à 2 666 MHz et 24 AEP ES2 128 Go, et d'une unité de stockage SSD Intel® DC série S3710 de 800 Go, de 3 unités de stockage SSD Intel® DC série P4600 de 2 To et de 3 unités de stockage SSD Intel® DC série S4600 de 1,9 To. BIOS version WW33’18. Le système d'exploitation est SUSE Linux*4 Enterprise Server 15. Il utilise SAP HANA* 2.0 SPS 03 (un noyau PTF spécifique de SUSE a été appliqué) avec un ensemble de données de 1,3 To. Temps de démarrage moyen pour le préchargement optimisé des tableaux (amélioration 17x).