Construire une architecture adaptée à l'analytique

Avant de construire un système analytique, les services informatiques doivent prendre en compte ces questions essentielles.

Points clés

  • Stocker les données à proximité du centre de traitement permet de réduire le temps et les coûts de transmission nécessaires.

  • Les analyses en temps réel créent des demandes différentes qui nécessitent différents outils.

  • Les contrôles d'accès doivent correspondre au degré de sensibilité des données concernées.

author-image

Par

Les responsables informatiques doivent décider de la longueur du trajet des données avant leur rationalisation et analyse. Les deux choix les plus pratiques présentent à la fois des avantages et des inconvénients.

Par ailleurs, le traitement de données brutes risque de ralentir l'analyse et les lacs de données contiennent inévitablement des données inutiles.

Pour Patricia Florissi, Global Chief Technology Officer For Sales et Distinguished Engineer chez EMC, les avantages l'emportent sur les inconvénients.

« Vous devez pouvoir exécuter les analyses sans avoir à déplacer les données », affirme-t-elle.

Dans ses solutions de lacs de données, EMC stocke les données brutes provenant de différentes sources sous plusieurs formats. Par cette approche, les analystes ont accès à davantage d'informations et peuvent découvrir des choses qui auraient pu être perdues si les données avaient été nettoyées une première fois ou qui auraient été écartées.

Patricia Florissi ajoute que les efforts d'analyse du Big Data peuvent impliquer plusieurs lacs de données.

Le conglomérat de médias AOL utilise également des lacs de données, comme l'explique James LaPlaine, DSI de cette entreprise. L'entreprise réalise des milliards de transactions par jour et « le temps que cela prend pour copier d'énormes jeux de données est un problème », explique-t-il. Laisser les données dans leur format natif et les déplacer du point de capture directement dans le Cloud public permet d'éviter les coûts engendrés par la copie sur le réseau interne.

Nous voulons toutes nos données riches réunies au même endroit afin d'avoir une seule source de confiance pour toute l'entreprise.

Mike Bojdak, Senior Technology Director chez AOL

Quel type de base de données utiliser

Il est important de choisir le bon type de base de données pour un projet d'analyse, avec notamment des facteurs tels que la quantité de données, le formatage et la latence qui ont tous un impact considérable.

Le projet pour lequel Intel a changé de type de base de données impliquait une requête avancée « utilisant des données provenant d'un ensemble de sources non corrélées », résume Aziz Safa. La requête préalable portait sur une base de données SQL et prenait quatre heures. Avec une base de données en mémoire, la même requête a pris 10 minutes. Toutefois, cela ne signifie pas pour autant que ce type de base de données convient à toutes les applications. Il faut toujours revenir aux objectifs opérationnels de la tâche à réaliser.

Comme point de départ, toujours selon Aziz Safa, demandez-vous si le projet doit mettre en évidence des schémas ou donner des informations ultra-précises.

« Les bases de données distribuées de type Hadoop et capables de stocker des données sous différents formats fonctionnent bien pour les projets d'identification de tendances », déclare-t-il. En effet, quelques imprécisions dans les points de données ne vont pas changer significativement le résultat.

Néanmoins, il convient de nuancer : « Si vous tentez de localiser certains éléments au cours de votre processus de fabrication, vous devez assurer une précision à 100 % et sans latence. »

Cela nécessite une base de données plus structurée, ou avec davantage de contrôle, et configurée pour produire des résultats en temps réel. Selon ses besoins, une entreprise pourra se tourner vers un framework de traitement de données en mémoire ou une base de données NoSQL hautes performances. La plupart des types de bases de données analytiques ont des capacités comparables, mais leurs fonctionnalités présentent de réelles différences.

La classification de données nécessite... beaucoup de main-d'œuvre, mais c'est une étape cruciale.

James LaPlaine, Directeur des systèmes d'information chez AOL