Baidu ABC Storage : Redéfinir le stockage d'objets

Baidu ABC Storage tire parti des SSD Intel® Optane™ et de la technologie SSD Intel® QLC 3D NAND pour accroître les performances et la capacité.

Les technologies avancées, comme l'apprentissage de l'intelligence artificielle (IA), le traitement du Big Data et le calcul intensif (HPC), déterminent la direction du développement des services de stockage sur Cloud privé. Les systèmes de stockage de données massives sont également étroitement liés aux besoins des entreprises, notamment dans le domaine des systèmes de stockage hautes performances hébergeant des quantités massives de petits fichiers non structurés. En tant que leader de l'informatique et de l'industrie Internet, Baidu AI Cloud* a appliqué ses années d'expérience dans les technologies de stockage sur Cloud public à une solution de stockage sur Cloud privé comme composant essentiel de sa stratégie ABC (AI, Big Data, Cloud). Grâce à son partenariat avec Intel, Baidu AI Cloud a utilisé une combinaison de lecteurs SSD, de technologie Intel® Optane™ et de technologie Intel® QLC pour le matériel se trouvant au cœur de la solution de stockage d'objets d'ABC Storage équipée uniquement de mémoire Flash.

« Baidu AI Cloud pense que sa solution de stockage d'objets haute performance utilisant uniquement de la mémoire Flash aidera les utilisateur de Cloud privé à répondre aux exigences que posent les quantités énormes de petits fichiers non structurés. La combinaison de SSD Intel® Optane™ et d'unités de stockage SSD Intel® s'appuyant sur la technologie Intel® QLC 3D NAND a aidé notre solution à produire des résultats optimaux en termes de stabilité et d'IOPS (opérations d'E/S par seconde). » - Équipe ABC Storage d'Baidu AI Cloud

Croissance des données : Opportunités et défis
Le volume des données mondiales devrait atteindre 163 Zo (zettaoctets) d'ici à 2025.1 Les données massives, notamment en raison de la croissance explosive des données non structurées, sont devenues un moteur de la numérisation des données d'entreprise, ainsi que de l'évolution rapide et persistante des technologies informatiques connexes. Cette quantité de données devrait entraîner des avancées technologiques, comme la vision par ordinateur, la reconnaissance vocale et le contrôle des risques financiers. Ainsi, la gestion, le traitement et l'utilisation efficaces de données massives sont devenus des domaines clés de la compétitivité des entreprises souhaitant conserver un avantage dans leur secteur.

Cependant, le stockage de données massives non structutées présente des difficultés aux systèmes de stockage traditionnels en raison de la taille des fichiers et de leur quantité, de leur indexation, des modèles d'accès et des technologies de stockage existantes (à savoir, les lecteurs à disques) De plus, le stockage de blocs et les systèmes de stockage de fichiers ne sont pas adaptés au stockage de petits fichiers, alors que l'IA et d'autres nouvelles applications exigent des systèmes de stockage plus performants en termes de lecture et d'écriture. Cela présente des défis technologiques intéressants.

Taille et quantité des fichiers : les performances des systèmes de stockage de fichiers traditionnels ont tendance à être irrégulières et à décliner avec l'accroissement rapide de la quantité de fichiers. Dans les scénarios d'apprentissage de l'IA, comme la reconnaissance d'images, les ensembles de données d'apprentissage contiennent des quantités ahurissantes de fichiers, habituellement de petite taille. De même, dans les applications Internet populaires comme la gestion de ressources multimédias, les véhicules sans pilote et les services de vidéos, la quantité de fichiers stockés et traités dans le système atteint habituellement des centaines de millions. L'accroissement rapide de la quantité de fichiers entraîne le déclin et l'irrégularité des performances d'E/S des systèmes de stockage, notamment dans les systèmes de stockage de fichiers traditionnels, comme les systèmes NAS (Network Attached Storage).

Indexation : de plus, les systèmes de stockage de fichiers utilisent actuellement des méthodes de calcul par arbre de hachage et arbre B+ pour gérer et indexer les répertoires. L'efficacité et les performances des algorithmes utilisés dans la gestion et l'indexation des répertoires ont tendance à diminuer de manière importante lorsque les répertoires sources contiennent plus de 100 millions de fichiers.

Accès : dans certains scénarios d'application, les modes d'accès « Read Once, Write Many » (Lire une fois, écrire de nombreuses fois) ou de lectures et d'écritures mélangées nuisent encore davantage aux performances. Les processus d'E/S de fichiers courants comprennent les opérations « ouvrir », « rechercher », « lire/écrire » et « fermer ». Les opérations d'ouverture, avant les opérations de lecture ou d'écriture, exigent le plus de temps et de ressources du système. En fait, lorsqu'il utilise des modes d'accès en lecture/écriture mélangée, le système exécute des opérations d'ouverture de manière répétée. Lors du traitement massif d'opérations simultanées, une quantité énorme des ressources du système est gaspillée, ce qui entraîne des pertes de performances.

Disques durs : les travers des disques durs traditionnels en termes de performances d'E/S et de lecture/écriture aléatoire ont entravé l'amélioration des performances des systèmes de stockage. Compte tenu de leurs limitations mécaniques, même les disques durs les plus performants produisent des chiffres IOPS atteignant seulement des centaines de lectures/écritures aléatoires par seconde.2 Lors du traitement de petits fichiers, l'efficacité est encore réduite, car le disque dur doit constament rechercher et localiser les fichiers à différents emplacements de stockage.

Solution de stockage haute performance de Baidu ABC Storage utilisant uniquement de la mémoire Flash
La société Baidu est largement connue pour son travail dans le domaine des technologies de recherche. Avec plus de 100 milliards de pages, 2 000 pétaoctets (Po) de données sockées et 100 Po de données traitées par jour,3 Baidu possède une grande expertise des difficultés technologiques que représente le sockage de quantités massives de petits fichiers non structurés.

Baidu AI Cloud a tenté d'aborder les difficultés décrites ci-dessus grâce à des améliorations logicielles et à du matériel s'appuyant sur des technologies Intel®.

Figure 1. Résultats des tests de stabilité des performances de la solution de stockage d'objets ABC Storage sur Baidu AI Cloud

Logiciels
Les développeurs ont incorporé le moteur de stockage d'objets hautes performances de Baidu dans leur nouvelle solution, ce qui permet d'offrir une excellente gestion du cycle de vie des données, stratégie de protection des données, efficacité d'extraction, un réseau d'architecture InfiniBand* et la prise en charge RDMA, et des mécanismes flexibles de gestion des droits. De plus, en tirant parti du déploiement à plat du stockage d'objets, de l'extraction hautement efficace des données et d'une évolutivité étendue, le moteur de stockage d'objets hautes performances ABC Storage est capable de fournir un stockage pour les quantités massives de petits fichiers non structurés aux utilisateurs de Cloud privés.

Un processus d'apprentissage IA comprend la collecte, le nettoyage et l'étiquetage des données, le redimentionnement, la modélisation, l'apprentissage, l'évaluation et la prévision. Chaque étape nécessite que le système de stockage effectue des opérations de lecture, d'écriture et de récupération. Tout au long de l'apprentissage, les données seront soumises à un débit hautement simultané et itératif, afin de fournir suffisamment de données pour former le système à traiter des charges de travail entières.

Le moteur de stockage d'objets de Baidu résout les problèmes de performances avec les fichiers massifs, ce qui permet aux systèmes de stockage d'avoir des performances de sortie stables et d'accroître l'efficacité de l'utilisation des données des applications d'IA. Pendant ce temps, dans certaines opérations de lecture/écriture mélangée lors de l'apprentissage, le moteur effectue également des optimisations permettant d'assurer que les performances du système ne sont pas affectées dans les scénarios de lecture/écriture mélangée.

Le résultat des tests des différentes optimisations montre que le logiciel seul peut maintenir des performances stables de bout en bout lorsque la quantité de fichiers s'accroît. Comme l'illustre la Figure 1, les requêtes par seconde (QPS) et les performances de latence fluctuent de 5 pour cent4 alors que la quantité de fichiers est passée de 100 millions à 8 milliards.

Matériel
Comme décrit ci-dessus, les disques durs présentent quelques difficultés pour les solutions de stockage hautes performances. Les lecteurs SSD n'ont virtuellement aucune durée de recherche ou de latence rotationnelle, ce qui leur permet d'avoir des performances IOPS élevées par rapport aux disques durs. Baidu AI Cloud utilise une combinaison de SSD Intel® Optane™ et de technologie SSD Intel® QLC 3D NAND, qui constitue le matériel se trouvant au cœur de la solution de stockage d'objets ABC Storage utilisant uniquement de la mémoire Flash. Les SSD Intel Optane possèdent un support de stockage Intel® 3D XPoint™ et des contrôleurs de mémoire système avancés, du matériel d'interface et une technologie logicielle offrant une faible latence et une stabilité élevée. La solution Baidu utilise les périphériques suivants :

Le SSD Intel® Optane™ DC P4800X est déployé dans les zones centrales du système de stockage, comme le cache, le MDS et le système de journalisation. Ce périphérique offre jusqu'à 550 000 IOPS de capacité en lecture/écriture aléatoire et moins de 10 µs de latence en lecture/écriture,5 ce qui permet à la solution de fonctionner plus efficacement dans les scénarios multi-utilisateur et à simultanéité élevée. Parallèlement, son nombre d'écritures de lecteur par jour (DWPD) lui offre une plus grande durée de vie et une meilleure rentabilité économique.

Intel® SSD D5-P4320, basé sur la technologie QLC, offre un stockage de données de grande capacité. La technologie 3D NAND à 64 couches d'Intel permet de produire un lecteur SSD QLC pouvant atteindre 7,68 To pour répondre adéquatement aux exigences de stockage de données massives. Elle permet également d'atteindre 427 000 IOPS en lecture aléatoire et, lorsqu'elle est couplée à un processeur Intel® Xeon® Gold 6142, elle est particulièrement adaptée en termes de performances « Write Once, Read Many » (WORM) dans certains scénarios d'application, comme l'apprentissage IA. L'unité de stockage SSD Intel D5-P4320 utilisée dans la nouvelle solution répond efficacement aux exigences de stockage de grande capacité.

Dans la solution de ABC Storage, chaque serveur de stockage est déployé avec quatre lecteurs SSD, permettant de stocker jusqu'à 2 milliards de fichiers de 15 Ko dans une capacité de 30 To. Plus important encore, le rapport prix/performance des unités de stockage SSD Intel QLC 3D NAND a permis à cette combinaison de lecteurs SSD d'assurer les hautes performances de cette solution tout en réduisant de fait le coût total de possession (TCO) du système. Les tests réalisés par Baidu ont montré que la solution hautes performances Baidu AI Cloud utilisant uniquement de la mémoire Flash pourrait réduire le coût total de possession de 60 pour cent.6

Résultats
Avec le soutien d'Intel, l'équipe Baidu AI Cloud a réalisé une évaluation et une mesure détaillées des performances de la solution de stockage ABC Storage utilisant uniquement de la mémoire Flash. La Figure 2 montre la structure du banc d'essai, qui comprend un cluster constitué de cinq serveurs configurés chacun avec deux processeurs Intel® Xeon® Gold 6142 et 256 Go de mémoire. Un SSD Intel Optane DC P4800X de 750 Go et quatre unités de stockage SSD Intel D5-P4320 de 7,68 To ont été utilisés. Le système utilisait un réseau 40 GbE pour se connecter à la plate-forme informatique.

Les tests ont montré que la combinaison de SSD Intel Optane et de la technologie de lecteur SSD QLC Intel 3D NAND répond de manière adéquate aux exigences de performance du système de stockage dans les applications d'apprentissage IA. Le tableau 1 montre les performances de la version ABC Storage de base.

Figure 2. La structure de banc d'essai de la solution de stockage ABC Storage utilisant uniquement de la mémoire Flash

Tableau 1. Résultats du banc d'essai de performance de la solution de stockage ABC Storage utilisant uniquement de la mémoire Flash4

Prospectives
Grâce aux résultats pratiques cruciaux de la stratégie ABC de Baidu AI Cloud, la solution de stockage d'objets hautes performances ABC Storage utilisant uniquement de la mémoire Flash a fourni une prise en charge robuste et fiable dans les applications de Cloud privés, comme l'apprentissage IA, l'analyse du Big Data et le calcul intensif, grâce aux améliorations apportées aux performances de stockage et à la taille du stockage.

Les produits et technologies d'Intel sont des facteurs clés de la réussite de la solution. À l'avenir, les deux sociétés prévoient de former d'autres partenariats en vue d'optimiser les performances de solutions existantes, tout en incorporant davantage de produits et de technologies d'Intel. Parallèlement, les deux sociétés prévoient d'étendre la solution de stockage d'objets hautes performances utilisant uniquement de la mémoire Flash à d'autres applications afin de convertir véritablement les données massives en moteur de transformation du développement de technologies informatiques et de numérisation des entreprises.

Les avantages de la solution Baidu AI Cloud

  • Le moteur de stockage d'objets hautes performances ABC Storage fournit une interface de stockage d'objets intégrée pour différents scénarios d'applications, comme l'apprentissage de l'IA et le calcul intensif, offrant des performances de production stables, même avec une augmentation rapide de la quantité de fichiers.
  • Grâce à des processus d'optimisation ciblés, le moteur de stockage d'objets hautes performances ABC Storage aide les systèmes de stockage à maintenir de bonnes performances, dans lesquels les scénarios de « lecture/écriture », WORM et de « lecture/écriture mélangée » sont nécessaires pour traiter les données massives.
  • La combinaison de SSD Intel® Optane™ et de la technologie d'unité de stockage SSD s'appuyant sur la technologie Intel® QLC 3D NAND permet à la solution de stockage d'objets ABC Storage utilisant uniquement de la mémoire Flash de maintenir de hautes performances, tout en réduisant considérablement le coût total de possession.

Découvrez les produits et solutions associés

Processeurs Intel® Xeon® Scalable

Générez des données exploitables, faites confiance à la sécurité assistée par matériel et mettez en place des prestations de services dynamiques avec les processeurs Intel® Xeon® Scalable.

En savoir plus

Unités de stockage SSD Intel® Optane™ DC

Les unités de stockage SSD Intel® pour datacenter offrent des performances, une fiabilité et une endurance optimales.

En savoir plus

Unités de stockage SSD Intel® série DC

Les unités de stockage SSD Intel® pour datacenter offrent des performances, une fiabilité et une endurance optimales.

En savoir plus

Avis et avertissements

Les fonctionnalités et avantages des technologies Intel® dépendent de la configuration du système et peuvent nécessiter du matériel et des logiciels compatibles et l'activation de certains services. Les performances varient d'une configuration à une autre. Aucun ordinateur ne saurait être totalement sécurisé. Consultez le constructeur ou le revendeur de votre ordinateur.vous pouvez consulter le site https://www.intel.fr pour en savoir plus. // Les logiciels et charges de travail utilisés dans les tests de performance ont peut-être été optimisés uniquement pour les microprocesseurs Intel®. Les tests de performance tels que SYSmark* et MobileMark* portent sur des configurations, composants, logiciels, opérations et fonctions spécifiques. Les résultats peuvent varier en fonction de ces facteurs. Pour l'évaluation d'un produit, il convient de consulter d'autres tests et d'autres sources d'information, notamment pour connaître le comportement de ce produit avec d'autres composants. Pour des informations plus complètes, visitez https://www.intel.fr/benchmarks. // Les résultats de performances s'appuient sur les tests réalisés aux dates indiquées dans les configurations et peuvent ne pas refléter toutes les mises à jour de sécurité disponibles. Pour obtenir plus de détails, veuillez lire les informations de configuration. Aucun produit ou composant ne saurait être totalement sécurisé. // Les scénarios de réduction de coûts décrits sont fournis à titre d'exemples montrant comment un produit de technologie Intel® donné, dans les circonstances et configurations spécifiées, peut affecter les coûts futurs et entraîner des économies de coûts. Les circonstances peuvent varier selon les cas. Intel ne garantit aucun coût ni réduction de coûts. // Intel ne maîtrise et ne vérifie pas les bancs d'essai cités ici ou sur les sites Web mentionnés en référence. Vous êtes invité à consulter vous-même ces sites Web et à vérifier l'exactitude des données. // Dans certains cas, les résultats ont été estimés ou simulés à l'aide d'une analyse, d'une simulation ou d'une modélisation d'architecture réalisée en interne par Intel et sont mentionnés à titre indicatif. Toute différence matérielle, logicielle ou de configuration du système peut avoir une incidence sur vos performances effectives.

Infos sur le produit et ses performances

1 Données tirées du rapport IDC : « Data Age 2025: The Evolution of Data to Life-Critical. »
2 Les données sont des estimations préliminaires basées sur la formule IOPS=1000 µs/(Temps de recherche + Latence rotationnelle).
3 Données issues de l'introduction du produit Baidu AI Cloud : « Baidu AI Cloud ABC Storage’s distributed storage products. »
4Les résultats, issus de tests internes, ont été fournis par Baidu AI Cloud. Pour obtenir davantage d'information, veuillez contacter Baidu AI Cloud. Pour les résultats indiqués dans la Figure 3, quatre nœuds de stockage ont été configurés et les serveurs ont tous été configurés avec quatre processeurs Intel® Xeon® E5-2620 v4 cadencés à 2,10 GHz (avec au total 32 cœurs et 64 threads), 128 Go de mémoire DRAM et sept lecteurs SSD SATA de 4 To (remarque : ce test était conçu principalement pour vérifier la solution logicielle et n'était pas configuré avec des combinaisons de SSD Intel® Optane™ et d'unités de stockage SSD Intel® QLC 3D NAND). Au cours du test, l'équipe a importé des fichiers de 4 Ko avant d'exécuter des opérations de « lecture aléatoire » avec une plage de simultanéité de 500.
6 Données tirées de la présentation du produit d'Intel sur son site officiel : https://ark.intel.com/content/www/fr/fr/ark/products/186679/intel-ssd-d5-p4320-series-7-68tb-2-5in-pcie-3-1-x4-3d2-qlc.html