Twitter améliore performances et rentabilité

Twitter augmente les performances et la rentabilité de Hadoop grâce à la mise en cache, à des unités de stockage SSD rapides et à plus de ressources de calcul.

En bref :

  • Twitter utilise Hadoop* pour stocker des données et effectuer des analyses avancées afin de générer des informations importantes sur les activités.

  • Twitter prévoit que la mise en cache des données temporaires avec des unités de stockage SSD Intel® basées sur la technologie Intel® 3D NAND et l'augmentation du nombre de cœurs avec les processeurs Intel® Xeon® Scalable de 2ᵉ génération se traduiront par une diminution du TCO d'environ 30 % et des temps d'exécution plus de 50 % plus rapides, par rapport à la configuration de cluster de production existante11.

BUILT IN - ARTICLE INTRO SECOND COMPONENT

Introduction

Les E/S de stockage peuvent constituer un important goulet d'étranglement pour les clusters Hadoop*, en particulier pour les déploiements hyperscale comme ceux de Twitter, où un seul cluster peut comporter jusqu'à 10 000 nœuds et près de 100 Po de stockage logique. Le cluster Hadoop de Twitter contient plus de 100 000 disques durs. Cette configuration atteignait néanmoins une limite en termes de performances d'E/S. En effet, si la capacité des disques durs a augmenté au fil du temps, leurs performances n'ont pas changé de manière significative2. Par conséquent, le simple fait d'ajouter davantage de disques durs de plus grande capacité n'allait pas résoudre les problèmes de mise à l'échelle de Twitter. En réalité, cela ne ferait qu'empirer les choses à mesure que les E/S par Go diminueraient. L'ajout de plus de broches par nœud n'était pas possible en raison de limitations d'espace et de puissance.

En collaboration avec une équipe d'ingénieurs d'Intel, les ingénieurs de Twitter ont mené une série d'expériences qui ont révélé que le stockage de fichiers temporaires gérés par YARN* (Yet Another Resource Negotiator*) sur une unité SSD rapide améliorait considérablement les performances du matériel existant (jusqu'à 50 % de réduction du temps d'exécution)3. L'équipe a également découvert que la suppression d'un goulet d'étranglement au niveau des E/S de stockage lui permettait d'utiliser des disques durs de plus grande capacité tout en augmentant l'utilisation des processeurs, ce qui lui permettait d'utiliser des processeurs disposant de davantage de cœurs. Cela a eu un effet positif sur les performances de stockage et a contribué à augmenter la densité des centres de données en réduisant le nombre de disques durs nécessaires.

Une densité plus élevée entraîne des économies de coût total de possession (TCO) grâce à l'efficacité énergétique, à la réduction du nombre de racks et à l'encombrement réduit des centres de données. Dans l'ensemble, Twitter prévoit que la mise en cache des données temporaires et l'augmentation du nombre de cœurs se traduiront par une diminution du TCO d'environ 30 % et des temps d'exécution plus de 50 % plus rapides, par rapport à la configuration de cluster de production existante1.

Consultez le livre blanc intitulé Accroître les performances et la rentabilité de Hadoop* grâce à la mise en cache, à des unités de stockage SSD rapides et à plus de ressources de calcul

Télécharger le PDF ›

Découvrez les produits et solutions associés

Infos sur le produit et ses performances

1

Base de référence : processeur Intel® Xeon® E3-1230 v6 à un socket (4 cœurs) ; 32 à 64 Go de RAM ; 1 disque dur de 1 To ou 2 To ; disque de démarrage Intel S4500 de 240 Go ; carte Ethernet de 1 GbE à 10 GbE ; pas de mise en cache. Test : processeur Intel® Xeon® Gold 6262 à un socket (24 cœurs) ; 192 Go de RAM ; disque de démarrage Intel S4500 de 240 Go ; 8 disques durs de 6 To ; 1 unité de stockage SSD Intel® DC P4610 de 6,4 To ; carte Ethernet 25 GbE ; mise en cache à l'aide du logiciel Intel® Cache Acceleration Software (Intel® CAS). Système d'exploitation : Twitter CentOS* 6 Derivative, version du noyau 2.6.74-t1.el6.x86_64 (basé sur le noyau 4.14.12 en amont), version du BIOS : D3WWM11, version du microcode : 0xb000021.

2

Backblaze, septembre 2018, « Hard Disk Drive (HDD) vs Solid State Drive (SSD): What’s the Diff? » (Disque dur vs lecteur SSD : quelle est la différence ?) https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Référence : processeur Intel® Xeon® E5-2630 v4 à deux sockets à 2,2 GHz (10 cœurs/20 threads par socket) ; 128 Go de RAM ; 12x disques durs SATA de 6 To à 7200 tr/min ; 1 lecteur de démarrage SSD SATA ; carte Ethernet 25 GbE ; 102 nœuds répartis sur 6 racks. Charge de travail : Gridmix* et Terasort*. Score Gridmix : 3309 secondes ; score Terasort : 5504 secondes ; test : processeur Intel® Xeon® E5-2630 v4 à deux sockets à 2,2 GHz (10 cœurs/20 threads par socket) ; 128 Go de RAM ; 12 disques durs SATA de 6 To à 7200 tr/min ; 1 lecteur de démarrage SSD SATA ; 1 lecteur SSD Intel® Optane™ DC P4800X NVMe* ; carte Ethernet 25 GbE ; 102 nœuds répartis sur 6 racks. Charge de travail : Gridmix et Terasort. Score Gridmix : 2396 secondes ; score Terasort : 2640 secondes ; SE : Twitter CentOS* 6 Derivative, noyau.