Twitter améliore performances et rentabilité

Twitter augmente les performances et la rentabilité de Hadoop grâce à la mise en cache, à des unités de stockage SSD rapides et à plus de ressources de calcul.

Introduction
Les E/S de stockage peuvent constituer un important goulet d'étranglement pour les clusters Hadoop*, en particulier pour les déploiements hyperscale comme ceux de Twitter, où un seul cluster peut comporter jusqu'à 10 000 nœuds et près de 100 Po de stockage logique. Le cluster Hadoop de Twitter contient plus de 100 000 disques durs. Cette configuration atteignait néanmoins une limite en termes de performances d'E/S. En effet, si la capacité des disques durs a augmenté au fil du temps, leurs performances n'ont pas changé de manière significative2. Par conséquent, le simple fait d'ajouter davantage de disques durs de plus grande capacité n'allait pas résoudre les problèmes de mise à l'échelle de Twitter. En réalité, cela ne ferait qu'empirer les choses à mesure que les E/S par Go diminueraient. L'ajout de plus de broches par nœud n'était pas possible en raison de limitations d'espace et de puissance.

En collaboration avec une équipe d'ingénieurs d'Intel, les ingénieurs de Twitter ont mené une série d'expériences qui ont révélé que le stockage de fichiers temporaires gérés par YARN* (Yet Another Resource Negotiator*) sur une unité SSD rapide améliorait considérablement les performances du matériel existant (jusqu'à 50 % de réduction du temps d'exécution)3. L'équipe a également découvert que la suppression d'un goulet d'étranglement au niveau des E/S de stockage lui permettait d'utiliser des disques durs de plus grande capacité tout en augmentant l'utilisation des processeurs, ce qui lui permettait d'utiliser des processeurs disposant de davantage de cœurs. Cela a eu un effet positif sur les performances de stockage et a contribué à augmenter la densité des centres de données en réduisant le nombre de disques durs nécessaires.

Une densité plus élevée entraîne des économies de coût total de possession (TCO) grâce à l'efficacité énergétique, à la réduction du nombre de racks et à l'encombrement réduit des centres de données. Dans l'ensemble, Twitter prévoit que la mise en cache des données temporaires et l'augmentation du nombre de cœurs se traduiront par une diminution du TCO d'environ 30 % et des temps d'exécution plus de 50 % plus rapides, par rapport à la configuration de cluster de production existante1.

Consultez le livre blanc intitulé Accroître les performances et la rentabilité de Hadoop* grâce à la mise en cache, à des unités de stockage SSD rapides et à plus de ressources de calcul

Découvrez les produits et solutions associés

Processeurs Intel® Xeon® Scalable

Générez des données exploitables, faites confiance à la sécurité assistée par matériel et mettez en place des prestations de services dynamiques avec les processeurs Intel® Xeon® Scalable.

En savoir plus

Unités de stockage SSD Intel® série DC

Les unités de stockage SSD Intel® pour datacenter offrent des performances, une fiabilité et une endurance optimales.

En savoir plus

Avis et avertissements

Les fonctionnalités et avantages des technologies Intel® dépendent de la configuration du système et peuvent nécessiter du matériel et des logiciels compatibles et l'activation de certains services. Les performances varient d'une configuration à une autre. Aucun ordinateur ne saurait être totalement sécurisé. Consultez le constructeur ou le revendeur de votre ordinateur.vous pouvez consulter le site https://www.intel.fr pour en savoir plus. // Les logiciels et charges de travail utilisés dans les tests de performance ont peut-être été optimisés uniquement pour les microprocesseurs Intel®. Les tests de performance tels que SYSmark* et MobileMark* portent sur des configurations, composants, logiciels, opérations et fonctions spécifiques. Les résultats peuvent varier en fonction de ces facteurs. Pour l'évaluation d'un produit, il convient de consulter d'autres tests et d'autres sources d'information, notamment pour connaître le comportement de ce produit avec d'autres composants. Pour des informations plus complètes, visitez https://www.intel.fr/benchmarks. // Les résultats de performances s'appuient sur les tests réalisés aux dates indiquées dans les configurations et peuvent ne pas refléter toutes les mises à jour de sécurité disponibles. Pour obtenir plus de détails, veuillez lire les informations de configuration. Aucun produit ou composant ne saurait être totalement sécurisé. // Les scénarios de réduction de coûts décrits sont fournis à titre d'exemples montrant comment un produit de technologie Intel® donné, dans les circonstances et configurations spécifiées, peut affecter les coûts futurs et entraîner des économies de coûts. Les circonstances peuvent varier selon les cas. Intel ne garantit aucun coût ni réduction de coûts. // Intel ne maîtrise et ne vérifie pas les bancs d'essai cités ici ou sur les sites Web mentionnés en référence. Vous êtes invité à consulter vous-même ces sites Web et à vérifier l'exactitude des données. // Dans certains cas, les résultats ont été estimés ou simulés à l'aide d'une analyse, d'une simulation ou d'une modélisation d'architecture réalisée en interne par Intel et sont mentionnés à titre indicatif. Toute différence matérielle, logicielle ou de configuration du système peut avoir une incidence sur vos performances effectives.

Infos sur le produit et ses performances

1

Base de référence : processeur Intel® Xeon® E3-1230 v6 à un socket (4 cœurs) ; 32 à 64 Go de RAM ; 1 disque dur de 1 To ou 2 To ; disque de démarrage Intel S4500 de 240 Go ; carte Ethernet de 1 GbE à 10 GbE ; pas de mise en cache. Test : processeur Intel® Xeon® Gold 6262 à un socket (24 cœurs) ; 192 Go de RAM ; disque de démarrage Intel S4500 de 240 Go ; 8 disques durs de 6 To ; 1 unité de stockage SSD Intel® DC P4610 de 6,4 To ; carte Ethernet 25 GbE ; mise en cache à l'aide du logiciel Intel® Cache Acceleration Software (Intel® CAS). Système d'exploitation : Twitter CentOS* 6 Derivative, version du noyau 2.6.74-t1.el6.x86_64 (basé sur le noyau 4.14.12 en amont), version du BIOS : D3WWM11, version du microcode : 0xb000021.

2

Backblaze, septembre 2018, « Hard Disk Drive (HDD) vs Solid State Drive (SSD): What’s the Diff? » (Disque dur vs lecteur SSD : quelle est la différence ?) https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/.

3

Référence : processeur Intel® Xeon® E5-2630 v4 à deux sockets à 2,2 GHz (10 cœurs/20 threads par socket) ; 128 Go de RAM ; 12x disques durs SATA de 6 To à 7200 tr/min ; 1 lecteur de démarrage SSD SATA ; carte Ethernet 25 GbE ; 102 nœuds répartis sur 6 racks. Charge de travail : Gridmix* et Terasort*. Score Gridmix : 3309 secondes ; score Terasort : 5504 secondes ; test : processeur Intel® Xeon® E5-2630 v4 à deux sockets à 2,2 GHz (10 cœurs/20 threads par socket) ; 128 Go de RAM ; 12 disques durs SATA de 6 To à 7200 tr/min ; 1 lecteur de démarrage SSD SATA ; 1 lecteur SSD Intel® Optane™ DC P4800X NVMe* ; carte Ethernet 25 GbE ; 102 nœuds répartis sur 6 racks. Charge de travail : Gridmix et Terasort. Score Gridmix : 2396 secondes ; score Terasort : 2640 secondes ; SE : Twitter CentOS* 6 Derivative, noyau.