Twitter améliore les performances de Hadoop*

Découvrez comment Intel et Twitter ont collaboré pour améliorer les performances des clusters Hadoop de Twitter via l'optimisation du stockage. La suppression des goulets d'étranglement au niveau du stockage a permis à Twitter d'améliorer ses temps d'exécution et de réduire l'empreinte de son centre de données, ce qui a entraîné une réduction du coût total de possession.

Analyse de données

L'innovation implique un accès rapide aux informations. Prise en main des produits et technologies Intel®.

En savoir plus

Transcription :

Le centre de données de Twitter doit traiter les centaines de millions de tweets créés chaque jour qui se transforment en plus d'un trillion d'événements. C'est pourquoi Twitter est l'un des plus grands utilisateurs de Hadoop au monde. 

Hadoop permet de stocker les événements et d'effectuer des analyses sur ces données.  Un cluster Hadoop typique sur Twitter peut avoir plus de 100 000 disques durs constamment utilisés. Néanmoins, ces disques durs ne fournissent pas assez d'IOPS pour permettre aux applications d'accéder rapidement aux données.  Les données HDFS et les données temporaires gérées par YARN circulent souvent en même temps, ce qui entraîne un goulot d'étranglement au niveau des performances. Un changement s'imposait.

Avec l'aide d'Intel, Twitter a développé une nouvelle solution Hadoop utilisant le logiciel Intel® Cache Acceleration Software (Intel® CAS) pour mettre en cache de manière sélective les fichiers YARN temporaires sur un disque dur rapide. 

Les deux flux de données n'étant plus en concurrence, l'utilisation des disques durs a été réduite, ce qui a permis à Hadoop de fournir des données plus rapidement.

La suppression du goulot d'étranglement E/S de stockage a permis à Twitter de réduire le nombre total de baies dans le cluster, diminuant ainsi l'empreinte du centre de données. L'utilisation de disques durs moins nombreux et de plus grande capacité a permis de réduire de 75 % le nombre de disques durs dans un cluster sans nuire aux performances.

Twitter pourrait maintenant profiter de plus de puissance CPU, passant des processeurs à 4 cœurs à des processeurs à 24 cœurs. La réduction du nombre de systèmes, de disques durs et de racks dans les clusters de Hadoop a entrainé une réduction des coûts de maintenance et de la quantité d'énergie nécessaire pour produire les mêmes résultats.

L'optimisation des performances de stockage a permis d'obtenir des durées d'exécution beaucoup plus courtes et un coût total de possession (TCO) plus faible. Ainsi, le cluster Hadoop de Twitter peut continuer à se développer au fur et à mesure que ses données augmentent, tout en offrant à ses utilisateurs la grande expérience à laquelle ils s'attendent.