Exécutez des requêtes Databricks jusqu’à 76 % moins de temps et réduisez les coûts avec les instances Amazon® R5d équipées de processeurs Intel® Xeon® scalable de 2e génération

Databricks :

  • Exécutez des requêtes d’assistance décisionnelle jusqu’à 76 % moins de temps avec des instances r5d.2xlarge équipées de processeurs Intel Xeon scalables de 2e génération avec Photon activés.

  • Consacrez jusqu’à 51 % de moins à l’exécution des requêtes d’assistance décisionnelle avec des instances r5d.2xlarge équipées de processeurs Intel Xeon scalables de 2e génération avec Photon activés.

author-image

Par

Grâce au moteur de requête vectorisé Photon, ces instances ont considérablement surperformé les instances r5a.2xlarge équipées de processeurs AMD EPYC™ sur les charges de travail d’assistance à la décision et ont offert une meilleure valeur

De nombreuses organisations s’appuient sur la plateforme Lakehouse de Databricks pour stocker et analyser des données, structurées et non structurées. Pour exécuter rapidement vos requêtes d’assistance décisionnelle, il est important de sélectionner des instances Cloud soutenues par un matériel puissant. Mais déterminer quelles instances répondent à ce critère peut constituer un défi.

Nous avons effectué des tests pour aider les entreprises qui achètent des instances Cloud à connaître leurs charges de travail d’assistance décisionnelles. Plus précisément, nous avons examiné la série d’instances AWS : les instances R5d activées par les processeurs Intel® Xeon® Scalable de 2e génération et les instances R5a avec des processeurs AMD EPYC. Nous avons créé des clusters Databricks Runtime 9.0 de ces deux types d’instances pour exécuter une charge de travail d’assistance décisionnelles. Sur le cluster R5d, nous avons utilisé des RMA qui ont activé un moteur de requête vectorisé appelé Photon conçu pour améliorer les performances des requêtes SQL. Au moment de ces tests, le moteur Photon de Databricks n’est pas pris en charge sur les instances R5a.

Charges de travail d’assistance décisionnelles remplies dans des instances R5d en moins de temps

Nous avons testé les deux instances AWS avec un banc d’essai d’assistance décisionnelle qui génère un score inférieur à l’amélioration qui reflète le temps nécessaire à l’exécution d’un ensemble donné de requêtes. La sélection d’une instance qui prend moins de temps peut aider votre entreprise à deux façons : tout d’abord, en obtenant des informations précieuses de plus en plus tôt, en réduisant le temps de disponibilité des instances et les coûts associés, ce qui peut vous aider à dépenser moins. Comme le montre la Figure 1, les instances r5d.2xlarge avec 2 processeurs Intel Xeon Scalable de 2nd et Photon ont permis de réaliser des requêtes sur un ensemble de données de 1 To en moins de 74 % par rapport aux instances r5a.2xlarge équipées de processeurs AMD EPYC. Avec un ensemble de données de 10 To, le temps d’exécution de la requête du cluster r5d.2xlarge était 76 % plus court que celui du cluster r5a.2xlarge.

Figure 1. Temps de traitement relatif pour terminer un ensemble de requêtes de banc d’essai sur un cluster d’instances r5d.2xlarge activé par Photon avec processeurs Intel Xeon scalable de 2nd de génération et un cluster r5a.2xlarge équipé de processeurs AMD EPYC sur des ensembles de données de 1 To et de 10 To.

Les temps de requête plus courts peuvent vous aider

Comme c’est le cas avec toutes les ressources dans lesquelles votre entreprise investit, la priorité est d’obtenir une bonne valeur pour votre dollar. Nous avons calculé le coût pour une entreprise d’exécuter les scénarios de test dont nous avons parlé à la page précédente. Nous avons utilisé le prix par heure pour chaque instance, stockage et DPU Databricks au moment des tests ainsi que les délais de la Figure 1 pour déterminer le prix par To pour les quatre scénarios. Comme le montre la Figure 2, une entreprise dépenserait beaucoup moins s’elle gérait les charges de travail d’assistance décisionnelles sur des instances r5d.2xlarge activées par Photon. Pour l’ensemble de données de 1 To, le cluster r5d.2xlarge activé par les processeurs Intel® Xeon® Scalable de 2e génération pouvait offrir un rapport prix/performances 46 % inférieur à celui du cluster r5a.2xlarge équipé de processeurs AMD EPYC. Pour l’ensemble de données de 10 To, le cluster r5d.2xlarge compatible avec Photon pourrait réduire les coûts de rapport prix/performances de 51 %.

Figure 2. Prix/performances normalisés pour exécuter une charge de travail d’assistance décisionnelles contre un environnement Databricks sur des instances Amazon r5d.2xlarge compatibles avec Photon, par rapport aux instances r5a.2xlarge sur des ensembles de données 1 To et 10 To.

Conclusion

Nous avons mesuré le temps écoulé pour exécuter un ensemble de requêtes Databricks pour deux tailles différentes de jeu de données sur des instances AWS r5d.2xlarge activées par Photon, équipées de processeurs Intel Xeon Scalable de 2e génération et d’instances r5a.2xlarge équipées de processeurs AMD EPYC. Les instances r5d.2xlarge ont rempli des ensembles de requêtes dans un temps jusqu’à 76 % inférieur. Lorsque nous avons combiné ces temps avec les prix horaires pour les deux instances, nous avons constaté que les instances r5d.2xlarge coûtaient beaucoup moins pour exécuter la même quantité de travail, ce qui permet d’économiser jusqu’à 51 %. Si votre entreprise souhaite obtenir des informations exploitables plus tôt et réduire les dépenses en instances AWS, choisissez les instances r5d.2xlarge compatibles avec Photon dotées de processeurs Intel Xeon Scalable de 2e génération.

Pour en savoir plus

Pour commencer à exécuter vos clusters Databricks sur des instances Amazon R5d compatibles avec Photon avec des processeurs Intel Xeon scalable de 2e génération, rendez-vous sur https://aws.amazon.com/quickstart/architecture/databricks/.

Pour en savoir plus sur le moteur photon vectorisé query de Databricks, visitez https://databricks.com/product/photon et https://docs.databricks.com/runtime/photon.html.

Pour tous les résultats de ce rapport, nous avons utilisé une charge de travail d’assistance décisionnelles dérivée de TPC-DS. Tous les tests ont été effectués en décembre 2021 sur la région AWS nous-est-1. Tous les tests ont utilisé des clusters de 20 nœuds avec Ubuntu 18.04.1, version du noyau 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Passons 2.12. Les deux types d’instances avaient 8 vCPU et 64 Go de RAM. Le r5d.2xlarge avait une unité de stockage SSD NVMe de 300 Go, un réseau de 10 Gbit/s BW et un BW de stockage de 4 750 Mbit/s. Les instances r5a.2xlarge avaient un volume EBS de 250 Go, un réseau BW de 10 Gbit/s et un BW de stockage de 2 880 Mbit/s.

Le contenu de cette page est une combinaison de traduction humaine et informatique du contenu original en anglais. Ce contenu vous est fourni pour votre commodité et à titre informatif seulement et ne saurait être totalement exact ou complet. En cas de contradiction entre la version anglaise de cette page et la traduction, c'est la version anglaise qui prévaut. Afficher la version anglaise de cette page.