Réduisez jusqu'à 80 % le temps nécessaire à l'exécution des requêtes Databricks et réalisez jusqu'à 61 % d'économies avec les VM Microsoft Azure Edsv4 dotées de processeurs évolutifs Intel® Xeon® de 2e génération.

Databricks

  • Jusqu'à 80 % de temps en moins pour exécuter des requêtes d'aide à la décision avec les VM E8ds_v4 dotées de PhotonEnabled par rapport aux anciennes VM E8s_v3.

  • Jusqu'à 61 % de réduction du coût d'exécution des requêtes d'aide à la décision avec les VM E8ds_v4 dotées de PhotonEnabled par rapport aux anciennes VM E8s_v3.

author-image

Par

Ces machines virtuelles, avec le moteur de recherche vectorisé de Photon activé, ont fourni des performances de charge de travail d'aide à la décision plus élevées que les anciennes machines virtuelles équipées de processeurs de la génération précédente.

Le choix du bon matériel est essentiel pour obtenir des performances optimales pour vos charges de travail d'aide à la décision. Il peut sembler évident qu'un matériel mis à jour offre de meilleures performances, mais il n'est pas toujours évident de déterminer l'ampleur de l'amélioration à laquelle votre entreprise peut s'attendre en choisissant l'option la plus récente et le coût de ces performances supplémentaires. Pour explorer ces questions, nous avons testé une charge de travail d'aide à la décision sur un cluster E8s_v3 à 20 nœuds avec Databricks Runtime 9.0 pour obtenir une mesure de performance de base. Les anciennes séries Esv3 d'Azure offrent des VM avec des processeurs allant du Intel® Xeon® E5-2673 v4 au Intel Xeon 8272 CL. Chaque fois que vous lancez une VM, Azure attribue un processeur de manière aléatoire. Cela signifie qu'un cluster de 20 nœuds pourrait utiliser un mélange de types de CPU, certains ayant jusqu'à trois générations de CPU Intel de moins que les processeurs les plus récents. Par souci de cohérence, nous nous sommes assurés que toutes les VM E8s_v3 listaient le même processeur Intel Xeon Platinum 8171M lorsque nous avons commencé nos tests. Nous avons ensuite testé la même charge de travail sur un cluster E8ds_v4 à 20 nœuds. Azure garantit que chaque VM Edsv4 utilise un processeur Intel Xeon Platinum 8272 CL, qui offre des performances fiables. Sur les VM les plus récentes, nous avons activé Photon, un moteur de requête vectorisé qui peut accélérer les performances des requêtes SQL.

Améliorer les performances de l'entrepôt de données en utilisant Photon

Le benchmark d'aide à la décision TPC-DS mesure les performances des entrepôts de données en termes de temps d'exécution d'un ensemble de requêtes. Des délais plus courts signifient qu'il est possible d'obtenir des informations plus rapidement et de réduire le temps de fonctionnement de la VM que vous devez payer. La figure 1 montre très clairement les avantages en termes de performances de la mise à niveau vers les nouvelles VM E8ds_v4 avec Photon activé. Avec l'ensemble de données de 1 To, la requête du cluster E8ds_v4 a réduit le temps d'exécution à seulement 26 % de celui du cluster E8s_v3. Avec le jeu de données de 10 To, le temps d'exécution des requêtes du cluster E8ds_v4 était encore plus faible, soit un cinquième de celui du cluster E8s_v3.

Figure 1. Le temps de traitement relatif pour compléter les 99 requêtes de référence d'aide à la décision sur un cluster VM E8ds_v4 équipé de Photon et de processeurs Intel Xeon Scalable de 2e génération, comparé à un cluster VM E8s_v3 plus ancien, sur des ensembles de données de 1 et 10 To.

Obtenez une meilleure valeur avec une mise à niveau

Compte tenu de l'amélioration spectaculaire des temps de requête que nous montrons à la page précédente, on pourrait penser qu'il vaut la peine de payer un supplément pour les VM les plus récentes. La figure 2 le confirme. En utilisant le prix public par heure au moment du test, nous avons déterminé le coût d'exécution de chaque scénario de charge de travail. Nous avons converti le temps total de traitement des requêtes de millisecondes en heures, combiné le coût horaire des instances et du stockage, et calculé le prix d'exécution par To pour les quatre scénarios. Nous avons constaté que l'exécution d'une charge de travail d'aide à la décision avec un ensemble de données de 1 To coûtait presque deux fois plus cher sur l'ancien cluster E8s_v3 que sur le cluster E8ds_v4 équipé de Photon. Plus impressionnant encore, l'exécution de l'ensemble de données de 10 To sur le cluster E8ds_v4 coûterait bien moins de la moitié de ce qu'elle coûterait sur le cluster E8s_v3 plus ancien, à savoir une économie de 61 %.

Figure 2. Prix/performances normalisés pour l'exécution d'une charge de travail d'aide à la décision dans un environnement Databricks sur des VM Azure E8ds_v4 dotées de Photon par rapport à des VM E8s_v3 sur des ensembles de données de 1 et 10 To.

Conclusion

Nous avons constaté que les charges de travail d'aide à la décision ne prenaient qu'un tiers du temps sur les VM E8ds_v4 à huit unités de traitement par processeur Intel® Xeon® Scalable de 2e génération, dotées de Photon, par rapport aux anciennes VM E8s_v3. Cette amélioration des performances a permis de réaliser une économie de coûts allant jusqu'à 61 %. Les VM E8ds_v4 dotées de Photon et équipées de processeurs Intel® Xeon® Scalable de 2e génération constituent donc un excellent choix pour vos charges de travail d'analyse de données.

Plus d'infos

Pour commencer à exécuter vos clusters Databricks sur des VM Microsoft Azure Edsv4 compatibles avec Photon et dotées de processeurs Intel Xeon Scalable de 2e génération, visitez le site https://docs.microsoft.com/en-us/azure/virtual-machines/edv4-edsv4-series.

Pour en savoir plus sur les résultats discutés ici et voir comment les VM Microsoft Azure Edsv4 se sont comportées par rapport à des VM AMD similaires, lisez le rapport sur https://www.intel.fr/content/www/fr/fr/partner/workload/microsoft/enhance-databricks-azure-vms-benchmark.html.