Intel® Data Center Diagnostic Tool pour les processeurs Intel® Xeon®

Documentation

Maintenance et performances

000058107

15/09/2021

Introduction

Le Intel® Data Center Diagnostic Tool est un logiciel de diagnostic qui peut être exécuté sur les plateformes de votre centre de données pour :

  • Vérifier la fonctionnalité de tous les cœurs d’un processeur Intel® Xeon®.
  • Soyez utilisé dans le cadre d’un programme régulier de maintenance du système.

Une fiabilité et une disponibilité élevées dans le centre de données nécessitent les bons outils et un engagement en matière de maintenance. Intel estime que l’utilisation d’outils de maintenance tels que ceux-ci pour le déploiement initial et les tests réguliers est une bonne pratique de l’industrie afin de garantir une expérience optimale du système.

Configuration système requise

La Intel Data Center Diagnostic Tool est une application Linux* qui peut être installée et exécutée sur de nombreuses distributions Linux actuelles. Il n’existe pas de version Windows* de cet outil.

Pour une meilleure couverture, exécutez l’application dans le système racine d’un serveur. Il est possible de l’exécuter dans un conteneur ou une machine virtuelle, mais sachez que certaines fonctionnalités peuvent être désactivées.

Processeurs pris en charge :

  • Processeurs Intel® Xeon® Scalable de 3e génération (anciennement Ice Lake et Cooper Lake)
  • Processeurs Intel® Xeon® scalables de 2e génération (anciennement Cascade Lake)
  • Processeurs Intel® Xeon® scalables de 1e génération (anciennement Skylake)
  • Famille de processeurs Intel® Xeon® E5 v4 (anciennement Broadwell)
  • Famille de processeurs Intel® Xeon® E7 v4 (anciennement Broadwell)

Installation

Notes
  • Des détails supplémentaires sont disponibles dans le fichier /usr/share/doc/dcdiag/README.rst inclus dans l’installation.
  • Nous vous recommandons d’utiliser les étapes des sections ci-dessous pour établir un lien vers le référentiel, ce qui garantit que vous obtenez la dernière version du Intel® Data Center Diagnostic Tool. Cependant, si vous avez besoin d’un fichier binaire téléchargeable, utilisez un fichier RPM ou un fichier DEB.

 

Debian*/Ubuntu*

Pour installer les packages logiciels Intel® Data Center Diagnostic Tool sur les distributions de Debian*, ajoutez le référentiel du package Intel software et installez les packages appropriés.

Avant de copier+coller sur votre console, vous pouvez exécuter sudo ls et saisir votre mot de passe pour empêcher que les commandes soient consommées par l’invite de mot de passe sudo :

Configurez la clé pour vérifier les signatures du package

curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

Configurer le référentiel

sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

Installez le package

sudo apt-get update
sudo apt-get install dcdiag

Fedora*/CentOS*/RHEL*

Pour installer les packages logiciels Intel Data Center Diagnostic Tool sur une distribution Fedora, ajoutez le référentiel du package Intel software et installez le package.

La première fois que vous l’installerez, YUM ou DNF vous invitera à accepter la clé de signature. Vérifiez que l’empreinte digitale est la suivante, puis acceptez-la :
Userid: "CN=Release Key"
Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

Avant de copier+coller sur votre console, vous pouvez exécuter sudo ls et saisir votre mot de passe pour empêcher que les commandes soient consommées par l’invite de mot de passe sudo :

Installez le fichier de référentiel

sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

Installez le package

sudo yum install dcdiag

OpenSUSE*/SUSE Linux Enterprise* :

Installez le fichier de référentiel

sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

Installez le package

sudo zypper install dcdiag

Vous serez déconnecté et répondez. xml n’est pas signé. Répondez oui pour continuer. Vous aurez une autre chance de vérifier la signature du package. Vérifiez que l’empreinte digitale est la suivante, puis acceptez-la :

Repository: dcdiag
Key Name: CN=Release Key
Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
Key Created: Tue 24 Nov 2020 01:47:38 PM PST
Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

 

Comment tester le processeur Intel Xeon

Une fois installé, le Intel Data Center Diagnostic Tool est automatiquement activé pour l’exécution en arrière-plan. Vous pouvez vérifier que cela a réussi avec la commande suivante :

# systemctl status dcdiag
● dcdiag.service - Intel® Data Center Diagnostic Tool
Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
Docs: file:///usr/share/doc/dcdiag/README.rst
Main PID: 8777 (dcdiag)
CGroup: /system.slice/dcdiag.service
└─8777 /usr/bin/dcdiag --service

Si des erreurs sont détectées, l’outil les connecte au journal système. L’outil peut également rechercher si des erreurs ont été détectées dans l’analyse d’arrière-plan à l’aide de l’argument de --requête.

# dcdiag --query
Intel® Data Center Diagnostic Tool Version 506
Test completed successfully. No issues detected.

Cet outil peut également être exécuté manuellement en avant-plan en exécutant à l’invite de commandes Linux :

# dcdiag

Le test manuel dure environ 45 minutes et dispose d’une utilisation élevée du processeur.

Une fois le diagnostic terminé, le système renvoie un des messages suivants :

  • Test effectué avec succès. Aucun problème détecté.
     
  • Test effectué avec succès. Une ou plusieurs erreurs de vérification automatique se sont produites. Vérifiez les journaux du système.
     
  • Ce processeur n’est pas pris en charge par cette version de l’outil.

    Vérifiez le modèle et la version du processeur du système. Ce message s’affiche si le Intel Data Center Diagnostic Tool ne détecte pas une version de production des processeurs pris en charge. Cet outil ne prend pas en charge les échantillons d’ingénierie.

    Trouvez de l’aide pour identifier le processeur.
     
  • Test terminé. Les résultats ne sont pas concluants en raison d’une version obsolète du microcode.

    La dernière version du microcode répond aux problèmes connus. Veuillez mettre à jour. Les mises à jour de microcode sont généralement fournies par votre fournisseur de distribution Linux, ainsi que des correctifs de sécurité et d’autres mises à jour de microprogrammes pour divers composants. Si ces mises à jour ne sont pas activées sur votre système, nous vous recommandons de les activer. Le microcode est automatiquement chargé par le noyau Linux à chaque démarrage et peut être déchargé à l’exécution avec la commande suivante comme racine :

    echo 1 > /sys/devices/system/cpu/microcode
     
  • Test terminé. Les résultats ne sont pas concluants en raison du fait que le système dépasse les limites de température

    Cela peut être dû à divers problèmes avec le système qui ne fournissent pas suffisamment de refroidissement pour que le processeur fonctionne dans les limites de température requises. Nous vous recommandons de vérifier votre système pour nous assurer que le refroidissement nécessaire fonctionne correctement. Cela peut inclure des ventilateurs défectueux, une circulation d’air incorrecte ou un autre problème environnemental.
     
  • Test terminé. Les résultats sont non concluants, une ou plusieurs erreurs de vérification de machine se sont produites.

    Vérifiez les journaux système.
     
  • Le test a échoué. Contactez le constructeur ou le fournisseur du processeur de votre système pour obtenir de l’assistance.

    Si les résultats du test tombent en panne, vérifiez si les processeurs de votre nœud serveur sont toujours sous garantie :

    • Si vous avez un processeur Intel® Xeon® en boîte toujours sous garantie de 3 ans, contactez l’assistance à la clientèle Intel pour obtenir de l’aide.
    • Si vous disposez d’un processeur en plateau, contactez le fournisseur de votre système ou de votre processeur ou le lieu d’achat pour vérifier si le processeur est toujours sous garantie.
      NoteLes processeurs en plateau sont vendus directement aux fabricants de systèmes ou aux distributeurs agréés Par Intel. Intel ne fournit pas de garantie directe aux utilisateurs finaux pour les processeurs en plateau, sauf s’ils sont préinstallés dans les systèmes serveurs Intel® Data Center Blocks (Intel® DCB). Sauf pour les systèmes Intel DCB, la garantie du processeur en plateau est auprès du fournisseur ou du lieu d’achat du processeur ou du système si le processeur a été préinstallé. Intel recommande d’acheter auprès de distributeurs agréés Intel, de fournisseurs agréés Intel et de revendeurs de produits Intel®.
    • Sachez qu’Intel ne dispose pas d’un programme de remplacement hors garantie.
       
  • Le test a échoué.

    Test effectué et une erreur a été détectée sur le processeur physique contenant /sys/devices/system/cpu/cpuXX.

    Contactez le constructeur ou le fournisseur du processeur de votre système pour obtenir de l’assistance.

  • Le test a échoué.

    Le test n’est pas en mesure de déterminer quel processeur physique a causé la panne.

    Contactez le constructeur ou le fournisseur du processeur de votre système pour obtenir de l’assistance.
     

Historique des versions

DateVersionDescription
7 juillet 2021540Version initiale