Intel® Data Center Diagnostic Tool pour les processeurs Intel® Xeon®

Documentation

Maintenance et performances

000058107

18/11/2021

Introduction

Le Intel® Data Center Diagnostic Tool est un logiciel de diagnostic qui peut être exécuté sur les plateformes de votre centre de données pour :

  • Vérifier la fonctionnalité de tous les cœurs d’un processeur Intel® Xeon®.
  • Soyez utilisé dans le cadre d’un programme régulier de maintenance du système.

Une fiabilité et une disponibilité élevées dans le centre de données nécessitent les bons outils et un engagement en matière de maintenance. Intel estime que l’utilisation d’outils de maintenance tels que ceux-ci pour le déploiement initial et les tests réguliers est une bonne pratique de l’industrie afin de garantir une expérience optimale du système.

    Note
    • Les infrastructures informatiques modernes apportent une demande de puissance de traitement de plus en plus importante, associée aux attentes des entreprises en matière de qualité de service et de haute disponibilité (et de garanties en général sur les accords de niveau de service [ACCORDS] ). Ces attentes soulignent la nécessité de fournir des outils logiciels puissants qui peuvent aider à prévoir, identifier et minimiser les pannes inattendues du système qui pourraient compromettre la qualité des services ou la disponibilité. Lisez un article d’IDC qui couvre la nécessité d’outils de diagnostic, y compris le Intel® Data Center Diagnostic Tool.

    Configuration système requise

    La Intel Data Center Diagnostic Tool est une application Linux* qui peut être installée et exécutée sur de nombreuses distributions Linux actuelles. Il n’existe pas de version Windows* de cet outil.

    Pour une meilleure couverture, exécutez l’application dans le système racine d’un serveur. Il est possible de l’exécuter dans un conteneur ou une machine virtuelle, mais sachez que certaines fonctionnalités peuvent être désactivées.

    Processeurs pris en charge :

    • Processeurs Intel® Xeon® scalables de 3e génération (anciennement Ice Lake et Cooper Lake)
    • Processeurs Intel® Xeon® Scalable de 2e génération (anciennement Cascade Lake)
    • Processeurs Intel® Xeon® scalables de 1e génération (anciennement Skylake)
    • Famille de processeurs Intel® Xeon® E5 v4 (anciennement Broadwell)
    • Famille de processeurs Intel® Xeon® E7 v4 (anciennement Broadwell)
    Note
    • Pour les développeurs : Intel a lancé le projet Open Data Center Diagnostic Project, qui ouvre le cadre De diagnostic des centres de données d’Intel et fournit des tests sélectionnés. Cela offre aux développeurs un cadre de développement de test cohérent qui invite la créativité de la communauté Open Source à améliorer la gestion des parcs de cloud grâce au développement d’écrans de test uniques et d’autres solutions innovantes. Pour plus d’informations et accéder à ce cadre et tests

    Installation

    Notes
    • Des détails supplémentaires sont disponibles dans le fichier /usr/share/doc/dcdiag/README.rst inclus dans l’installation.
    • Nous vous recommandons d’utiliser les étapes des sections ci-dessous pour établir un lien vers le référentiel, ce qui garantit que vous obtenez la dernière version du Intel® Data Center Diagnostic Tool. Cependant, si vous avez besoin d’un fichier binaire téléchargeable, utilisez un fichier RPM ou un fichier DEB.

     

    Debian*/Ubuntu*

    Pour installer les packages logiciels Intel® Data Center Diagnostic Tool sur les distributions de Debian*, ajoutez le référentiel de packages Intel software et installez les packages appropriés.

    Avant de copier+coller sur votre console, vous pouvez exécuter sudo ls et saisir votre mot de passe pour empêcher que les commandes soient consommées par l’invite de mot de passe sudo :

    Configurez la clé pour vérifier les signatures du package

    curl https://repositories.intel.com/dcdt/dcdiag.pub | sudo apt-key add -

    Configurer le référentiel

    sudo apt-add-repository 'deb https://repositories.intel.com/dcdt/debian stable main'

    Installez le package

    sudo apt-get update
    sudo apt-get install dcdiag

    Fedora*/CentOS*/RHEL*

    Pour installer les packages logiciels Intel Data Center Diagnostic Tool sur une distribution Fedora, ajoutez le référentiel du package Intel software et installez le package.

    La première fois que vous l’installerez, YUM ou DNF vous invitera à accepter la clé de signature. Vérifiez que l’empreinte digitale est la suivante, puis acceptez-la :
    Userid: "CN=Release Key"
    Fingerprint: 6226 CA48 AAB6 0900 2093 C7C4 0A04 4B42 CF00 5B79

    Avant de copier+coller sur votre console, vous pouvez exécuter sudo ls et saisir votre mot de passe pour empêcher que les commandes soient consommées par l’invite de mot de passe sudo :

    Installez le fichier de référentiel

    sudo yum install https://repositories.intel.com/dcdt/dcdiag-repo.rpm

    Installez le package

    sudo yum install dcdiag

    OpenSUSE*/SUSE Linux Enterprise* :

    Installez le fichier de référentiel

    sudo zypper ar https://repositories.intel.com/dcdt/dcdiag.repo

    Installez le package

    sudo zypper install dcdiag

    Vous serez déconnecté et répondez. xml n’est pas signé. Répondez oui pour continuer. Vous aurez une autre chance de vérifier la signature du package. Vérifiez que l’empreinte digitale est la suivante, puis acceptez-la :

    Repository: dcdiag
    Key Name: CN=Release Key
    Key Fingerprint: 6226CA48 AAB60900 2093C7C4 0A044B42 CF005B79
    Key Created: Tue 24 Nov 2020 01:47:38 PM PST
    Key Expires: Sat 25 Nov 2023 01:47:38 PM PST
    Rpm Name: gpg-pubkey-cf005b79-5fbd7f7a

     

    Comment tester le processeur Intel Xeon

    Une fois installé, le Intel Data Center Diagnostic Tool est automatiquement activé pour l’exécution en arrière-plan. Vous pouvez vérifier que cela a réussi avec la commande suivante :

    # systemctl status dcdiag
    ● dcdiag.service - Intel® Data Center Diagnostic Tool
    Loaded: loaded (/usr/lib/systemd/system/dcdiag.service; enabled; vendor preset: disabled)
    Active: active (running) since Fri 2021-02-19 11:24:17 MST; 4 days ago
    Docs: file:///usr/share/doc/dcdiag/README.rst
    Main PID: 8777 (dcdiag)
    CGroup: /system.slice/dcdiag.service
    └─8777 /usr/bin/dcdiag --service

    Si des erreurs sont détectées, l’outil les connecte au journal système. L’outil peut également rechercher si des erreurs ont été détectées dans l’analyse d’arrière-plan à l’aide de l’argument de --requête.

    # dcdiag --query
    Intel® Data Center Diagnostic Tool Version 506
    Test completed successfully. No issues detected.

    Cet outil peut également être exécuté manuellement en avant-plan en exécutant à l’invite de commandes Linux :

    # dcdiag

    Le test manuel dure environ 45 minutes et dispose d’une utilisation élevée du processeur.

    Une fois le diagnostic terminé, le système renvoie un des messages suivants :

    • Test effectué avec succès. Aucun problème détecté.
       
    • Test effectué avec succès. Une ou plusieurs erreurs de vérification automatique se sont produites. Vérifiez les journaux du système.
       
    • Ce processeur n’est pas pris en charge par cette version de l’outil.

      Vérifiez le modèle et la version du processeur du système. Ce message s’affiche si le Intel Data Center Diagnostic Tool ne détecte pas une version de production des processeurs pris en charge. Cet outil ne prend pas en charge les échantillons d’ingénierie.

      Trouvez de l’aide pour identifier le processeur.
       
    • Test terminé. Les résultats ne sont pas concluants en raison d’une version obsolète du microcode.

      La dernière version du microcode répond aux problèmes connus. Veuillez mettre à jour. Les mises à jour de microcode sont généralement fournies par votre fournisseur de distribution Linux, ainsi que des correctifs de sécurité et d’autres mises à jour de microprogrammes pour divers composants. Si ces mises à jour ne sont pas activées sur votre système, nous vous recommandons de les activer. Le microcode est automatiquement chargé par le noyau Linux à chaque démarrage et peut être déchargé à l’exécution avec la commande suivante comme racine :

      echo 1 > /sys/devices/system/cpu/microcode
       
    • Test terminé. Les résultats ne sont pas concluants en raison du fait que le système dépasse les limites de température

      Cela peut être dû à divers problèmes avec le système qui ne fournissent pas suffisamment de refroidissement pour que le processeur fonctionne dans les limites de température requises. Nous vous recommandons de vérifier votre système pour nous assurer que le refroidissement nécessaire fonctionne correctement. Cela peut inclure des ventilateurs défectueux, une circulation d’air incorrecte ou un autre problème environnemental.
       
    • Test terminé. Les résultats sont non concluants, une ou plusieurs erreurs de vérification de machine se sont produites.

      Vérifiez les journaux système.
       
    • Le test a échoué. Contactez le constructeur ou le fournisseur du processeur de votre système pour obtenir de l’assistance.

      Si les résultats du test tombent en panne, vérifiez si les processeurs de votre nœud serveur sont toujours sous garantie :

      • Si vous avez un processeur Intel® Xeon® en boîte toujours sous garantie de 3 ans, contactez l’assistance à la clientèle Intel pour obtenir de l’aide.
      • Si vous disposez d’un processeur en plateau, contactez le fournisseur de votre système ou de votre processeur ou le lieu d’achat pour vérifier si le processeur est toujours sous garantie.
        NoteLes processeurs en plateau sont vendus directement aux fabricants de systèmes ou aux distributeurs agréés Par Intel. Intel ne fournit pas de garantie directe aux utilisateurs finaux pour les processeurs en plateau, sauf s’ils sont préinstallés dans les systèmes serveurs Intel® Data Center Blocks (Intel® DCB). Sauf pour les systèmes Intel DCB, la garantie du processeur en plateau est auprès du fournisseur ou du lieu d’achat du processeur ou du système si le processeur a été préinstallé. Intel recommande d’acheter auprès de distributeurs agréés Intel, de fournisseurs agréés Intel et de revendeurs de produits Intel®.
      • Sachez qu’Intel ne dispose pas d’un programme de remplacement hors garantie.
         
    • Le test a échoué.

      Test effectué et une erreur a été détectée sur le processeur physique contenant /sys/devices/system/cpu/cpuXX.

      Contactez le constructeur ou le fournisseur du processeur de votre système pour obtenir de l’assistance.

    • Le test a échoué.

      Le test n’est pas en mesure de déterminer quel processeur physique a causé la panne.

      Contactez le constructeur ou le fournisseur du processeur de votre système pour obtenir de l’assistance.
       

    Historique des versions

    DateVersionDescription
    7 juillet 2021540Version initiale