Diagnostics de base pour les erreurs de mémoire ECC correctables/non corrélables avec les cartes mères Intel® pour serveurs

Documentation

Dépannage

000024007

10/01/2023

NotePour obtenir de l’aide pour le dépannage décrit dans cet article, reportez-vous aux caractéristiques techniques du produit pour votre plateforme serveur.

Qu’est-ce que je vois ?

Événements ECC (Error Correctable and/or Uncorrectable Error Correcting Code) pour modules de mémoire. Par exemple :

Processeur de mémoire d’avertissement pour gestionnaire de processeur de gestionnaire ECC mmry ECC : 1, barrette DIMM : grade D0 DIMM : 1. - ECC correctable / autre erreur de mémoire correctable - Affirmation.

Qu’est-ce que l’événement d’erreur correctable du code de correction d’erreur de mémoire (ECC) ?

L’erreur correctible ECC représente un dépassement de seuil pour un module de mémoire DIMM (Dual In-line Memory Modules) donné dans un délai donné.


Comment résoudre le problème :

Les erreurs de données mémoire sont enregistrées comme étant correctables ou non corrélables. Reportez-vous aux instructions ci-dessous, en fonction du type d’erreur que vous rencontrez :

error types

Notes
  • S’il n’y a pas de problème catastrophique (Écran violet de la mort (PSOD) ou redémarrage inattendu) et l’erreur ECC correctable, y compris l’erreur ADDDC (Adaptative Double Device Data Correction), est inférieure à 10 événements toutes les 24 heures pour chaque emplacement DIMM, qui se trouve dans la limite de seuil, la recommandation est de surveiller le serveur pour vérifier si l’erreur ECC est rémanente à chaque emplacement DIMM qui déclenche l’événement.
     
  • En cas de problème catastrophique (Écran violet de mort (PSOD) ou redémarrage inattendu) et que l’erreur ECC correcte, y compris l’erreur ADDDC (Adaptative Double Device Data Correction), est inférieure à 10 événements toutes les 24 heures pour chaque emplacement DIMM, il est recommandé de réinsérez chaque emplacement DIMM en suivant les étapes ci-dessous :
    1. Mettez le système hors tension et retirez le câble d’alimentation secteur.
    2. Identifiez l’emplacement DIMM pour se réinsérez. Reportez-vous aux caractéristiques techniques de la plateforme de votre serveur pour identifier l’emplacement des barrettes DIMM.
    3. Réinsérez la barrette DIMM identifiée.
    4. Insérez le câble d’alimentation secteur et remettez le système en marche .
    5. Observez pendant 24 heures toute correction de l’erreur ECC.
    6. Si l’erreur ECC persiste au même emplacement DIM qui a été réinséqué, génèrez et envoyez les journaux SEL et Debug , tous deux générés à partir de la console Web BMC à l’assistance à la clientèle Intel
  • Les fonctionnalités du test de mémoire avancée (AMT) ont été introduites dans la pile du BIOS et du microprogramme à partir de la révision 02.01.0014 du BIOS pour les systèmes serveurs Intel® S2600BP, S2600WF et S2600ST ; et à partir de la révision du BIOS 22.01.0097 pour le Système serveur Intel® S9200WK. Pour ces produits, nous vous recommandons d’activer les fonctionnalités de test de mémoire avancé (AMT) et de post-réparation du package (PPR) par l’intermédiaire de l’utilitaire de configuration du BIOS pour effectuer une vérification complète de l’état de la mémoire. Reportez-vous au chapitre 5 des Directives de remplacement de la mémoire et du test de mémoire avancé pour les produits Intel® pour serveurs basé sur le chipset Intel® 62X . Livre blanc pour obtenir des étapes détaillées.

Notes

Les erreurs du code de correction d’erreur (ECC) sont auto-correcteurs. Selon la configuration RAS (Reliability Availability Serviceability) de la mémoire, le contrôleur mémoire intégré (IMC) peut déconnecter le module DIMM affecté.

Pour différentes plateformes serveur Intel, il y a des différences dans leur définition d’événement, reportez-vous au Guide de dépannage du journal des événements système pour votre plate-forme serveur

Intel recommande de télécharger et de mettre à jour le BIOS système avec la dernière version disponible pour votre plateforme serveur.

Si le système est un Composant de centre de données Intel® pour Nutanix* Enterprise Cloud, consultez plutôt la page Gestionnaire du cycle de vie Nutanix*. Pour obtenir une liste de compatibilité du matériel et des microprogrammes, consultez la page de compatibilité du matériel et du microprogramme Nutanix*.

 

Rubriques connexes
Directives de remplacement de la mémoire et test de mémoire avancé pour les produits intel® pour serveurs basé sur un chipset Intel® 62X – Livre blanc
Le rôle de la mémoire ECC
Comment récupérer d’un IERR pour cartes mères Intel® pour serveurs
Mon serveur plante et montre cette erreur : Processeur CPU Machine Chk
Pour obtenir des mises à jour de microprogrammes et des conseils de dépannage
Qu’est-ce que l’événement d’erreur correctable du code de correction d’erreur de mémoire (ECC) ?
Outil SDLA Comment compter les erreurs ECC