Fonctionnement du démarrage résilient aux pannes (FRB) sur les cartes mères Intel® pour serveurs et les systèmes serveur Intel®

Documentation

Information et documentation de produit

000007197

11/12/2023


Symptôme(s) :

  • Qu’est-ce que FRB ?
  • Comment puis-je savoir si cela fonctionne ?
  • Démarrage résilient aux pannes sur les serveurs Intel®.


Solution:

Démarrage résilient aux pannes

Le BMC (Baseboard Management Controller) implémente les niveaux FRB 1, 2 et 3. Si le processeur d’amorçage (BSP) par défaut ne parvient pas à terminer le processus de démarrage, FRB tente de démarrer à l’aide d’un autre processeur.

  • Le FRB niveau 1 est destiné à récupérer après une défaillance BIST détectée pendant le POST. Cette récupération FRB est entièrement gérée par le code du BIOS.
  • Le FRB niveau 2 est destiné à récupérer d’un délai de surveillance pendant le POST. Le minuteur de surveillance pour FRB niveau 2 est implémenté dans le BMC.
  • Le niveau 3 de FRB est destiné à récupérer à partir d’un délai d’attente de surveillance lors d’une réinitialisation matérielle ou d’une mise sous tension. Cela fournit des fonctionnalités matérielles pour ce niveau de FRB.

FRB-1

Dans un système multiprocesseur, le BIOS enregistre les processeurs d’application dans la table multiprocesseur (MP) et les tables APIC ACPI. Lorsqu’il est démarré par le BSP, si un processeur d’application (PA) ne parvient pas à terminer l’initialisation dans un certain délai, il est supposé non fonctionnel. Si le BIOS détecte qu’un processeur d’application a échoué à BIST ou ne fonctionne pas, il demande au contrôleur BMC de désactiver ce processeur.

Le contrôleur BMC génère alors une réinitialisation du système lors de la désactivation du processeur ; Le BIOS ne verra pas le processeur en panne lors du prochain cycle d’amorçage. Le point d’accès défaillant n’est pas répertorié dans la table MP, ni dans les tableaux APIC ACPI, et est invisible pour le système d’exploitation. Si le BIOS détecte que le BSP a échoué à l’auto-test BIST, il envoie une demande au contrôleur BMC pour désactiver le processeur actuel. Si aucun processeur de remplacement n’est disponible, le contrôleur BMC émet un signal sonore sur le haut-parleur et arrête le système. Si le contrôleur BMC peut trouver un autre processeur, la propriété du BSP est transférée à ce processeur par le biais d’une réinitialisation du système.

FRB-2

La deuxième minuterie de surveillance (FRB-2) du contrôleur BMC est définie pendant environ 6 minutes par le BIOS et est conçue pour garantir que le système effectue l’amorçage du BIOS. Le minuteur FRB-2 est activé avant que le minuteur FRB-3 est désactivé pour empêcher toute fenêtre de temps non protégée . Vers la fin du test POST, avant que les ROM optionnelles ne soient initialisées, le BIOS désactive le minuteur FRB-2 dans le contrôleur BMC.

Si le système contient plus de 1 Go de mémoire et que l’utilisateur choisit de tester chaque DWORD de mémoire, le minuteur de surveillance est désactivé avant le démarrage du test de mémoire étendue, car le test de mémoire peut prendre plus de 6 minutes dans cette configuration. Si le système se bloque pendant le test POST, le BIOS ne désactive pas le minuteur dans le contrôleur BMC, ce qui génère une réinitialisation asynchrone du système (ASR).

FRB-3

La première minuterie (FRB-3) commence le compte à rebours chaque fois que le système sort d’une réinitialisation matérielle, ce qui est généralement d’environ 5 secondes. Si le BSP réussit à se réinitialiser et à démarrer l’exécution, le BIOS désactive la minuterie FRB-3 dans le BMC en désaffirmant le signal FRB_TIMER_HLT (GPIO) et le système continue avec le POST. Si le minuteur expire parce que le BSP n’a pas pu récupérer ou exécuter le code du BIOS, le contrôleur BMC réinitialise le système et désactive le processeur défaillant.

Le système continue de modifier le BSP jusqu’à ce que le BIOS POST ait dépassé la désactivation du minuteur FRB-3 dans le BMC. Le contrôleur BMC émet des signaux sonores sur le haut-parleur s’il ne trouve pas un bon processeur. Le processus de cycle d’utilisation de tous les processeurs est répété lors de la réinitialisation du système ou du cycle d’alimentation.