Comment le démarrage résilient des pannes (FRB) fonctionne sur les Cartes mères pour serveurs Intel® et les Systèmes serveur Intel®
Symptôme (s):
- Qu'est-ce que FRB?
- Comment puis-je savoir si cela fonctionne?
- Amorçage de la résistance aux pannes sur les serveurs Intel®.
Solution:
Amorçage résilient par défaut
Le contrôleur BMC (plinthe Management Controller) implémente les niveaux FRB 1, 2 et 3. Si le processeur d'amorçage par défaut (BSP) ne parvient pas à terminer le processus de démarrage, FRB tente de démarrer à l'aide d'un autre processeur.
- FRB niveau 1 est destiné à récupérer à partir d'une défaillance BIST détectée pendant la POST. Cette récupération FRB est entièrement gérée par le code du BIOS.
- FRB niveau 2 est destiné à récupérer à partir d'un délai de surveillance pendant le POST. La minuterie de surveillance pour FRB niveau 2 est implémentée dans le contrôleur BMC.
- FRB niveau 3 est destiné à récupérer à partir d'un délai de surveillance sur la réinitialisation matérielle ou la mise sous tension. Cela fournit des fonctionnalités matérielles pour ce niveau de FRB.
FRB-1
Dans un système multiprocesseur, le BIOS enregistre les processeurs d' applications dans la table multi-Processor (MP) et les tables APIC ACPI. Lorsqu'il est démarré par le BSP, si un processeur d'application (AP) ne parvient pas à achever l'initialisation dans un certain délai, il est supposé être non fonctionnel. Si le BIOS détecte qu'un processeur d'application a échoué BIST ou n'est pas fonctionnel, il demande au contrôleur BMC de désactiver ce processeur.
Le contrôleur BMC génère alors une réinitialisation du système tout en désactivant le processeur; le BIOS ne verra pas le processeur défaillant dans le cycle de démarrage suivant. L'AP défaillant n'est pas répertorié dans la table MP, ni dans les tables APIC ACPI, et est invisible au système d'exploitation. Si le BIOS détecte que le BSP a échoué BIST, il envoie une demande au contrôleur BMC pour désactiver le processeur actuel. Si aucun autre processeur n'est disponible, le contrôleur BMC émet un bip sonore et interrompt le système. Si le contrôleur BMC peut trouver un autre processeur, la propriété BSP est transférée à ce processeur via une réinitialisation du système.
FRB-2
La deuxième minuterie de surveillance (FRB-2) du contrôleur BMC est réglée sur environ 6 minutes par le BIOS et est conçue pour garantir que le système complète le BIOS POST. La minuterie FRB-2 est activée avant que la minuterie FRB-3 ne soit désactivée pour éviter toute fenêtre de temps non protégée . Vers la fin du POST, avant l'initialisation de l'option ROMs, le BIOS désactive la minuterie FRB-2 dans le contrôleur BMC.
Si le système contient plus de 1 Go de mémoire et que l'utilisateur choisit de tester chaque DWORD de mémoire, la minuterie de surveillance est désactivée avant le démarrage du test de mémoire prolongée, car le test de mémoire peut prendre plus de 6 minutes sous cette configuration. Si le système se bloque pendant la publication, le BIOS ne désactive pas la minuterie dans le contrôleur BMC, qui génère une réinitialisation asynchrone du système (ASR).
FRB-3
Le premier temporisateur (FRB-3) commence à compter vers le bas chaque fois que le système sort de la réinitialisation dure, qui est habituellement environ 5 secondes. Si le BSP se réinitialise et commence à s'exécuter, le BIOS désactive la minuterie FRB-3 dans le contrôleur BMC en désaffirmant le signal FRB_TIMER_HLT (GPIO) et le système continue avec le message. Si la minuterie expire en raison du défaut du BSP d'extraire ou d'exécuter le code du BIOS, le contrôleur BMC réinitialise le système et désactive le processeur défaillant.
Le système continue à changer le BSP jusqu'à ce que le POST BIOS obtient passé la désactivation de la minuterie FRB-3 dans le BMC. Le contrôleur BMC émet des bips sonores sur le haut-parleur s'il ne parvient pas à trouver un bon processeur. Le processus de cyclisme à travers tous les processeurs est répété lors de la réinitialisation du système ou le cycle de puissance.