• Aucun résultat trouvé

Erreurs de parité de mémoire de processeur (PMPE)

N/A
N/A
Protected

Academic year: 2022

Partager "Erreurs de parité de mémoire de processeur (PMPE)"

Copied!
6
0
0

Texte intégral

(1)

Erreurs de parité de mémoire de processeur (PMPE)

Contenu

Introduction

Conditions préalables Conditions requises Components Used Conventions

Identifier une erreur de parité

Erreurs de parité logicielle/matérielle Isoler le problème

Plates-formes Cisco 4500 et 4700

Plates-formes RSP (Route/Switch Processor), NPE (Network Processing Engine) et RP (Route Processor)

Erreur de parité dans DRAM ou SRAM (MEMD) Erreur de parité tirée de la mémoire SRAM Processeur d'interface polyvalent

Actions recommandées

Informations à collecter si vous ouvrez une demande de service TAC Informations connexes

Introduction

Ce document explique ce qui entraîne des erreurs de parité sur des routeurs Cisco, et comment effectuer le dépannage.

Conditions préalables

Conditions requises

Cisco vous recommande de savoir comment dépanner les pannes de routeur.

Référez-vous à Dépannage des pannes de routeur pour plus d'informations.

Components Used

Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.

Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique.All of the devices used in this document started with a cleared (default) configuration.If your network is live, make sure that you understand the potential impact of any command.

(2)

Conventions

Pour plus d'informations sur les conventions utilisées dans ce document, reportez-vous à Conventions relatives aux conseils techniques Cisco.

Identifier une erreur de parité

Des erreurs de parité de mémoire se produisent dans les produits de processeur MIPS (MultiChannel Interface Processor), tels que :

Routeurs de la gamme Cisco 4500/4700

Routeurs de la gamme Cisco 7500 (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)

Routeurs de la gamme Cisco 7000 (RSP 7000)

Routeurs de la gamme Cisco 7200 (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE- 300)

Routeur Internet de la gamme Cisco 12000

Voici quelques messages, qui sont tous liés à la détection d'une mauvaise parité quelque part dans le système (la liste n'est pas exhaustive, mais contient les messages les plus courants) :

Dans la sortie de la commande show version :

System restarted by processor memory parity error at PC 0x6014F7C0, address 0x0

ou

System restarted by shared memory parity error at PC 0x60130F40

Si vous disposez de la sortie d'une commande show version de votre périphérique Cisco, vous pouvez utiliser Cisco CLI Analyzer pour afficher les problèmes potentiels et les

correctifs. Pour utiliser Cisco CLI Analyzer, vous devez être un client enregistré, être connecté et avoir JavaScript activé.

Dans les journaux de console ou dans les fichiers crashinfo :

- *** Cache Error Exception ***

Cache Err Reg = 0xa401a65a

data reference, primary cache, data field error , error on SysAD Bus PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007

- Error: primary data cache, fields: data,

virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 virtual address corresponds to main:data, cache word 0

Low Data High Data Par Low Data High Data Par L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8 Low Data High Data Par Low Data High Data Par Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89 2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8

- *** Shared Memory Parity Error ***

shared memory control register= 0xffe3 error(s) reported for: CPU on byte(s): 0/1 - %PAR-1-FATAL: Shared memory parity error shared memory status register= 0xFFEF

(3)

error(s) reported for: CPU on byte(s): 0/1 2/3

- %RSP-3-ERROR: MD error 0000008000000200 %RSP-3-ERROR: QA parity error (bytes 0:3) 02 %RSP-3-ERROR: MEMD parity error condition

%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) log 22010000, data 00000000 00000000

%RSP-3-RESTART: cbus complex

- %RSP-3-ERROR: CyBus error 01 %RSP-3-ERROR: read data parity

%RSP-3-ERROR: read parity error (bytes 0:7) 20 %RSP-3-ERROR: physical address (bits 20:15) 000000 - %RSP-3-ERROR: MD error 00800080C000C000

%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0 %RSP-3-RESTART: cbus complex

Erreurs de parité logicielle/matérielle

Il existe deux types d'erreurs de parité :

Erreurs de parité logicielleCes erreurs se produisent lorsqu'un niveau d'énergie dans la puce (par exemple, un ou un zéro) change. Lorsqu'elles sont référencées par le processeur, de telles erreurs provoquent une panne du système (si l'erreur se trouve dans une zone qui n'est pas récupérable) ou elles récupèrent d'autres systèmes (par exemple, un complexe CyBus redémarre si l'erreur se trouvait dans la mémoire de paquets (MEMD)). En cas d'erreur de parité logicielle, il n'est pas nécessaire d'échanger la carte ou les composants. Reportez-vous à la section Informations connexes pour plus d'informations sur les erreurs de parité logicielle.

Erreurs de parité matérielleCes erreurs se produisent en cas de défaillance d'une puce ou d'une carte qui corrompt les données. Dans ce cas, vous devez réinstaller ou remplacer le composant affecté, qui implique généralement un échange de puce mémoire ou un échange de carte. Il y a une erreur de parité matérielle lorsque plusieurs erreurs de parité se produisent à la même adresse. Il y a des cas plus compliqués qui sont plus difficiles à identifier. En

général, si vous voyez plus d'une erreur de parité dans une région de mémoire donnée en relativement peu de temps, vous pouvez la considérer comme une erreur de parité difficile.

Des études ont montré que les erreurs de parité souple sont 10 à 100 fois plus fréquentes que les erreurs de parité dure. Par conséquent, Cisco vous recommande vivement d'attendre une

deuxième erreur de parité avant de remplacer quoi que ce soit. Cela réduit considérablement l'impact sur votre réseau.

Isoler le problème

Un routeur a de la mémoire à différents emplacements. Théoriquement, n'importe quel

emplacement de mémoire peut être affecté par l'erreur de parité, mais la plupart des problèmes de mémoire surviennent dans la mémoire vive dynamique (DRAM) ou la mémoire vive partagée (SRAM). D'après la plate-forme, voici comment vous pouvez savoir quel emplacement de mémoire a été affecté et, s'il s'avère qu'il s'agit d'une erreur de parité difficile, quelle partie vous devez remplacer :

(4)

Plates-formes Cisco 4500 et 4700

Sur les plates-formes Cisco 4500 et 4700, le fichier crashinfo n'est pas disponible dans les versions antérieures au logiciel Cisco IOS® versions 12.2(10) et 12.2(10)T.

Une façon de savoir où l'erreur s'est produite est de regarder la « raison de redémarrage » dans les journaux de console, et dans la sortie de la commande show version :

Erreur de parité dans la mémoire DRAM :Si vous n'avez pas rechargé manuellement le routeur après le crash, la sortie show version ressemble à ceci :

System restarted by processor memory parity error at PC 0x601799C4, address 0x0

System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash

Si un fichier crashinfo est disponible ou si des journaux de console ont été capturés, vous pouvez également voir quelque chose comme ceci :

*** Cache Error Exception ***

Cache Err Reg = 0xa0255c61

data reference, primary cache, data field error , error on SysAD Bus PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007

La répétition des erreurs de parité dans la DRAM indique que la DRAM ou le châssis est défectueux. Si vous avez récemment retiré le châssis ou si vous avez effectué des modifications de configuration matérielle, réinstallez les puces DRAM pour résoudre le

problème. Sinon, remplacez la DRAM comme première étape. Cela doit empêcher les erreurs de parité. Si le routeur tombe toujours en panne, remplacez le châssis.

Erreur de parité dans la mémoire SRAM :Si vous n'avez pas rechargé manuellement le routeur après le crash, la sortie de la commande show version ressemble à ceci :

System restarted by shared memory parity error at PC 0x60130F40 System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash

Si un fichier crashinfo est disponible ou si des journaux de console ont été capturés, vous pouvez également voir quelque chose comme ceci :

*** Shared Memory Parity Error ***

shared memory control register= 0xffe3 error(s) reported for: CPU on byte(s): 0/1

ou

%PAR-1-FATAL: Shared memory parity error shared memory status register= 0xFFEF

error(s) reported for: CPU on byte(s): 0/1 2/3

ou

*** Shared Memory Parity Error ***

shared memory control register= 0xffdf

error(s) reported for: NIM1 on byte(s): 0/1 2/3

Remarque:

Si l'erreur est signalée pour le processeur, remplacez la mémoire SRAM.

Si l'erreur est signalée pour NIM(x), remplacez le module réseau dans le logement (x). La mémoire SRAM allouée au logement (x) peut également être affectée. Dans ce cas, remplacez la mémoire SRAM.Les erreurs répétées de parité dans la mémoire SRAM indiquent soit des puces SRAM défectueuses, soit un module réseau défectueux qui a écrit une parité incorrecte dans la mémoire SRAM. Si vous avez récemment retiré le châssis ou si vous avez apporté des modifications à la configuration matérielle, réinstallez les modules réseau et les puces SRAM pour résoudre le problème. Sinon, vérifiez où l'erreur est signalée dans les journaux de console (voir l'exemple de sortie ci-dessus).

(5)

Plates-formes RSP (Route/Switch Processor), NPE (Network Processing Engine) et RP (Route Processor)

Comme pour la gamme Cisco 4000, le problème peut être dû à une DRAM ou une SRAM

défectueuses pour ces plates-formes. Le problème peut également être dû à une carte processeur défectueuse (RP, RSP ou NPE). Les routeurs Cisco 7000 et 7500 peuvent également signaler des erreurs de parité générées par un processeur d'interface défectueux ou mal installé (exIP ou VIP hérité).

Vérifiez le fichier crashinfo et les journaux de console pour l'un de ces messages d'erreur : Erreur de parité dans DRAM ou SRAM (MEMD)

Pour le RP, le RSP et le NPE, vous voyez généralement quelque chose comme ceci :

Error: primary data cache, fields: data, (SysAD)

virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000 virtual address corresponds to main:data, cache word 0

ou simplement :

Error: primary data cache, fields: data, SysAD phy21:3 0x201880, va14:12 0x1000, addr 63E01880

Cela indique un problème sur le RSP lui-même. Si le problème ne se produit qu'une seule fois, il s'agit probablement d'un problème temporaire.

Erreur de parité tirée de la mémoire SRAM

Pour le RSP, le message peut ressembler à ceci :

%RSP-3-ERROR: MD error 0000008000000200

%RSP-3-ERROR: QA parity error (bytes 0:3) 02

%RSP-3-ERROR: MEMD parity error condition

%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA) log 22010000, data 00000000 00000000

%RSP-3-RESTART: cbus complex

ou

%RSP-3-ERROR: CyBus error 01

%RSP-3-ERROR: read data parity

%RSP-3-ERROR: read parity error (bytes 0:7) 20

%RSP-3-ERROR: physical address (bits 20:15) 000000

S'il n'y a aucune indication d'un autre processeur d'interface qui écrit une mauvaise parité dans la SRAM (par exemple, les messages d'erreur VIP2-1-MSG), la raison la plus probable de l'erreur de parité est la SRAM elle-même. Dans ce cas, remplacez le RSP.

Si d'autres messages d'erreur indiquent qu'un processeur d'interface écrit une mauvaise parité, il peut s'agir d'une carte défectueuse ou mal positionnée.

(6)

Processeur d'interface polyvalent

Si vous recevez %VIP2-1-MSG : slot(x) messages dans les journaux ou dans le fichier crashinfo, référez-vous à Dépannage des pannes VIP.

Actions recommandées

Lors de la première occurrence d'une erreur de parité, il n'est pas possible de faire la distinction entre une erreur de parité souple et une erreur de parité dure. D'après l'expérience, la plupart des occurrences de parité sont des erreurs de parité, et vous pouvez généralement les rejeter. Si vous avez récemment modifié du matériel ou si vous avez déplacé le boîtier, essayez de réinstaller la pièce concernée (DRAM, SRAM, NPE, RP, RSP ou VIP). Les occurrences fréquentes de parité multiple signifient un matériel défectueux. Remplacez la pièce concernée (DRAM, RSP, VIP ou carte mère) à l'aide des instructions mentionnées dans ce document.

Informations à collecter si vous ouvrez une demande de service TAC

Si vous avez encore besoin d'assistance après avoir suivi les étapes de dépannage ci-dessus et que vous souhaitez ouvrir une demande de service auprès du TAC Cisco, veillez à inclure ces informations :

Dépannage effectué avant l'ouverture de la demande de service.

sortie de la commande show technical-support (en mode enable si possible).

show log command output ou captures de console si disponibles.

crashinfo fichier (s'il est présent, et n'est pas déjà inclus dans la sortie de la commande show technical- support. Si plusieurs fichiers crashinfo existent, incluez-les tous).

Nombre de rechargements dus à des erreurs de parité de mémoire du processeur que vous avez vues et quand elles se sont produites.

Veuillez attacher les données rassemblées à votre cas en format texte décompressé (.txt). Pour joindre des informations à votre demande de service, téléchargez-les via l'outil de demande de service TAC (clients enregistrés uniquement). Si vous ne pouvez pas accéder à l'Outil de demande de service, joignez les

informations pertinentes à votre demande de service et envoyez-les à attach@cisco.com avec votre numéro de demande de service dans la ligne d'objet de votre message.

Remarque : Ne redémarrez pas manuellement le routeur ou ne le mettez pas hors tension avant de collecter les informations ci-dessus, sauf si nécessaire pour résoudre une erreur de parité de mémoire du processeur, car cela peut entraîner la perte d'informations importantes nécessaires pour déterminer la cause première du problème.

Informations connexes

Arborescence des erreurs de parité du Cisco 7200

Résolution des problèmes de blocage de routeurs

Récupération d'informations depuis le fichier Crashinfo

Erreurs de mémoire, détection et correction

Support technique - Cisco Systems

Références

Documents relatifs

Autrement dit, notre souci, par le biais de ces deux textes donc deux discours de deux écrivains, tous deux natifs d’Oran ; tous deux ressentant une appartenance à ce

Dans le cas où le nombre de mesures est très grand, et que l’on s’approche d’une distribution normale, les valeurs extrêmes ne constituent plus une bonne approximation

Prendre en considération l’erreur nous semble pourtant à même d’offrir des perspectives de recherche fructueuses tant pour penser la relation de l’artiste à l’acte de

Et s’il eût seulement nombré jusqu’à trente ou quarante retours de l’une tirée vingt degrés ou moins, et de l’autre quatre-vingts ou nonante degrés, il est connu que la

Le Conseil économique et social des Nations Unies (1997) donne une définition pertinente du concept d’intégration de la dimension genre, laquelle suggère que

Dans cette technique, on introduit une information complémentaire, un bit ou un caractère, dépendant du contenu binaire du message à protéger, tel que le nombre de bits, à 1 ou à

véritablement l’erreur commise lors d’un calcul éléments finis et ceci pour un grand nombre d’applications.... Où

Une étude sur la qualité de la documentation des pro- blèmes de santé dans les DME de 19 cliniques de soins primaires au Manitoba, réalisée par Singer et collègues (page 383),