Memory Error - Uncorrectable ECC Error im Modular-Server CMM
Hinweis: Bitte beachten Sie, dass dieser Artikel / diese Kategorie sich entweder auf ältere Software/Hardware Komponenten bezieht oder aus sonstigen Gründen nicht mehr gewartet wird. Diese Seite wird nicht mehr aktualisiert und ist rein zu Referenzzwecken noch hier im Archiv abrufbar. |
---|
Beschreibung
Im CMM werden bei den Compute Modules MFS5520VI sporadisch Memory Error - Uncorrectable ECC error with DIMM_x angezeigt.
Betroffene Hardware
- Intel Compute Module MFS5520VI
- Im Zusammenhang mit 12x 4GB RAM Bestückung und Firmware-Update 5.5
Fehlermeldung
Date: 1/19/2010 Time: 10:14:53 Event Id: 608 Policy Id: 2071
Severity: Critical Type: Chassis Component: Server 2 User Name: System
Description: Memory Error: Uncorrectable ECC error with DIMM_C1. These are errors that occur in memory cells and result in data corruption. The chipset ECC engine detects these errors but cannot correct them.
Probable Cause: Affected Memory Bank: DIMM_C1.
Corrective Action: Monitor the condition and replace the memory when necessary.
Fehler-Reproduzierung
Diese Fehlermeldung konnte von uns nachgestellt werden. Der Fehler tritt sporadisch und hauptsächlich beim Neustart eines Modules auf. Nachdem das Modul dann nochmal neu gestartet wird, ist der Fehler meist wieder weg und das System arbeitet normal. Der Fehler trat bei unseren internen Tests ausschließlich im Zusammenhang mit der FW 5.5 und vollbestückten Speichern (12x 4GB RAM) auf.
Folgende Testszenarien wurden durchgespielt:
- 12x 4GB RAM, FW 5.5: Fehler trat nach mehrfachen Neustarts sporadisch auf
- 6x 4GB RAM, FW 5.5: Fehler konnte nicht reproduziert werden
- 12x 4GB RAM, FW 5.0: Fehler konnte nicht reproduziert werden
Lösung
Firmware-Update auf Version 6.0 Download
Erklärung seitens Intel: POST code at post code 34h which is BIOS recovery. After BIOS recovery jumper was reset to default configuration, board was powered up, and Selview log were saved. Selview log has multiple sequential “Watchdog 2 #0x03” entries. It indicates that board hung in early POST due to BIOS problem, which is probably the reason for BIOS recovery. There were also “Uncorrectable memory failures” entries. The board had BIOS 43.1.Board was updated to BIOS 48. No issues found after update to BIOS 48
Auch bei unseren Tests, traten ab der FW Version 6.0 keine weiteren Memory-Fehler auf.