Erhalt der Korrektheit

Maßnahmen zum Erhalt der Korrektheit (Bitstream Preservation)

Zum Erhalt langzeitarchivierter digitaler Daten werden zwei parallele Ansätze verfolgt. Die Content Preservation soll die Interpretierbarkeit der gespeicherten Dateien gewährleisten, während die Bitstream Preservation sich auf die exakte physische Bewahrung der Daten auf dem Datenträger konzentriert. Im Folgenden werden die Maßnahmen aufgelistet, die im Langzeitarchiv der SLUB für die Prüfung der Korrektheit des Bitstreams eingesetzt werden.

Prüfsummen

Die Korrektheit oder Integrität einer Datei wird über Prüfsummen nachgewiesen.  Prüfsummen werden nach einem festgelegten Verfahren aus dem Bitmuster einer Datei berechnet und haben eine definierte Länge. Der MD5-Algorithmus erzeugt beispielsweise eine Prüfsumme mit einer Länge von 128-Bit. Die Änderung des Bitmusters einer Datei führt zu einer anderen Prüfsumme. Um auszuschließen, dass eine Änderung zufällig zu demselben Bitmuster führt, können mehrere Prüfsummen, die auf verschiedenen Algorithmen beruhen, eingesetzt werden. Im SLUBArchiv.digital werden deshalb für jede Datei drei Prüfsummen (MD5, SHA1 und CRC32) verwendet.
Diese Prüfsummen werden im Pre-Ingest in die Metadaten eingetragen, die beim Ingest an die Software Rosetta übergeben und überprüft werden.

Monitoring

Datenbasiertes Monitoring

Da es technisch nicht möglich ist, den Datenbestand regelmäßig in ihrer Gesamtheit auf Integrität zu prüfen, hat sich die SLUB entschlossen, regelmäßig einen repräsentativen Teil der Daten im Permanentspeicher zu prüfen. Über das Jahr verteilt prüft das SLUBArchiv.digital deshalb die Integrität seines Datenbestandes anhand einer Stichprobe, die einen Umfang von 1% aller im Archiv gespeicherten digitalen Objekte hat. Die Auswahl erfolgt nach dem Zufallsprinzip. Sie wird gleichverteilt aus der Menge aller digitalen Objekte gezogen, die von der eingesetzten Langzeitarchivsoftware verwaltet werden. Geprüft wird dabei eine von drei Kopien, die das Langzeitarchiv von jedem digitalen Objekt speichert.

Die Integritätsprüfung ist automatisiert und setzt sich aus zwei Teilen zusammen. Im ersten Teil wird das tatsächliche Vorhandensein aller Dateien im Permanentspeichersystem geprüft, die zu den in der Stichprobe enthaltenen digitalen Objekten gehören. Dadurch können beispielweise Inkonsistenzen zwischen dem Permanentspeichersystem und der Datenhaltung der Langzeitarchivsoftware erkannt werden. Der zweite Teil der Prüfung besteht aus einem Prüfsummenvergleich. Dazu werden für jede in der Stichprobe enthaltene Datei Prüfsummen neu berechnet und mit den von der Langzeitarchivsoftware für diese Datei gespeicherten Prüfsummenvergleich verglichen. Stimmen die Prüfsummen nicht überein, erfolgt eine Information an das Team des SLUBArchiv.digital, das den Fehler behandelt.

Tape-Monitoring

Zusätzlich zu diesen Maßnahmen werden die Möglichkeiten von IBM Spectrum Protect (TSM) genutzt, um die Datenintegrität zu gewährleisten und zu prüfen. Dazu steht für die Bandlaufwerke die Logical Block Protection (LBP) zur Verfügung, bei der der TSM-Server über jeden logischen Block (ein Block hat die Größe 256kB) eine Cyclic Redundancy Checksum (CRC) berechnet und sie am Ende des Blockes auf die Speichermedien schreibt. Die Bandlaufwerke validieren mit diesen CRC-Summen bei jedem Lese-/Schreibvorgang die Daten.

Vorgehen im Fehlerfall

Wenn bei der regelmäßigen Überprüfung der Testdaten ein Prüfsummenfehler auftritt, so werden auch die Archivdaten auf dem betroffenen Medium und die Tagesproduktion geprüft und ggf. aus einer intakten Sicherungskopie wiederhergestellt. Je nach individuellem Fehlerbild werden auch die Tagesproduktionen der vorangegangenen und darauffolgenden Tage auf Fehler untersucht und ggf. repariert. Außerdem wird der Fehler für die statistische Auswertung erfasst.