Kitodo-Workflow

Die folgende Abbildung visualisiert den Kitodo Workflow.

Vorüberlegungen

 

Für die im Ergebnis des Kitodo-Workflows entstandenen digitalen Dokumente sichert die SLUB die Langzeitverfügbarkeit für 50 Jahre und mehr zu. In diesem Zeitraum sind perspektivisch Konvertierungen in ein in der Zukunft aktuelles Datenformat notwendig. Für die Formatkonvertierung ist es notwendig, die Eigenschaften der Materialien zu bestimmen, die erhalten bleiben sollen. Diese Eigenschaften werden als signifikante Eigenschaften bezeichnet.
Die Festlegung der signifikanten Eigenschaften für den Kitodo-Workflow erfolgte anhand der Anforderungen aus den Nutzungsszenarien für diese Digitalisate.

Nutzungsszenario: Lesen und Anschauen

Das wichtigste Ziel der Digitalisierung historischer Printmaterialien ist es, den Nutzern diese Dokumente unabhängig von Ort und Zeit zugänglich zu machen und damit natürlich auch die Originale zu schonen. Die optische Lesbarkeit der digitalisierten Dokumente ist somit eine wichtige Eigenschaft. Um diese Eigenschaft zu sichern, muss die Auflösung mindestens 100dpi betragen und ein hoher Kontrast erhalten werden.

Nutzungsszenario: Maschinelle Verarbeitbarkeit

Ein weiteres wichtiges Nutzungsszenario ist die maschinelle Verarbeitbarkeit der digitalisierten Dokumente. Eine automatische OCR-Aufbereitung erlaubt beispielsweise das effiziente Auffinden von Dokumenten basierend auf deren Inhalt und die Anzeige des relevanten Textteils (unter Verwendung von Wortkoordinaten). Aber auch statistische Auswertungen durch Wissenschaftler z.B. linguistische Analysen sind so möglich. Für die maschinelle Verarbeitbarkeit muss die Auflösung mindestens 300dpi betragen, bei Frakturschrift sind eventuell sogar 400dpi nötig. Die Farb- bzw. Graustufeninformation muss ebenfalls erhalten bleiben, um die Fehlerrate niedriger zu halten. Um eine semantische Suche zu ermöglichen, ist die logische Struktur des digitalen Dokumentes erhalten.

Nutzungsszenario: Bibliographische Einordnung

Um die Dokumente unter verschiedenen bibliographischen Aspekten zu finden, müssen die bibliographischen Metadaten erhalten werden. Dynamische Daten wie LinkedData sind davon ausgenommen. Es muss sichergestellt sein, dass man allein aus den Archivdaten notfalls einen, wenn auch rudimentären, Katalog aufbauen kann, der eine Basisrecherche über diese Dokumente nach Autor, Erscheinungsjahr, Titel, Verlag, Medienart und ggf. Serieninformationen ermöglicht. Persistente Identifikatoren sind ebenfalls zu erhalten (PPN, URN, DOI).

Nutzungsszenario: Reproduktion

Ein weiteres Szenario ist die Erstellung einer möglichst originalgetreuen Kopie insbesondere zum Zweck der Bestandserhaltung, aber auch für Veröffentlichungen. Dafür ist es notwendig, die Originalgröße, die Farben und die Details zu erhalten. Die Auflösung sollte dementsprechend mindestens 600dpi betragen, der Farbraum als Profil hinterlegt sein und die Scanauflösung, Pixelzahl und ggf. bei fotografierten Digitalisaten die Objektivdaten erhalten werden. Die physische Struktur d.h. die Zuordnung einer Scandatei zu einer Seite des Originals muss ebenfalls erhalten bleiben, damit die korrekte Anordnung der Seiten in der Reproduktion sichergestellt werden kann.  

Signifikante Eigenschaften

Aus den oben genannten Nutzungsszenarien hat die SLUB für die im Kitodo-Workflow produzierten Digitalisate im TIFF-Format die folgenden signifikanten Eigenschaften festgelegt:

  • Auflösung mind. 300dpi, bei einer Digitalisierung aus Bestandserhaltungsgründen muss die Auflösung 600dpi betragen.
  • Erhalt der Informationen der baseline tiff-Tags und der folgenden zusätzlichen tiff-Tags Copyright, XMP und ICC
  • Erhalt der Informationen der zusätzlichen tiff-Tags (wenn vorhanden): Exif IFD, Colormap, Extrasamples

Eine genaue Aufstellung entnehmen Sie bitte der "Handreichung TIFF".

Für die bibliographischen Metadaten, die derzeit im METS/MODS-Format vorliegen, müssen folgende Daten erhalten werden:

  • Bibliographischer Grundsatz an Metadaten, wie Titel, Autor, Erscheinungsjahr, Verlag, Persistente ID, Prüfsummen des Original-Scans, Medienart (Buch/Karte/Zeitschrift), Serie/Reihe
  • Logische Struktur (Kapitel etc.)
  • Physische Struktur (Zuordnung einer Datei zu einer Seite des Originaldokumentes)