DWork – Heidelberger Digitalisierungsworkflow (original) (raw)

http://dwork.uni-hd.de

DWork - Heidelberger Digitalisierungsworkflow

Für die Unterstützung der Arbeitsabläufe bei der Digitalisierung und der Webpräsentation der Werke setzt die Universitätsbibliothek Heidelberg die Eigenentwicklung DWork – Heidelberger Digitalisierungsworkflow ein.

Dabei unterstützt die Software als Web-Applikation sämtliche Einzelschritte des Workflows von der Metadatenerstellung, über die Scanverarbeitung (inkl. Bildkonvertierung und automatische Texterkennung), die Erstellung der Webpräsentation bis hin zur Archivierung der Scans und Metadaten.

Bei der Konzeption von DWork stand neben der Umsetzung der von der Deutschen Forschungsgemeinschaft (DFG) vorgegebenen Richtlinien die Entwicklung einer leicht bedienbaren, transparenten Eingabeoberfläche im Vordergrund.

Module und technische Anforderungen

Technisch besteht die Software aus folgenden Modulen:

  1. Digitalisierungsworkflow
  2. Präsentation
  3. Archivierung
  4. Schnittstelle zu heiEDITIONS (Editionskomponente)
  5. Annotationen und Kommentare
  6. Normdatenserver (in Planung)

Die Software ist in PERL programmiert. Weitere Softwarevoraussetzungen sind:

  1. Webserver: Apache 2.x
  2. Datenbank: MySQL 5.x
  3. Suche in Metadaten und Volltext: SOLR
  4. Annotationsmodul: https://github.com/kba/anno-common und https://github.com/kba/anno-frontend
  5. IIIF-Image-Server: Cantaloupe Image Server
  6. Editionsmodul: eXistdb

Workflow

Die einzelnen Schritte im Workflow (Allgemein – Bibliographie – Sequenz – Struktur – Konvertierung + OCR – Export - Archivierung) werden über ein Karteikartensystem aufgerufen. Der Fortschritt im Arbeitsablauf wird über ein Ampelsystem sichtbar gemacht, so dass jederzeit ein einfacher Überblick möglich ist.

Viewer

Der Viewer für die Faksimile-Darstellung (incl. der Hervorhebung der den Annotationen zugeordneten Zonen) basiert auf der Software SemToNotes. Für die Adressierung der Zonen wird der SVG-Selector verwendet.

OCR-Verarbeitung

Für die OCR-Verarbeitung kommt der Abbyy Finereader für Linux zum Einsatz.

Zur manuellen Korrektur von OCR-Texten finden erste Versuche mit der Software PoCoTo statt.

Aktuelle DWork-Anwender