zum Inhalt springen

DFG-Projekt "Digitale Rätoromanische Chrestomathie"

Vorgehen

In der ersten Projektphase wird zunächst die Datengrundlage für die spätere Tiefenerschließung vervollständigt. Grundlage für die digitale Tiefenerschließung sind zum einen Digitalisate der Romanischen Forschungen, die im Projekt Digizeitschriften (siehe www.digizeitschriften.de) durch die SUB Göttingen erstellt wurden. Zum anderen werden im Projekt Faksimiles zu Band 14 und 15 der Neuedition des Octopus-Verlag (Chur) erstellt. Die Vorlagen werden mittels Buchscanner durch die USB Köln in einer Auflösung von 600 dpi eingescannt und als unkomprimierte TIFF-Dateien gespeichert. Im Anschluss an den Scanvorgang werden die Bilddateien für die OCR aufbereitet, indem sie elektronisch zugeschnitten und jeweils in einer eigenen Bilddatei gespeichert werden, die mit einem eindeutigen Dateinamen versehen wird, der die Herkunftsdaten wie Ausgabe, Band und Seitenzahl enthält. Abschließend erfolgt die Zuordnung von Metadaten, die neben bibliographischen Angaben u.a. auch Angaben über die Qualität der Digitalisierung und zum Rechtestatus enthalten. Das hierbei eingesetzte Schema wird aus dem Digizeitschriften-Projekt übernommen, dadurch ist die Homogenität des Korpus an Bilddateien gegeben.

Für die Korrektur der Volltexte wird die Sprachgemeinschaft einbezogen. Hierfür wird in der zweiten Projektphase eine Wiki-Infrastruktur erstellt, mittels derer Korrekturen der durch OCR gewonnenen Texte interaktiv vorgenommen werden können. Die Konzeption der Benutzeroberfläche umfasst den Entwurf unterschiedlicher Views. U.a. sollen die verschiedenen Varietäten und Idiome einzeln zugreifbar gemacht werden, alle Texte sollten sowohl mit als auch ohne Auszeichnung angezeigt werden, ebenso sollen die Fehlervermutungen aus der OCR angezeigt werden und spezielle Suchfunktionen auf Grundlage der Metadaten integriert werden. Dabei sind das Digitalisat und der jeweilige tiefendigitalisierte Text im Web stets gemeinsam zu präsentieren. Eine Versionierung erfüllt neben einer Archivierung des Korrekturvorgangs v.a. die Funktion die Datensicherheit zu gewährleisten. Eine Benutzerverwaltung erfüllt zudem die Aufgabe, die Korrekturen auch in Zusammenarbeit mit der Societad Retorumantscha nachvollziehbar und kontrollierbar zu halten. Eine zusätzliche Kontrolle erfolgt nach Wiki-Prinzipien durch die bünderromanische Sprachgemeinschaft.

Die dritte Projektphase umfasst mehrere Schritte. Zusätzlich zur reinen Textdigitalisierung mittels OCR werden auch typographische Besonderheiten und Textstrukturen (Überschriften, Absätze, Fußnoten etc.) erfasst und mit XML-fähigen Tags ausgezeichnet. Im Anschluss an die OCR werden sowohl die Digitalisate als auch die Volltexte durch weitere, jeweils inhaltsspezifische Metadaten ergänzt (enthaltene Varietäten, Texttyp, etc). Wegen der hohen diachronen, diatopischen, ortho- und typographischen Varianz der Rätoromanischen Chrestomathie ist es zweckmäßig, die OCR iterativ vorzunehmen. Dabei werden zunächst Teile von Texteinheiten verarbeitet. Diese Texteinheiten sind durch die Metadaten (in diachroner, diatopischer, ortho- und typographischer Hinsicht) konsistent gekennzeichnet. Teile dieser Texteinheiten dienen dem Training der OCR und der Erstellung von spezifischen Korrekturwörterbüchern. In anschließenden Schritten wird die OCR dann auf die gesamten Texteinheiten ausgedehnt. Dieses Vorgehen ermöglicht es, die jeweiligen Sprach- und Textvarietäten weniger fehlerbehaftet zu tiefendigitalisieren als es einer "schmutzigen", auf das gesamte Textkorpus bezogenen OCR möglich wäre.

In der gleichfalls mehrschrittigen vierten Projektphase werden zwei Strategien kombiniert: Zum einen sollen die mittels OCR erstellten Texte über das in der zweiten Phase erstellte Wiki der Sprechergemeinschaft schrittweise zugänglich gemacht werden, damit diese im Sinne eines Web 2.0-Projektes manuelle Korrekturen vornehmen kann. Parallel dazu wird die Sprachliche Informationsverarbeitung als weitere Strategie (teil-)automatisierte Verfahren in das Wiki integrieren. Eine Integration der beiden Ansätze kann z.B. dazu eingesetzt werden, dem Nutzer nach einer vorgenommenen Korrektur Verbesserungsvorschläge an anderen, gleichen oder ähnlichen Stellen des Textes vorzuschlagen. Abschließend werden die erarbeiteten Erschließungstechniken zusammengeführt und die Ergebnisse veröffentlicht. Hierfür werden die im Zuge der Begleitforschungen entwickelten linguistischen Korrektur- und Auszeichnungstechniken in das System Tesla integriert, so dass sie gemeinsam mit den Texten zur Verfügung gestellt werden können. Desweiteren werden spezialisierte Suchindizes für erweiterte Suchfunktionen in das Wiki integriert, um die korrigierten Texte über den Projektzeitraum hinaus auch für erweiterte Nutzerkreise zugänglich zu machen.