idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
13.06.2017 13:15

OCR: Fortschritte bei der Texterkennung

Robert Emmerich Presse- und Öffentlichkeitsarbeit
Julius-Maximilians-Universität Würzburg

    Auszeichnung für Dr. Uwe Springmann von der Universitätsbibliothek Würzburg: Er erhielt für seine Arbeit im Bereich der automatisierten Texterkennung (OCR) mit Kollegen aus München einen Preis.

    Bei der Digitalisierung historischer Bücher, Urkunden und anderer Schriften spielt die automatische Texterkennung (Optical Character Recognition, OCR) eine wichtige Rolle. Diese Technik erkennt den Text aus gescannten Dokumenten und überführt ihn in eine Form, die sich mit Textverarbeitungsprogrammen weiterverwerten lässt.

    Für seine Arbeit auf diesem Gebiet wurde der neue Leiter der Abteilung Digitalisierung / Kallimachos-Zentrum für Digital Humanities der Universitätsbibliothek Würzburg, Dr. Uwe Springmann, mit seinen Münchener Kollegen Florian Fink und Klaus U. Schulz ausgezeichnet. Auf der Konferenz DATeCH (Digital Access to Textual Cultural Heritage) in Göttingen bekamen die drei den „Best-Paper-Award“ für ihre Arbeit zu nachträglichen Textverbesserungen von OCR-Ergebnissen.

    Ihr ausgezeichnetes Paper heißt „Profiling of OCR’ed Historical Texts Revisited”.

    Weitere Arbeit aus Würzburg präsentiert

    Auf der Konferenz wurde ein weiteres Paper präsentiert und diskutiert, an dem Mitarbeiter der Universität Würzburg beteiligt waren.

    Christian Reul vom Lehrstuhl Informatik VI stellte ein neues Tool zur Vorverarbeitung von Digitalisaten vor. Es kann OCR-Ergebnisse verbessern: „LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books”.

    Die neue Software kam in Zusammenarbeit mit der Universitätsbibliothek schon zum Einsatz: In einer Anwendungsstudie wurde ein Werk aus dem Zeitalter des Frühdrucks gescannt, mit LAREX semantisch segmentiert und anschließend mit einer OCR erfasst, die speziell auf dieses Werk trainiert war. Dabei wurde eine Zeichenerkennungsrate von über 97 Prozent erzielt. Dieser hohe Wert ist erst aufgrund der Arbeiten von Springmann und seinen Würzburger Kollegen möglich. Zuvor hielt man es für unmöglich, frühe Drucke (Inkunabeln) mit OCR zu bearbeiten.

    Das Paper von Christian Reul und den beiden Würzburger Unibibliotheksmitarbeitern Marco Dittrich und Martin Gruner heißt “Case Study of a highly automated Layout Analysis and OCR of an incunabulum: ‘Der Heiligen Leben’ (1488)”

    Fakten zur Göttinger Konferenz

    Die Konferenzreihe DATeCH hat sich als internationale Fachtagung für die neuesten Techniken der Digitalisierung etabliert. Sie bringt Forschungsteams und Bibliotheken zusammen, die innovative Ansätze entwickeln, um historische Dokumente zu digitalisieren. 2017 richtete die Staats- und Universitätsbibliothek Göttingen die Veranstaltung aus. Der Schwerpunkt lag auf OCR sowie der Nachkorrektur und Weiterverarbeitung der Daten.

    Die Tagung unterstrich einmal mehr die Bedeutung der Digitalisierung für die Forschung. Die Digitalisierung des kulturellen Erbes ist nicht nur aus konservatorischen Gründen notwendig. Sie liefert auch einen Datenschatz, der automatisiert weiterverarbeitet werden kann.

    Ziel: Digitalisate weltweit öffentlich machen

    Eine Führung im Digitalisierungszentrum der Göttinger Bibliothek rundete die Tagung ab. Fast 200 Terabyte umfasst dort mittlerweile der Bestand an gescannten Büchern. Die Werke stehen in Kooperation mit dem Rechenzentrum der Universität Göttingen jedem Nutzer weltweit kostenfrei zur Verfügung. Dieses Ziel strebt auch die Universitätsbibliothek Würzburg an.

    Kontakt

    Dr. Uwe Springmann, Universitätsbibliothek, Abteilung Digitalisierung / Kallimachos-Zentrum für Digital Humanities, T (0931) 31-85697, uwe.springmann@bibliothek.uni-wuerzburg.de


    Weitere Informationen:

    http://www.kallimachos.de/ Website von Kallimachos


    Bilder

    Bei der Preisverleihung (von links): Tagungsorganisator Marco Büchler, die Preisträger Uwe Springmann, Klaus U. Schulz und Florian Fink, Tagungsorganisator Apostolos Antonacopoulos.
    Bei der Preisverleihung (von links): Tagungsorganisator Marco Büchler, die Preisträger Uwe Springman ...
    (Foto: Greta Franzini, Digital-Humanities-Center Göttingen)
    None


    Merkmale dieser Pressemitteilung:
    Journalisten, Studierende, Wissenschaftler
    Informationstechnik
    überregional
    Forschungsprojekte, Personalia
    Deutsch


     

    Bei der Preisverleihung (von links): Tagungsorganisator Marco Büchler, die Preisträger Uwe Springmann, Klaus U. Schulz und Florian Fink, Tagungsorganisator Apostolos Antonacopoulos.


    Zum Download

    x

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).