idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
06/13/2017 13:15

OCR: Fortschritte bei der Texterkennung

Robert Emmerich Presse- und Öffentlichkeitsarbeit
Julius-Maximilians-Universität Würzburg

    Auszeichnung für Dr. Uwe Springmann von der Universitätsbibliothek Würzburg: Er erhielt für seine Arbeit im Bereich der automatisierten Texterkennung (OCR) mit Kollegen aus München einen Preis.

    Bei der Digitalisierung historischer Bücher, Urkunden und anderer Schriften spielt die automatische Texterkennung (Optical Character Recognition, OCR) eine wichtige Rolle. Diese Technik erkennt den Text aus gescannten Dokumenten und überführt ihn in eine Form, die sich mit Textverarbeitungsprogrammen weiterverwerten lässt.

    Für seine Arbeit auf diesem Gebiet wurde der neue Leiter der Abteilung Digitalisierung / Kallimachos-Zentrum für Digital Humanities der Universitätsbibliothek Würzburg, Dr. Uwe Springmann, mit seinen Münchener Kollegen Florian Fink und Klaus U. Schulz ausgezeichnet. Auf der Konferenz DATeCH (Digital Access to Textual Cultural Heritage) in Göttingen bekamen die drei den „Best-Paper-Award“ für ihre Arbeit zu nachträglichen Textverbesserungen von OCR-Ergebnissen.

    Ihr ausgezeichnetes Paper heißt „Profiling of OCR’ed Historical Texts Revisited”.

    Weitere Arbeit aus Würzburg präsentiert

    Auf der Konferenz wurde ein weiteres Paper präsentiert und diskutiert, an dem Mitarbeiter der Universität Würzburg beteiligt waren.

    Christian Reul vom Lehrstuhl Informatik VI stellte ein neues Tool zur Vorverarbeitung von Digitalisaten vor. Es kann OCR-Ergebnisse verbessern: „LAREX – A semi-automatic open-source Tool for Layout Analysis and Region Extraction on Early Printed Books”.

    Die neue Software kam in Zusammenarbeit mit der Universitätsbibliothek schon zum Einsatz: In einer Anwendungsstudie wurde ein Werk aus dem Zeitalter des Frühdrucks gescannt, mit LAREX semantisch segmentiert und anschließend mit einer OCR erfasst, die speziell auf dieses Werk trainiert war. Dabei wurde eine Zeichenerkennungsrate von über 97 Prozent erzielt. Dieser hohe Wert ist erst aufgrund der Arbeiten von Springmann und seinen Würzburger Kollegen möglich. Zuvor hielt man es für unmöglich, frühe Drucke (Inkunabeln) mit OCR zu bearbeiten.

    Das Paper von Christian Reul und den beiden Würzburger Unibibliotheksmitarbeitern Marco Dittrich und Martin Gruner heißt “Case Study of a highly automated Layout Analysis and OCR of an incunabulum: ‘Der Heiligen Leben’ (1488)”

    Fakten zur Göttinger Konferenz

    Die Konferenzreihe DATeCH hat sich als internationale Fachtagung für die neuesten Techniken der Digitalisierung etabliert. Sie bringt Forschungsteams und Bibliotheken zusammen, die innovative Ansätze entwickeln, um historische Dokumente zu digitalisieren. 2017 richtete die Staats- und Universitätsbibliothek Göttingen die Veranstaltung aus. Der Schwerpunkt lag auf OCR sowie der Nachkorrektur und Weiterverarbeitung der Daten.

    Die Tagung unterstrich einmal mehr die Bedeutung der Digitalisierung für die Forschung. Die Digitalisierung des kulturellen Erbes ist nicht nur aus konservatorischen Gründen notwendig. Sie liefert auch einen Datenschatz, der automatisiert weiterverarbeitet werden kann.

    Ziel: Digitalisate weltweit öffentlich machen

    Eine Führung im Digitalisierungszentrum der Göttinger Bibliothek rundete die Tagung ab. Fast 200 Terabyte umfasst dort mittlerweile der Bestand an gescannten Büchern. Die Werke stehen in Kooperation mit dem Rechenzentrum der Universität Göttingen jedem Nutzer weltweit kostenfrei zur Verfügung. Dieses Ziel strebt auch die Universitätsbibliothek Würzburg an.

    Kontakt

    Dr. Uwe Springmann, Universitätsbibliothek, Abteilung Digitalisierung / Kallimachos-Zentrum für Digital Humanities, T (0931) 31-85697, uwe.springmann@bibliothek.uni-wuerzburg.de


    More information:

    http://www.kallimachos.de/ Website von Kallimachos


    Images

    Bei der Preisverleihung (von links): Tagungsorganisator Marco Büchler, die Preisträger Uwe Springmann, Klaus U. Schulz und Florian Fink, Tagungsorganisator Apostolos Antonacopoulos.
    Bei der Preisverleihung (von links): Tagungsorganisator Marco Büchler, die Preisträger Uwe Springman ...
    (Foto: Greta Franzini, Digital-Humanities-Center Göttingen)
    None


    Criteria of this press release:
    Journalists, Scientists and scholars, Students
    Information technology
    transregional, national
    Personnel announcements, Research projects
    German


     

    Bei der Preisverleihung (von links): Tagungsorganisator Marco Büchler, die Preisträger Uwe Springmann, Klaus U. Schulz und Florian Fink, Tagungsorganisator Apostolos Antonacopoulos.


    For download

    x

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).