idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instanz:
Teilen: 
29.02.2012 09:10

Wissenschaftler geben Häufigkeitswörterbuch Englisch heraus

Susann Huster Pressestelle
Universität Leipzig

    Wissenschaftler der Universität Leipzig geben Anfang März kurz vor der Leipziger Buchmesse ein Häufigkeitswörterbuch für die englische Sprache heraus. Erarbeitet wurde es von dem Informatiker Prof. Dr. Uwe Quasthoff, der Linguistin und Anglistin Prof. Dr. Sabine Fiedler und der isländischen Computerlinguistin Dr. Erla Hallsteinsdóttir von der Süddänischen Universität Odense.

    Nachdem sie im September vergangenen Jahres bereits das erste Häufigkeitswörterbuch Deutsch herausgebracht haben, ist die englische Version nun das zweite Nachschlagewerk dieser Art. "Es richtet sich vor allem an Linguisten, die Untersuchungen auf der Grundlage dieser Daten machen wollen, aber auch an Softwareentwickler, die sich auf Sprache spezialisiert haben, beispielsweise Diktierprogramme erstellen", erläutert Prof. Quasthoff.
    Eine weitere Zielgruppe seien Experten, die Wörterbücher erstellen und immer auf der Suche nach fehlenden Begriffen sind. "Das Häufigkeitswörterbuch ist auch der Rohstoff für viele andere Dinge", berichtet der Fachmann für automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig. Dort wird mittlerweile fast alles an Texten gesammelt, was im World Wide Web verfügbar ist - und das in weit mehr als 100 Sprachen. "Wir nehmen alles mit einem gewissen Qualitätsstandard und kommen am Tag an 20 Millionen Websites vorbei", berichtet Quasthoff.

    Danach werde der gesammelte Wortschatz noch einmal vom Computer gefiltert, Unbrauchbares aussortiert. Allein für das deutsche Häufigkeitswörterbuch, das im Leipziger Universitätsverlag erschienen ist, seien 228 Millionen Sätze ausgewertet und 3,6 Milliarden Wörter verarbeitet worden. Daraus wurden die häufigsten eine Million Wörter ermittelt und mit den Angaben zu ihrer Frequenz versehen. Diese sind auf der beiliegenden CD-ROM zu finden, das Buch enthält aus Platzgründen nur Angaben zu den häufigsten 10.000 Wörtern. "Je mehr Material man hat, desto sicherer sind die Aussagen, die man treffen kann", weiß der Experte aus Erfahrung. Im Deutschen, so sagt er, seien "der", "die"
    sowie "und" die am häufigsten verwendeten Wörter.

    Die von den drei Herausgebern ins Leben gerufene Reihe "Frequency Dictionaries" habe das Ziel, Wörterbücher mit vergleichbaren Häufigkeitsangaben für eine möglichst große Zahl verschiedener Sprachen zur Verfügung zu stellen - in gedruckter und elektronischer Fassung. "Wir wollen die Reihe fortsetzen, dabei kleine und große Sprachen berücksichtigen. Band drei soll ein isländisches Häufigkeitswörterbuch werden", sagt Prof. Quasthoff. Dabei werde Muttersprachlerin und Mitherausgeberin Erla Hallsteinsdóttir eine wichtige Rolle spielen. Sie hat an der Universität Leipzig studiert und 2001 im Bereich Germanistik promoviert.

    Es gebe zwar bereits eine Menge Häufigkeitswörterbücher auf dem Markt, erklärt er. Diese enthielten aber in der Regel nur wenige tausend Wörter und richteten sich eher an Menschen, die sich den Wortschatz der jeweiligen Sprache aneignen wollen. "Dafür ist unser Wörterbuch nur bedingt geeignet. Wir wollen zuverlässige Informationen für den bisher nicht untersuchten Bereich der seltenen Wörter liefern", erklärt der Informatiker.

    ------------------------------------------------------------

    Weitere Informationen:
    Prof. Dr. Uwe Quasthoff
    Institut für Informatik, Abt. Automatische Sprachverarbeitung
    Telefon: +49 341 97-32230
    E-Mail: quasthoff@informatik.uni-leipzig.de
    www.wortschatz.uni-leipzig.de; www.corpora.informatik.uni-leipzig.de

    Prof. Dr. Sabine Fiedler
    Institut für Anglistik, Abt. Sprachwissenschaft
    Telefon: +49 341 97-37341
    E-Mail: sfiedler@rz.uni-leipzig.de


    Bilder

    Merkmale dieser Pressemitteilung:
    Journalisten
    Sprache / Literatur
    überregional
    Kooperationen, Wissenschaftliche Publikationen
    Deutsch


     

    Hilfe

    Die Suche / Erweiterte Suche im idw-Archiv
    Verknüpfungen

    Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

    Klammern

    Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

    Wortgruppen

    Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

    Auswahlkriterien

    Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

    Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).