Wissenschaftler der Universität Leipzig geben Anfang März kurz vor der Leipziger Buchmesse ein Häufigkeitswörterbuch für die englische Sprache heraus. Erarbeitet wurde es von dem Informatiker Prof. Dr. Uwe Quasthoff, der Linguistin und Anglistin Prof. Dr. Sabine Fiedler und der isländischen Computerlinguistin Dr. Erla Hallsteinsdóttir von der Süddänischen Universität Odense.
Nachdem sie im September vergangenen Jahres bereits das erste Häufigkeitswörterbuch Deutsch herausgebracht haben, ist die englische Version nun das zweite Nachschlagewerk dieser Art. "Es richtet sich vor allem an Linguisten, die Untersuchungen auf der Grundlage dieser Daten machen wollen, aber auch an Softwareentwickler, die sich auf Sprache spezialisiert haben, beispielsweise Diktierprogramme erstellen", erläutert Prof. Quasthoff.
Eine weitere Zielgruppe seien Experten, die Wörterbücher erstellen und immer auf der Suche nach fehlenden Begriffen sind. "Das Häufigkeitswörterbuch ist auch der Rohstoff für viele andere Dinge", berichtet der Fachmann für automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig. Dort wird mittlerweile fast alles an Texten gesammelt, was im World Wide Web verfügbar ist - und das in weit mehr als 100 Sprachen. "Wir nehmen alles mit einem gewissen Qualitätsstandard und kommen am Tag an 20 Millionen Websites vorbei", berichtet Quasthoff.
Danach werde der gesammelte Wortschatz noch einmal vom Computer gefiltert, Unbrauchbares aussortiert. Allein für das deutsche Häufigkeitswörterbuch, das im Leipziger Universitätsverlag erschienen ist, seien 228 Millionen Sätze ausgewertet und 3,6 Milliarden Wörter verarbeitet worden. Daraus wurden die häufigsten eine Million Wörter ermittelt und mit den Angaben zu ihrer Frequenz versehen. Diese sind auf der beiliegenden CD-ROM zu finden, das Buch enthält aus Platzgründen nur Angaben zu den häufigsten 10.000 Wörtern. "Je mehr Material man hat, desto sicherer sind die Aussagen, die man treffen kann", weiß der Experte aus Erfahrung. Im Deutschen, so sagt er, seien "der", "die"
sowie "und" die am häufigsten verwendeten Wörter.
Die von den drei Herausgebern ins Leben gerufene Reihe "Frequency Dictionaries" habe das Ziel, Wörterbücher mit vergleichbaren Häufigkeitsangaben für eine möglichst große Zahl verschiedener Sprachen zur Verfügung zu stellen - in gedruckter und elektronischer Fassung. "Wir wollen die Reihe fortsetzen, dabei kleine und große Sprachen berücksichtigen. Band drei soll ein isländisches Häufigkeitswörterbuch werden", sagt Prof. Quasthoff. Dabei werde Muttersprachlerin und Mitherausgeberin Erla Hallsteinsdóttir eine wichtige Rolle spielen. Sie hat an der Universität Leipzig studiert und 2001 im Bereich Germanistik promoviert.
Es gebe zwar bereits eine Menge Häufigkeitswörterbücher auf dem Markt, erklärt er. Diese enthielten aber in der Regel nur wenige tausend Wörter und richteten sich eher an Menschen, die sich den Wortschatz der jeweiligen Sprache aneignen wollen. "Dafür ist unser Wörterbuch nur bedingt geeignet. Wir wollen zuverlässige Informationen für den bisher nicht untersuchten Bereich der seltenen Wörter liefern", erklärt der Informatiker.
------------------------------------------------------------
Weitere Informationen:
Prof. Dr. Uwe Quasthoff
Institut für Informatik, Abt. Automatische Sprachverarbeitung
Telefon: +49 341 97-32230
E-Mail: quasthoff@informatik.uni-leipzig.de
www.wortschatz.uni-leipzig.de; www.corpora.informatik.uni-leipzig.de
Prof. Dr. Sabine Fiedler
Institut für Anglistik, Abt. Sprachwissenschaft
Telefon: +49 341 97-37341
E-Mail: sfiedler@rz.uni-leipzig.de
Merkmale dieser Pressemitteilung:
Journalisten
Sprache / Literatur
überregional
Kooperationen, Wissenschaftliche Publikationen
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).