idw - Informationsdienst
Wissenschaft
Forscher des Leipziger Max-Planck-Instituts für evolutionäre Anthropologie und der University of Auckland in Neuseeland haben ein neues Repositorium linguistischer Datensätze aus aller Welt geschaffen. Ziel des Projekts ist es, neue Erkenntnisse über die Entwicklung von Wörtern und Lauten in möglichst vielen der heute weltweit gesprochenen Sprachen zu gewinnen. Aktuell enthält die Lexibank standardisierte lexikalische Daten zu mehr als 2000 Sprachen und ist somit die umfangreichste öffentlich zugängliche Sammlung, die bisher erstellt wurde.
Stimmt es, dass viele Sprachen der Welt für „Mutter“ und „Vater“ Wörter verwenden, die „Mama“ und „Papa“ ähneln? Wenn eine Sprache für „Arm“ und „Hand“ das gleiche Wort benutzt, verwendet sie dann auch nur ein einziges Wort für „Bein“ und „Fuß“? Und wie gelingt es Sprachen, mit relativ wenigen Wörtern so viele Bedeutungen auszudrücken? Ein interdisziplinäres Team von Linguisten, Informatikern und Psychologen hat eine umfangreiche öffentlich verfügbare Datenbank zusammengestellt, mit deren Hilfe diese und viele weitere Fragen computergestützt untersucht werden können.
„Als unsere Abteilung für Sprach- und Kulturevolution 2014 gegründet wurde, stellte ich mein Kollegium vor eine Herausforderung: Auf der Welt gibt es mehr als 7000 Sprachen. Wie wäre es, Datenbanken zu erstellen, mit deren Hilfe es uns gelingen kann, diese sprachliche Vielfalt so umfassend wie möglich zu dokumentieren“, sagt Max-Planck-Direktor Russell Gray. „Inspiriert hat uns Genbank – eine umfangreiche Datenbank mit genomischen Datensätzen aus aller Welt“, so Gray weiter. „Genbank war ein Wendepunkt. Die große Menge an frei verfügbaren Sequenzdaten hat die Art und Weise, wie wir biologische Vielfalt analysieren können, revolutioniert. Wir hoffen, dass Lexibank, die erste von mehreren linguistischen Datenbanken mit Datensätzen aus aller Welt, die wir derzeit zusammentragen, dazu beitragen wird, unser Wissen über die sprachliche Vielfalt auf eine ähnliche Weise zu revolutionieren.“
Neue Standards und neue Software
Lexibank enthält Daten in Form von standardisierten Wortlisten für mehr als 2000 Sprachvarietäten. „Die Arbeit an Lexibank ging mit dem Bestreben nach einheitlicheren Datenformaten in linguistischen Datenbanken einher. Somit dient Lexibank einerseits als groß angelegtes Beispiel für die Vorteile der Standardisierung und andererseits als Katalysator, um die Standardisierung linguistischer Datensätze weiter voranzutreiben“, erklärt Robert Forkel, der den computergestützten Teil der Datenerhebung leitete. „Wir haben uns dazu entschlossen, unsere eigenen Standards, die so genannten Cross-Linguistic Data Formats, zu schaffen, die wir inzwischen schon in einer Vielzahl von Projekten, an denen unsere Abteilung beteiligt ist, erfolgreich eingesetzt haben.“
Dabei werden die von dem Forschungsteam vorgeschlagenen neuen Standards von neuen Software-Tools begleitet, die die Arbeitsabläufe in der Linguistik erheblich erleichtern. „Wir haben neue computergestützte Arbeitsabläufe entwickelt, die es ermöglichen, bestehende Sprachdatensätze vergleichbar zu machen“, sagt Johann-Mattis List, der den praktischen Teil der Datenkuration leitete. „Mit diesen Arbeitsabläufen haben wir die Effizienz der Datenstandardisierung und -kuratierung drastisch erhöht.“
Identifizierung von Sprachevolutionsmustern
Neben der Erfassung und Bereitstellung von standardisierten Sprachdaten hat das Team neue computergestützte Methoden entwickelt, um Fragen zur Evolution sprachlicher Vielfalt zu beantworten. Wie diese Methoden in der Praxis eingesetzt werden können, veranschaulicht die aktuelle Publikation, in der Unterschiede und Gemeinsamkeiten von Sprachen in Bezug auf sechzig verschiedene Merkmale berechnet werden.
„Dank unserer standardisierten Darstellung von Sprachdaten ist es jetzt ganz einfach zu überprüfen, in wie vielen Sprachen Wörter wie ‚Mama‘ und ‚Papa‘ für ‚Mutter‘ und ‚Vater' stehen“, berichtet List. „Es stellt sich heraus, dass dieses Muster tatsächlich in vielen Sprachen der Welt und in sehr unterschiedlichen Regionen zu finden ist“, ergänzt Simon J. Greenhill, einer der Gründer des Lexibank-Projekts. „Nicht alle Sprachen, die diesem Muster folgen, sind eng miteinander verwandt. Das könnte auf eine unabhängige, parallele Evolution von Sprache hindeuten, so wie es der große Linguist Roman Jakobson bereits 1968 zur Diskussion stellte.“
Datenzuwachs und Entwicklung neuer Methoden
Mithilfe der neuen Datensammlung und der automatischen Berechnung von Sprachmerkmalen können nun viele weitere Fragen zur Vielfalt und Evolution von Sprache im Detail erforscht werden. „Natürlich endet die Analyse nicht mit den Beispielen, die wir in unserer Arbeit vorstellen“, sagt List. „Ganz im Gegenteil möchten wir Menschen aus der Linguistik, der Psychologie und den Evolutionswissenschaften dazu ermutigen, anknüpfend an unsere Beispiele, die Datenbank mit neuen Datensätzen zu ‚füttern‘ und neue Methoden zu entwickeln“, ergänzt Forkel.
Schon in ihrer aktuellen Publikation präsentieren die Autoren interessante Ergebnisse, die weiter erforscht werden sollten. „Als wir untersuchten, welche Sprachen mit einem einzigen Wort für 'Arm' und 'Hand' auskamen, stellten wir fest, dass diese Sprachen oft auch das gleiche Wort für 'Bein' und 'Fuß' verwenden", berichtet List. „Was wie ein dummer Zufall erscheint, zeigt doch, dass menschliche Sprache in ihrer Gesamtheit oft viel strukturierter ist als man denken könnte, wenn man eine Sprache isoliert betrachtet.“
PD Dr. Johann-Mattis List
Max-Planck-Institut für evolutionäre Anthropologie, Leipzig
+49 341 3550-283
mattis_list@eva.mpg.de
Prof. Dr. Russell Gray
Max-Planck-Institut für evolutionäre Anthropologie, Leipzig
+49 341 3550-259
russell_gray@eva.mpg.de
List, Johann-Mattis; Forkel, Robert; Greenhill, Simon J.; Rzymski, Christoph; Englisch, Johannes; Gray, Russell D.
Lexibank, A public repository of standardized wordlists with computed phonological and lexical features
Scientific Data, 16. Juni 2022, https://doi.org/10.1038/s41597-022-01432-0
Viele Sprachen der Welt verwenden Wörter wie „Mama“ und „Papa“ für “Mutter” und “Vater”. Sprachen, d ...
© J.-M. List
Viele Sprachen, die für „Arm” und „Hand” nur ein Wort haben (rot markiert), verwenden auch für „Bein ...
© J.-M. List, R. Forkel
Criteria of this press release:
Journalists
Information technology, Language / literature, Psychology
transregional, national
Research results
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).