Moderne Algorithmen eröffnen neue Potenziale für Historiker*innen
Früher beugten sich Wissenschaftshistoriker*innen über dicke staubige Bücher. Dr. Matteo Valleriani, Gruppenleiter am Max-Planck-Institut für Wissenschaftsgeschichte in Berlin, Honorarprofessor an der TU Berlin und Fellow am Berlin Institute for the Foundations of Learning and Data (BIFOLD), nutzt digitalisierte Daten aus historischen Werken und beschäftigt Algorithmen, diese anschließend zu gruppieren und zu analysieren. Computational History heißt das Stichwort. Ein Ziel seiner Forschung ist die Erschließung der Mechanismen der Homogenisierung des kosmologischen Wissens im Rahmen von wissenschaftshistorischen Studien.
In einem von BIFOLD mitfinanzierten Projekt erforscht er Aspekte der Evolution des Wissenssystems und die Etablierung einer gemeinsamen wissenschaftlichen Identität in Europa in der Zeit zwischen dem 13. und dem 17 Jahrhundert. Im Rahmen dieses Projekts co-entwickelt und implementiert er in Kooperation mit Kolleg*innen vom Max-Planck-Institut für die Physik der komplexen Systeme Dresden auch sogenannte empirische, multi-layers Netzwerke, die es ermöglichen, riesige Mengen an Daten auszuwerten.
In der ersten Hälfte des 13. Jahrhunderts verfasste Johannes de Sacrobosco in Paris einen handgeschriebenen Text mit dem Titel „Tractatus de sphaera“, ein zentraler Text zur geozentrischen Kosmologie. Es handelt sich um eine einfache, spätmittelalterliche Beschreibung des geozentrischen Kosmos, die Elemente des aristotelischen und des ptolemäischen Weltbildes verbindet.
„Diese Zusammenstellung des Wissens der Zeit ist die Folge eines aufkommenden intellektuellen Interesses; sie zeigt ein im 13. Jahrhundert entstandenes kulturelles Bedürfnis nach dem Erwerb von Wissen in Astronomie und Kosmologie auf qualitativer und deskriptiver Basis – begleitet und getrieben von dem damals aufkommenden europäischen Trend, eigene Universitäten zu etablieren und diese zu vernetzen“, beschreibt Matteo Valleriani. Der Tractatus de sphaera wurde in den folgenden Jahrzehnten immer wieder kommentiert, ergänzt und korrigiert – blieb aber bis zum 17. Jahrhundert eine Pflichtlektüre an allen europäischen Universitäten.
Aus der Zeit von 1472 bis 1650 liegen den Wissenschaftler*innen 359 verschiedene, gedruckte Lehrbücher in digitaler Kopie vor, die diesen Text in abgewandelten Formen enthalten. In diesen knapp 180 Jahren gründeten sich in Europa rund 30 neue Universitäten. Universalsprache der Gelehrten war Latein – nicht zuletzt deshalb hatte Wissen damals bereits eine hohe Mobilität. „Ein einführender Kurs in Astronomie war zu dieser Zeit Pflichtprogramm für alle Studierenden in Europa“, so der Experte. Als überzeugter Europäer interessiert mich vor allem, wie auf diese Weise ein gemeinsames, europäisches Wissen entstanden ist“, erzählt Matteo Valleriani.
Alle 359 Bücher zusammen verfügen über rund 74.000 Seiten – ein Text- und Bildvolumen, das kein Mensch sichten und analysieren kann. Auch das Team um Matteo Valleriani musste diesen ungeheuren Daten-Corpus, der aus ganz unterschiedlichen digitalen Quellen stammt, erstmal reinigen, sortieren und standardisieren, um ihn für Algorithmen überhaupt zugänglich zu machen. Dazu arbeitet der Wissenschaftshistoriker eng mit den Kolleg*innen aus dem Maschinellen Lernen von BIFOLD zusammen. Die Daten wurden zuerst in Text, Bild oder Tabelle eingeteilt. Die Texte wurden danach in wiederkehrende Textteile zerlegt und nach einer spezifischen semantischen Taxonomie organisiert, die die frühneuzeitlichen Produktionsweisen von wissenschaftlichem Wissen widerspiegelt. Jede der über 20.000 wissenschaftlichen Illustrationen musste mit den umfangreichen Metadaten der Editionen und ihrer Textteile verbunden werden. Daneben fanden sich über 11.000 Tabellen in dem sogenannten Sphaera Corpus. „Für die Analyse der Tabellen haben wir einen Algorithmus entwickelt, der die Tabellen so strukturiert, dass sie in mehrere Gruppen mit ähnlichen Merkmalen eingeteilt werden können. Das ermöglicht es uns jetzt, weitere Analyseverfahren zu nutzen, um die Gruppen untereinander zu vergleichen“, so Matteo Valleriani. Was so einfach klingt, birgt zahllose technische Schwierigkeiten: „Die Entwicklung von geeigneten Algorithmen wird nicht zuletzt durch vier Fehlerquellen erschwert. Die Bücher aus der Zeit enthalten viele Druckfehler, sodann sind die Bücher in sehr unterschiedlichem Zustand, teilweise schwer zu digitalisieren und zusätzlich sind die elektronischen Kopien von sehr unterschiedlicher Qualität. Und: Jeder Drucker verwendete damals eine eigene Schriftart, so dass unsere Algorithmen nahezu einzeln für jeden Drucker trainiert werden muss, damit sie die Daten überhaupt erkennen können.“
Den Transformationsprozess des Ursprungstextes in den 359 Büchern aus rund 180 Jahren zu verfolgen und die Wissensevolution zu formalisieren, setzt voraus, dass die Wissenschaftler*innen genau verstehen, wie das Wissen sich veränderte und am Ende immer homogener wurde. „Wenn wir datenbasierte Aussagen treffen wollen, benötigen wir eine intelligente Synthese von Maschinellem Lernen mit der Arbeitsweise von Historikern. Die ersten Algorithmen, die solche Daten überhaupt analysieren können, werden wir jetzt publizieren. Weitere sollen im Rahmen der fortbestehenden Kooperation mit BIFOLD folgen“, erzählt Matteo Valleriani.
Weiterführende Informationen:
https://sphaera.mpiwg-berlin.mpg.de/
Publikationen:
Building and Interpreting Deep Similarity Models. IEEE Transactions on Pattern Analysis and Machine Intelligence. https://doi.org/10.1109/TPAMI.2020.3020738
Evolution and Transformation of Early Modern Cosmological Knowledge: A Network Study. Scientific Reports - Nature. https://doi.org/10.1038/s41598-020-76916-3
Weitere Informationen erteilen Ihnen gern:
Dr. Matteo Valleriani
TU Berlin
Hon-Prof. am Institut für Philosophie, Literatur-, Wissenschafts- & Technikgeschichte
Tel.: 0049 (0)30 22 667 128
E-Mail: valleriani@mpiwg-berlin.mpg.de
Criteria of this press release:
Journalists, Scientists and scholars
History / archaeology
transregional, national
Research results, Scientific Publications
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).