Manchmal ist es wichtig, ganz unterschiedliche Dinge in möglichst ähnliche Gruppen zu sortieren: Wissenschaftlich heißt dies „Anticlustering“. Der Psychologe Dr. Martin Papenberg und der Informatiker Prof. Dr. Gunnar Klau von der Heinrich-Heine-Universität Düsseldorf (HHU) haben dazu neue Verfahren entwickelt und diese der Forschungsgemeinde zur Verfügung gestellt. Ihre Ergebnisse stellen sie in der Fachzeitschrift Psychological Methods vor.
Ein Cluster beschreibt eine Gruppe von Elementen, die einander ähnlich sind; verschiedene Cluster unterscheiden sich aber deutlich voneinander. Um solche Gruppen zu finden, führt man eine sogenannte Clusteranalyse durch. Es geht aber auch umgekehrt, dann spricht man vom „Anticlustering“: Dabei will man eine Menge von unterschiedlichen Elementen so aufteilen, dass sich die entstehenden Gruppen selbst ähneln.
Was theoretisch klingt, hat sehr konkrete Anwendungen. Ein aktuell sehr relevantes Beispiel: An der Universität soll eine Klausur geschrieben werden, nur ist der zur Verfügung stehende Raum zu klein für die Menge an Prüflingen. Also müssen mehrere Prüfungen hintereinander angesetzt werden. Dies stellt den Prüfenden vor zwei Herausforderungen: Einerseits müssen die verschiedenen Klausurgruppen unterschiedliche Prüfungsfragen bekommen, damit die späteren Prüflinge keine Tipps von den früher Schreibenden bekommen. Andererseits aber müssen die Klausuren gleich schwer sein, damit alle Prüflinge gleiche Chancen haben. Die Prüfungsfragen in jeder Klausur müssen also ähnlich gewichtet sein.
Der Psychologe Dr. Martin Papenberg vom Institut für Experimentelle Psychologie und der Informatiker Prof. Dr. Gunnar Klau von der Arbeitsgruppe Algorithmische Bioinformatik der HHU haben gemeinsam neue Algorithmen für das Anticlustering entwickelt und deren Leistungsfähigkeit und Genauigkeit erfolgreich überprüft. Sie haben diese Algorithmen dann in einem für Forschende frei verfügbaren R-Paket veröffentlicht; dieses wird bereits in verschiedenen Arbeitsbereichen genutzt. „R“ ist eine Programmiersprache, die vornehmlich für statistische Berechnungen eingesetzt wird. Diese Sprache ist frei nutzbar und kann mit Zusatzpaketen wie dem Modul „anticlust“ [Link: https://github.com/m-Py/anticlust] von Papenberg und Klau erweitert werden.
„Unser neuer Ansatz ist für viele unterschiedliche Bereiche anwendbar“, so Dr. Papenberg: „Gerade auch in meinem Fachgebiet, der Psychologie. Wir entwickeln oft Tests für mehrere Gruppen, die miteinander in Kontakt stehen; diese Tests sollen jeweils den gleichen Schwierigkeitsgrad haben.“
Die Forscher arbeiten seit Kurzem auch mit dem Universitätsklinikum Düsseldorf zusammen, wo das Anticlustering in der Genomsequenzierung eingesetzt werden soll. Hier sind Proben in möglichst heterogene Gruppen aufzuteilen, um die generierten DNA-Fragmente leichter den ursprünglichen Proben zuordnen zu können.
„Wir sehen auch ein Anwendungsfeld im Bereich der Künstlichen Intelligenz-Forschung,“ ergänzt Prof. Klau, „genauer: bei der Aufteilung der Datensätze, die für das maschinelle Lernen genutzt werden.“ Dies ist wichtig, damit sich Lernergebnisse, die mit einem Teil der Daten erzielt worden sind, auch auf andere Datensätze übertragen lassen.
Dr. Martin Papenberg
+49 211 81-15014
Martin.Papenberg@hhu.de
Prof. Dr. Gunnar W. Klau
+49 211 81-10427
gunnar.klau@hhu.de
Papenberg, M., & Klau, G. W. (2020). Using anticlustering to partition data sets into equivalent parts. Psychological Methods. Advance Online Publication. https://doi.org/10.1037/met0000301.
Logo des von Dr. Papenberg und Prof. Klau entwickelten Zusatzpakets „anticlust“, mit dem die Methode ...
Criteria of this press release:
Journalists
Information technology, Psychology
transregional, national
Research results
German
Logo des von Dr. Papenberg und Prof. Klau entwickelten Zusatzpakets „anticlust“, mit dem die Methode ...
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).