idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
02/08/2023 18:33

KI verbessern: Informatiker spüren Schwächen in Algorithmen des Maschinellen Lernens auf

Friederike Meyer zu Tittingdorf Pressestelle der Universität des Saarlandes
Universität des Saarlandes

    Das Maschinelle Lernen ist die größte Revolution in der Informatik seit Jahrzehnten. Dank lernender Algorithmen können Computer auch bei abstrakten Aufgaben aufsehenerregende Leistungen vollbringen. Aber, wie dem Menschen, unterlaufen den Computern dabei Fehler – und zu verstehen, warum ein Machine-Learning-Algorithmus bestimmte Fehler macht, zählt zu den wesentlichen Herausforderungen der modernen Informatik. Hier setzen Michael Hedderich und Jonas Fischer mit ihrer Forschung an. Sie haben eine Software entwickelt, mit der Schwächen in hochkomplexen Machine-Learning-Algorithmen aufgespürt und dadurch behoben werden können.

    Mithilfe von Algorithmen des Maschinellen Lernens können Computer erstaunliche Leistungen vollbringen, auch in Domänen, die man bisher nur dem Menschen zugeschrieben hat – wie zum Beispiel der Sprache und Bildenden Kunst. Die Rechenverfahren basieren auf sogenannten künstlichen neuronalen Netzen. „Dabei handelt es sich um Netzwerke mathematischer Funktionen, die eine Eingabe anhand bestimmter, anpassbarer Parameter gewichten und daraus einen Output generieren“, erklärt Informatiker Michael Hedderich, der an der Universität des Saarlandes und der Cornell University in den USA forscht. Diese Funktionen, Neuronen genannt, werden hintereinandergeschaltet und mithilfe von Daten trainiert, sodass die Computer beispielsweise in der Lage sind, auf Millionen von Fotos die Katzen herauszufiltern oder täuschend echt wirkende Dialoge mit Menschen zu führen.

    „Einer der modernsten und aktuell viel zitierten Textsynthese-Algorithmen der Welt, GPT-3 von OpenAI, verarbeitet Eingaben anhand von 175 Milliarden Parametern, bevor ein Ergebnis ausgegeben wird. Für einen Menschen ist es fast unmöglich, dies nachzuvollziehen und zu verstehen, wo Fehler passieren“, sagt Jonas Fischer, der derzeit Postdoktorand an der Harvard University ist. Bisheriger Stand der Technik war es, die Ausgaben eines Machine-Learning-Algorithmus auf Fehler zu analysieren und diese Fehler einzeln aufzulisten. Dann war es Aufgabe von Experten, in den Datensätzen, die problemlos Tausende von Einträgen enthalten können, Muster zu finden. „In unserer neuen Software ‚PyPremise‘ nutzen wir Techniken des Data Mining, um diese Fehlerdatensätze automatisiert nach bestimmten Merkmalskombinationen zu durchsuchen und diese am Ende gebündelt als verständliche ‚Fehlerkategorien‘ auszugeben. Anstatt also jeden Fehler einzeln aufzuzählen, ist unsere Software in der Lage, Fehler auf einer abstrakteren Ebene zusammenzufassen und Aussagen zu treffen wie: ‚Dein ML-Algorithmus hat Probleme mit Formulierungen, welche die Frage ‚Wie viel‘ beinhalten. Das ist ablesbar an den fehlerhaften Ausgaben in den Fällen X, Y und Z‘“, erläutert Michael Hedderich.

    Getestet haben die Saarbrücker Informatiker ihre Software sowohl an synthetischen als auch an echten, in der Praxis eingesetzten Datensätzen. Dabei konnten sie zeigen, dass ihr Verfahren auf sehr große Datensätze mit vielen verschiedenen Eigenschaften der einzelnen Datenpunkte skaliert und verlässliche Ergebnisse liefert. „Die damit gewonnenen Informationen über die Schwachpunkte eines Machine-Learning-Algorithmus können die Betreiber dann verwenden, um beispielsweise ihre Trainingsdaten zu überarbeiten und so Fehler im System zu beheben“, erläutert Jonas Fischer. Das von den beiden Informatikern entwickelte Software-Werkzeug bezieht sich zunächst nur auf Algorithmen im Bereich der Sprachverarbeitung. Ihr Ziel ist aber grundsätzlich, das Tool so zu erweitern, dass es auch auf andere Domänen angewendet werden kann.

    Michael Hedderich ist Informatiker und arbeitet an der Cornell University sowie in der Forschungsgruppe „Spoken Language Systems“ von Computerlinguistik-Professor Dietrich Klakow an der Universität des Saarlandes. Jonas Fischer promovierte bis letzten Sommer an der Saar-Universität und forschte am Max-Planck-Institut für Informatik, wo er von Professor Jilles Vreeken vom CISPA Helmholtz-Zentrum für Informationssicherheit betreut wurde. Inzwischen ist er Postdoktorand an der Harvard University. Die wissenschaftlichen Grundlagen der Software stellten die Informatiker erstmalig im Juli 2022 auf der „International Conference on Machine Learning (ICML)“ vor, einer der weltweit größten und renommiertesten Fachkonferenzen in diesem Themenfeld. Dort wird nur etwa ein Fünftel der eingereichten wissenschaftlichen Beiträge akzeptiert.

    Hintergrund Saarland Informatics Campus:
    900 Wissenschaftlerinnen und Wissenschaftler (darunter 400 Promovierende) und rund 2500 Studierende aus mehr als 80 Nationen machen den Saarland Informatics Campus (SIC) zu einem der führenden Standorte für Informatik in Deutschland und Europa. Vier weltweit angesehene Forschungsinstitute, nämlich das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), das Max-Planck-Institut für Informatik, das Max-Planck-Institut für Softwaresysteme, das Zentrum für Bioinformatik, sowie die Universität des Saarlandes mit drei vernetzten Fachbereichen und 24 Studiengänge decken das gesamte Themenspektrum der Informatik ab.

    Redaktion:
    Philipp Zapf-Schramm
    Saarland Informatics Campus
    Telefon: +49 681 302-70741
    E-Mail: pzapf@cs.uni-saarland.de


    Contact for scientific information:

    Dr. Michael Hedderich
    Universität des Saarlandes
    Email: mail@michael-hedderich.de
    Tel.: +16073272574

    Dr. Jonas Fischer
    Harvard University
    Email: jfischer@hsph.harvard.edu


    Original publication:

    Originalpublikation vom Juli 2022: „Label-Descriptive Patterns and Their Application to Characterizing Classification Errors“; Michael A. Hedderich, Jonas Fischer, Dietrich Klakow, Jilles Vreeken; Proceedings of the 39th International Conference on Machine Learning, PMLR 162:8691-8707, 2022. https://proceedings.mlr.press/v162/hedderich22a.html


    More information:

    https://github.com/uds-lsv/PyPremise - frei verfügbare Software PyPremise


    Images

    Informatiker Jonas Fischer
    Informatiker Jonas Fischer
    SIC
    Universität des Saarlandes

    Informatiker Michael Hedderich
    Informatiker Michael Hedderich
    SIC
    Universität des Saarlandes


    Criteria of this press release:
    Business and commerce, Journalists, Scientists and scholars
    Information technology, Mechanical engineering
    transregional, national
    Research results, Transfer of Science or Research
    German


     

    Informatiker Jonas Fischer


    For download

    x

    Informatiker Michael Hedderich


    For download

    x

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).