idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Grafik: idw-Logo

idw - Informationsdienst
Wissenschaft

Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store



Instance:
Share on: 
03/31/2023 13:16

Wie man sensible Unternehmensdaten für maschinelles Lernen nutzen kann

Dr. Corinna Dahm-Brey Presse & Kommunikation
Carl von Ossietzky-Universität Oldenburg

    Unternehmensdaten wie E-Mails, interne Berichte, die Inhalte von Datenbanken oder andere Datensätze sind oft vertraulich. Solche sensiblen Daten könnten sich dennoch zum Training von KI-Modellen verwenden lassen – mit dem Verfahren des föderalen Lernens. Einen entsprechenden Prototyp zu entwickeln und zu evaluieren ist Ziel einer Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR).

    Wie können Wirtschaftsunternehmen auch sensible Daten nutzen, um Modelle der Künstlichen Intelligenz zu trainieren? Eine Forschungskooperation der Universität Oldenburg mit dem Institut für KI-Sicherheit des Deutschen Zentrums für Luft- und Raumfahrt (DLR) will dies durch den Ansatz des Föderalen Lernens erreichen. Bei diesem Verfahren bleiben die Trainingsdaten an ihrem jeweiligen Speicherort und werden nicht, wie sonst üblich, an einem zentralen Ort zusammengeführt. Das Vorhaben ColDa (Collaborative Machine Learning for Data Value Creation) unter Leitung des Oldenburger Wirtschaftsinformatikers Prof. Dr. Jorge Marx Gómez vom Department für Informatik und Dr. Michael Karl vom DLR hat eine Laufzeit von drei Jahren und wird durch das DLR mit rund 450.000 Euro gefördert.

    Gute Trainingsdaten sind für maschinelles Lernen – ein Verfahren der Künstlichen Intelligenz (KI) – von grundlegender Bedeutung. Mit je mehr und vielfältigeren Daten diese Programme gefüttert werden, desto besser können sie später etwa Muster in Bildern oder Zusammenhänge in Texten erkennen. Auch Unternehmen nutzen maschinelles Lernen für verschiedene Aufgaben. „Dabei stehen sie häufig vor dem Problem, dass die zum Training der Modelle benötigten Daten unter den Datenschutz fallen oder auch Geschäftsgeheimnisse enthalten. Es ist daher oft nicht ohne weiteres möglich, sie zentral etwa in einem Rechenzentrum zu speichern, wie es beim maschinellen Lernen sonst üblich ist“, erläutert Prof. Dr. Frank Köster, Gründungsdirektor des DLR-Instituts für KI-Sicherheit.

    Dieses Problem will das Team um Marx Gómez durch das sogenannte föderale Lernen lösen. Die Daten bleiben zum Training des Modells an ihrem lokalen Speicherort und müssen nicht weitergegeben werden. „Auf diese Weise können sensible Unternehmensdaten für maschinelles Lernen genutzt werden, ohne ihre Schutzwürdigkeit zu gefährden“, erläutert Projektleiter Marx-Gómez. Das Team konzentriert sich auf die Themen Datenintegration und natürliche Sprachverarbeitung (auf Englisch: Natural Language Processing, abgekürzt NLP).

    Unter Datenintegration verstehen Fachleute das Zusammenführen verschiedener Datenansammlungen in eine einheitliche Struktur. „Der Prozess erfordert nach wie vor oft einen hohen manuellen Aufwand, der durch den Einsatz von KI drastisch reduziert werden kann“, erläutert Projektmitarbeiter Jan-Philipp Awick. Dabei stehen Unternehmen jedoch vor einem Dilemma: Für das Training der KI werden in der Regel mehr Daten benötigt, als ein Unternehmen alleine bereitstellen könnte. Daher müssten mehrere Organisationen ihre Daten austauschen – was aufgrund der Datensensibilität in der Praxis häufig jedoch nicht möglich ist. Das Oldenburger Team untersucht deshalb, wie sich hierbei föderales Lernen einsetzen lässt. Die Forscher wollen zunächst ein Modell konzipieren und anschließend einen Prototyp entwickeln und evaluieren.

    Das zweite Thema des Projekts ist der Einsatz natürlicher Sprachverarbeitung innerhalb von Unternehmen. Diese Technologie erlaubt es Computern, menschliche Sprache zu interpretieren und zu erzeugen. Sie bildet die Grundlage für Chat-Bots wie beispielsweise das derzeit vieldiskutierte Programm Chat GPT. „Die für das Training solcher Bots benötigten Textdaten sind meist allerdings nur eingeschränkt zugänglich“, erklärt der Oldenburger Wirtschaftsinformatiker Gerrit Schumann. Schon innerhalb eines Unternehmens könnten Textdaten wie E-Mails, interne Berichte oder Lieferscheine nicht ohne Weiteres zwischen unterschiedlichen Abteilungen oder Zweigstellen ausgetauscht werden. Auch hier will das Forschungsteam das föderale Lernen erproben – mit dem Ziel, dem Sprachmodell etwa alle lokal verwendeten Vokabeln, Satzstrukturen oder Zusammenhänge beizubringen. Anschließend evaluieren die Forscher den Erfolg ihrer Methode in einem globalen Modell.


    Contact for scientific information:

    Gerrit Schumann, Tel.: 0441/798-4494, E-Mail: gerrit.schumann@uol.de
    Jan-Philipp Awick, Tel. 0441/798-4478, E-Mail: jan-philipp.awick@uol.de


    More information:

    http://uol.de/vlba


    Images

    Criteria of this press release:
    Business and commerce, Journalists, Scientists and scholars, Students, all interested persons
    Economics / business administration, Information technology
    transregional, national
    Cooperation agreements, Research projects
    German


     

    Help

    Search / advanced search of the idw archives
    Combination of search terms

    You can combine search terms with and, or and/or not, e.g. Philo not logy.

    Brackets

    You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).

    Phrases

    Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.

    Selection criteria

    You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).

    If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).