Seit Ende 2018 entwickeln Saarbrücker Sprachtechnologen in einem internationalen Verbund ein Sprachdialogsystem, das technisch an marktbeherrschende Systeme wie Alexa und Siri heranreicht, aber deutlich besseren Datenschutz bietet. Erste Zwischenergebnisse des COMPRISE-Projekts sind ein Stimmen- und ein Text-Anonymisierer. Beide Werkzeuge stellen sicher, dass sowohl die Nutzerstimmen als auch ihre persönlichen Informationen privat bleiben.
Der Schlüssel für die Verbesserung von Sprachdialogsystemen wie Alexa, Siri und anderen liegt im Sammeln riesiger Mengen an Sprachdaten von Benutzern: Je mehr diese Systeme mit Sprache trainiert werden, desto besser – nützlicher, schneller, treffsicherer – werden sie. Die Chance, die darin liegt, birgt naheliegenderweise gleichzeitig eines der größten Probleme für den Mensch-Maschine-Dialog: der nur sehr schwierig zu garantierende Datenschutz.
Denn einerseits gehört Sprache zu den biometrischen Daten, die dazu verwendet werden können, Nutzer zu identifizieren – auch gegen ihren Willen. Andererseits ist die Menge an Informationen, die aus gesprochener Sprache gewonnen werden kann, schlichtweg erstaunlich: So können Information über die Persönlichkeit, allgemeine Merkmale (Geschlecht, Alter, Ethnie, Herkunft), die aktuelle Verfassung (Gesundheitszustand, Alkohollevel, Aufrichtigkeit) und Vorlieben der Benutzers preisgegeben werden, die sie nur ungern mit einem Unternehmen teilen würden. Im Falle einer Sicherheitslücke könnten solche Informationen von Dritten missbraucht werden.
Eines der Hauptziele von COMPRISE liegt daher in der Entwicklung von Private-by-Design-Sprachtechnologien. Nach Monaten intensiver Arbeit kommt COMPRISE diesem Ziel nun näher, da kürzlich die ersten Werkzeuge des Projekts zum Datenschutz das Licht der Welt erblickt haben.
Der saarländische Anteil besteht darin in der Arbeit des Teams von Dietrich Klakow, Professor für Sprach- und Signalverarbeitung an der Universität des Saarlandes. Hier betreut insbesondere sein Mitarbeiter Dr. Thomas Kleinbauer die Arbeit im COMPRISE-Projekt. „Wir haben nun in einem ersten Zwischenschritt einen Text-Anonymisierer entwickelt. Dieser soll potenziell den Datenschutz bedrohende Worte oder Phrasen in einem Text identifizieren und durch harmlose Alternativen ersetzen, ohne dabei die Struktur des Textes zu verändern“, erklärt der Sprachtechnologe.
Konkrete Fälle, für die eine solche Technologie sinnvoll sein kann, gibt es in Hülle und Fülle. Thomas Kleinbauer nennt einige Beispiele: „Sie kaufen zum bei einem neuen Webshop ein und haben dem System Ihre Kreditkartennummer diktiert. Oder Sie wollen sich über ein potenziell kompromittierendes Thema im Internet funkionieren und stellen entsprechende Suchanfragen, etwa zu Selbsthilfegruppen bei einer tödlichen Krankheit.“
Das Programm würde in solchen Fällen zum Beispiel automatisch die Kreditkartennummer durch eine andere, zufällig generierte Nummer ersetzen oder die konkrete Suchanfrage nach Krankheit und Selbsthilfegruppe durch andere, zufällig erzeugte Wörter ersetzen. Das Gute daran: Die Anonymisierung solcher Daten wäre kein Hindernis dafür, dass die maschinellen Systeme sich weiterhin selbst verbessern könnten. „Die Daten an sich blieben nutzbar“, erklärt Professor Dietrich Klakow. „Gleichzeitig aber wären weniger private Daten auf Servern gespeichert, die außerhalb der Reichweite der Nutzer stehen.“
Ein weiteres Zwischenergebnis, das das INRIA in Lille inzwischen erarbeitet hat, liegt in einem Voice-Transformer-Programm. Dieses kann die Stimme eines Nutzers in die einer zufälligen anderen Person umwandeln. Damit wird die biometrische Identifizierung des ursprünglichen Nutzers wirksam verhindert.
Federführend im COMPRISE-Projekt (Cost-effective, Multilingual, Privacy-driven voice-enabled Services) ist das nationale französische Institut für Informatik und angewandte Mathematik INRIA (www.inria.fr). Neben der Universität des Saarlandes sind außerdem folgende Partner an COMPRISE beteiligt: Netfective Technology SA (Frankreich, www.bluage.com), Ascora GmbH (Deutschland, https://ascora.net), TILDE SIA (Lettland, www.tilde.com), Rooter Analysis SL (Spanien, www.rooter.es).
COMPRISE wird seit Dezember 2018 mit 3,2 Millionen Euro gefördert, wovon rund 600.000 an die Universität des Saarlandes fließen.
Prof. Dr. Dietrich Klakow
Tel.: (0681) 30258122
E-Mail: Dietrich.Klakow@lsv.uni-saarland.de
Dr. Thomas Kleinbauer
Tel.: (0681) 30258130
E-Mail: thomas.kleinbauer@lsv.uni-saarland.de
https://project.inria.fr/comprise/
https://twitter.com/compriseh2020
https://www.linkedin.com/company/comprise-h2020
Dr. Thomas Kleinbauer
Thorsten Mohr
Universität des Saarlandes/Thorsten Mohr
Prof. Dr. Dietrich Klakow
Iris Maria Maurer
Universität des Saarlandes/Iris Maria Maurer
Criteria of this press release:
Journalists
Information technology, Language / literature
regional
Cooperation agreements, Research results
German
You can combine search terms with and, or and/or not, e.g. Philo not logy.
You can use brackets to separate combinations from each other, e.g. (Philo not logy) or (Psycho and logy).
Coherent groups of words will be located as complete phrases if you put them into quotation marks, e.g. “Federal Republic of Germany”.
You can also use the advanced search without entering search terms. It will then follow the criteria you have selected (e.g. country or subject area).
If you have not selected any criteria in a given category, the entire category will be searched (e.g. all subject areas or all countries).