Inhalt und Stil eines Textes sollen bei der Texterzeugung mit Künstlicher Intelligenz unabhängig voneinander kontrolliert werden – BMBF stellt 2 Millionen Euro bereit
Während es am Computer ohne Weiteres möglich ist, ein Foto in ein Bild im Stil von Picasso zu verwandeln, ist es bisher nicht möglich, einen beliebigen Text in den Stil beispielsweise von Franz Kafka umschreiben zu lassen. Das Problem bei Texten ist, dass Stil und Thema getrennt werden müssen. Diese Problematik greift ein neues Forschungsprojekt auf, für das Dr. Sophie Burkhardt vom Institut für Informatik der Johannes Gutenberg-Universität Mainz (JGU) eine Förderung des Bundesministeriums für Bildung und Forschung (BMBF) in Höhe von 2 Millionen Euro erhält. Ihr Projekt „Semantic Disentanglement: Unterscheidung von Stil und Thema in Textdaten“ befasst sich mit der Entwicklung von Modellen und Software, um die automatische Analyse und Erzeugung von qualitativen Texten zu verbessern. Mögliche Anwendungen bieten Bereiche, in denen die Kommunikation zwischen Mensch und Maschine im Mittelpunkt steht wie etwa im Kundensupport oder den sozialen Medien.
Die Künstliche Intelligenz hat im Bereich der Texterstellung erstaunliche Erfolge vorzuweisen. „Mittlerweile können mit KI Texte erzeugt werden, die kaum von menschengeschriebenen Texten zu unterscheiden sind“, erklärt Sophie Burkhardt zum Stand der Technik. Allerdings ist es schwierig vorzugeben, was genau der Inhalt des Textes sein soll, der generiert wird, und den Stil des Textes getrennt davon zu kontrollieren. Durch ein „Disentanglement“, also die Entwirrung von Stil und Thema in Textdaten, soll der Einfluss auf die erzeugten Texte und damit auch auf ihre Qualität verbessert werden. Eine Idealvorstellung wäre es nach Darstellung der Informatikerin zum Beispiel, einen Harry-Potter-Roman in den Stil von Shakespeare zu konvertieren. „Das ist jedoch noch in weiter Ferne.“
Erste Schritte zur Themenanalyse von Texten erfolgreich
Erste Schritte, um Themen aus komplexen Texten zu analysieren, sind bereits erfolgreich, jedoch wird dabei der Textstil noch nicht beachtet. Auf dem Weg dahin, den Textstil miteinzubeziehen, könnte in einer Zwischenstufe zum Beispiel ein langer Artikel in einer Kurzform erstellt oder für soziale Medien zusammengefasst werden, ein wissenschaftlicher Artikel könnte in vereinfachter Sprache wiedergegeben oder für eine andere Zielgruppe aufbereitet werden. Erste Fortschritte zur Beeinflussung des Textstils betreffen vor allem die Tonalität, also um beispielsweise die positive Beurteilung eines Produkts in eine negative Bewertung umzuformulieren. „Andere Aspekte des Stils, die nicht so offensichtlich sind, sind weitaus schwieriger zu kontrollieren“, sagt Burkhardt. „Ironie und Sarkasmus sind ein enormes Problem, zumal das System den Wissensstand verstehen müsste.“
Das neue BMBF-Projekt soll die Forschung zu Sprachmodellen und Themenmodellen zusammenführen, um ein kombiniertes Modell zu entwickeln, das sowohl den Inhalt als auch den Textstil darstellen kann. Dabei sollen moderne tiefe neuronale Netze zum Einsatz kommen, wobei zu erforschen ist, wie diese neuronalen Netze mit diskreten Daten wie Texten umgehen können. Zunächst werden große Datensätze, also große Textkorpora benötigt, um die Systeme zu trainieren.
Anwendung für Dialogsysteme im Haushalt, im Kundensupport oder in Fahrzeugen denkbar
Sophie Burkhardt erwartet, dass die Erzeugung von qualitativ hochwertigen Texten für viele Branchen und Anwendungen interessant sein könnte. Zum Beispiel könnten die neu entwickelten Methoden in Kombination mit Spracherkennung für Dialogsysteme im Haushalt, im Kundensupport oder in Fahrassistenzsystemen zum Einsatz kommen. Langfristig könnte dies auch zur Verbesserung der barrierefreien Mediennutzung dienen, wenn Texte generiert werden können, die Sachverhalte für Blinde beschreiben.
Das BMBF unterstützt das Projekt im Rahmen der Förderung von Nachwuchswissenschaftlerinnen im Bereich der Künstlichen Intelligenz und ermöglicht damit den Aufbau einer interdisziplinären Nachwuchsgruppe, die von Sophie Burkhardt geleitet wird. Die Fördersumme in Höhe von 2 Millionen Euro wird für einen Zeitraum von 4 Jahren gewährt.
Sophie Burkhardt hat an der Johannes Gutenberg-Universität Mainz Philosophie und Informatik studiert und anschließend promoviert. Für ihre Dissertation mit dem Titel „Online Multi-label Text Classification using Topic Models“ wurde sie mit dem Dissertationspreis des Fachbereichs Physik, Mathematik und Informatik der JGU ausgezeichnet. Während ihrer Promotion erhielt sie ein Stipendium der Firma PRIME Research aus Mainz. Sie publizierte insgesamt 10 Artikel als Erstautorin zu den Themen „Topic Models“ und Textklassifikation. Seit Januar 2019 ist Sophie Burkhardt als Postdoktorandin in der Arbeitsgruppe „Data Mining“ von Prof. Dr. Stefan Kramer tätig.
Bildmaterial:
https://download.uni-mainz.de/presse/08_informatik_texte_bmbf.jpg
Dr. Sophie Burkhardt
Foto/©: privat
Weiterführende Links:
https://www.datamining.informatik.uni-mainz.de/ - Data-Mining-Gruppe am Institut für Informatik der JGU
https://www.bmbf.de/foerderungen/bekanntmachung-2502.html - Förderung von KI-Nachwuchswissenschaftlerinnen durch das BMBF
Lesen Sie mehr:
https://www.uni-mainz.de/presse/aktuell/10864_DEU_HTML.php - Pressemitteilung „Wettervorhersage am PC: Neuer Algorithmus stellt Leistung von Großrechenanlagen in den Schatten“ (06.02.2020)
https://www.uni-mainz.de/presse/aktuell/8760_DEU_HTML.php - Pressemitteilung „Carl-Zeiss-Stiftung fördert Aufbau eines neuen Forschungszentrums zur künstlichen Intelligenz an der JGU“ (05.06.2019)
https://www.uni-mainz.de/presse/60161.php - Pressemitteilung „Sophie Burkhardt erhält erstes PRIME Research Promotionsstipendium im Wert von 25.000 Euro“ (14.04.2014)
Dr. Sophie Burkhardt
Data Mining
Institut für Informatik
Johannes Gutenberg-Universität Mainz
55099 Mainz
Tel. +49 6131 39-21059
E-Mail: soburkha@uni-mainz.de
https://www.datamining.informatik.uni-mainz.de/sophie-burkhardt/
Merkmale dieser Pressemitteilung:
Journalisten, Wissenschaftler, jedermann
Informationstechnik, Sprache / Literatur
überregional
Forschungsprojekte, Personalia
Deutsch
Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.
Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).
Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.
Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).
Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).