idw – Informationsdienst Wissenschaft

Nachrichten, Termine, Experten

Grafik: idw-Logo
Science Video Project
idw-Abo

idw-News App:

AppStore

Google Play Store

Veranstaltung


institutionlogo


30.09.2019 - 02.10.2019 | Darmstadt

Textforensik mit NLP und maschinellem Lernen

Ein Großteil der weltweit verfügbaren Informationen liegt als Text vor. Das Suchen nach relevanten Informationen im Text, um z.B. Texte nach Themen oder Stimmungen einzuordnen oder den Autor zu identifizieren, ist für viele Anwendungen wichtig. Herausforderungen hierbei sind Unstrukturiertheit von Texten oder das Fehlen von Metadaten.
Um trotzdem relevante Informationen aus Texten abzuleiten, lernen Sie Methoden der Natürlichen Sprachverarbeitung (NLP) und des maschinellen Lernens (ML) kennen.

Der Kurs kombiniert Linguistik und Informatik. Ihnen werden Methoden der digitalen Textforensik vermittelt, mit Schwerpunkt auf NLP und ML. Sie lernen, wie Textdaten maschinenlesbar bereinigt und strukturiert und wie relevante Merkmale aus den verarbeiteten Texten gewonnen werden können.

Sie lernen verschiedene ML-Methoden kennen, etwa zum automatischen Klassifizieren von Texten oder zum Herauslesen von Stimmungen und Meinungen im Text. Ebenso lernen Sie Evaluierungstechniken kennen, mit denen Sie die Güte der ML-Verfahren messen können. Diese Kenntnisse werden Sie in praktischen Übungen am PC vertiefen, etwa mit den Werkzeugen NLTK, Spacy oder Pattern.

Inhalt

Grundlagen digitaler Textforensik
Korpuserstellung und -strukturierung
Datenbereinigung (z.B. Rauschen aus Texten entfernen)
Werkzeuge des Preprocessings (NLTK, Spacy, Pattern, etc.)
Merkmalsextraktion (Feature Engineering), um Texte entsprechend der Problemstellung zu repräsentieren
Modellbildung
praxisnahe Übungen zu Anwendungsbeispielen: Erkennung von Schreibstilen, Sprachprofiling, Stimmungsanalyse in Texten, automatische Textklassifikation
Visualisierung der gewonnenen Informationen

Nach dem Seminar können Sie...

Grundlegende Problemstellungen hinsichtlich der Verarbeitung von Textdaten selbstständig lösen
Texte bereinigen, strukturieren sowie wichtige Merkmale erkennen bzw. extrahieren, um Texte entsprechend der Aufgabenstellung zu repräsentieren
Modelle bilden, mit deren Hilfe Texte klassifiziert werden können
Autorenstile erkennen, charakteristische Eigenschaften des Autors (z.B. Geschlecht, Alter, Bildungsniveau oder Sprachdialekte) bestimmen oder die Stimmung aus Texten ableiten

Dieses Seminar bietet Ihnen...

Vermittlung gängiger Methoden und Werkzeuge der digitalen Textforensik
Erkenntnisse aus dem aktuellen Forschungsstand in NLP und ML
Praxistipps aus unserer eigenen Gutachtertätigkeit in diesem Bereich
viele praxisnahe Übungen anhand von Fallbeispielen
Austausch mit Experten und Vernetzung mit anderen Anwendern der Computerlinguistik und der Text-Forensik

Hinweise zur Teilnahme:

Termin:

30.09.2019 - 02.10.2019

Veranstaltungsort:

Fraunhofer SIT
Rheinstraße 75
64295 Darmstadt
Hessen
Deutschland

Zielgruppe:

Wirtschaftsvertreter, Wissenschaftler

Relevanz:

überregional

Sachgebiete:

Informationstechnik, Medien- und Kommunikationswissenschaften, Wirtschaft

Arten:

Seminar / Workshop / Diskussion

Eintrag:

19.07.2019

Absender:

MA Anna Spiegel

Abteilung:

Presse- und Öffentlichkeitsarbeit

Veranstaltung ist kostenlos:

nein

Textsprache:

Deutsch

URL dieser Veranstaltung: http://idw-online.de/de/event64268


Hilfe

Die Suche / Erweiterte Suche im idw-Archiv
Verknüpfungen

Sie können Suchbegriffe mit und, oder und / oder nicht verknüpfen, z. B. Philo nicht logie.

Klammern

Verknüpfungen können Sie mit Klammern voneinander trennen, z. B. (Philo nicht logie) oder (Psycho und logie).

Wortgruppen

Zusammenhängende Worte werden als Wortgruppe gesucht, wenn Sie sie in Anführungsstriche setzen, z. B. „Bundesrepublik Deutschland“.

Auswahlkriterien

Die Erweiterte Suche können Sie auch nutzen, ohne Suchbegriffe einzugeben. Sie orientiert sich dann an den Kriterien, die Sie ausgewählt haben (z. B. nach dem Land oder dem Sachgebiet).

Haben Sie in einer Kategorie kein Kriterium ausgewählt, wird die gesamte Kategorie durchsucht (z.B. alle Sachgebiete oder alle Länder).