Deep Learning zur Klassifikation deutscher Texte (Sentiment Analysis)

Die Stimmungsanalyse von kurzen deutschen Texten ist u.a. im Kontext sozialer Medien eine aktuell sehr gefragte Anwendung von Natural Language Processing (NLP) und kann mit Deep Learning Methoden umgesetzt werden.

Im Workshop wird dieses konkrete Beispiel vollständig umgesetzt, d.h. die komplette Verarbeitungskette wird von den Teilnehmenden mit einem Deep Neuronal Network implementiert. Dafür werden ausschliesslich frei verfügbare Komponenten, Frameworks und Trainingsdaten eingesetzt.

Der Workshop ist für Einsteiger mit Grundkenntnissen gedacht. Es geht allerdings nicht darum, Deep Learning oder Machine Learning theoretisch zu erklären oder die allgemeinen Grundlagen davon zu vermitteln. Stattdessen wird ein konkreter Anwendungsfall mit aktuellen Deep Learning Ansätzen umgesetzt. Der Fokus des Workshops liegt auf der Vollständigkeit der Pipeline und der Umsetzung, wobei die einzelnen Schritte im Kontext der Gesamtlösung erläutert werden.

Durch die Kürze der Zeit werden für die einzelnen Schritte vorgefertigte Komponenten genutzt. Je nach Vorkenntnissen der Teilnehmendenund dem Vorankommen in der Gruppe können wir mehr in die Tiefe vordringen und die Details der einzelnen Verarbeitungsschritte erkunden.

Programm

Vorstellung und Agenda
Zugang zu den Cloudinstanzen
Frameworks + Umgebung (conda, pytorch, VS Code, Jupyter Notebook)
Einen Korpus laden, „Hello Korpus“
Tokenizer
PoS-Tagger
Word Embeddings
ML-Modelle persistieren
Komplette Architektur der Lösung
Training mit Daten des GermEval 2018
Evaluierung der trainierten Modelle
Conclusions

Kursziel

Der Workshop gibt den Teilnehmenden:

einen Überblick über eine vollständige Lösung zur Klassifikation deutscher Texte auf Basis von Deep Learning.
konkrete Einstiegspunkte um einzelne Teile der Lösung im Workshop oder später im Selbststudium genauer zu verstehen.
die Erfahrung, ein funktionierendes Beispiel eines Deep Learning Systems selbst implementiert zu haben.
die Möglichkeit, dieses System an eigene Situationen anzupassen.
eine Menge vertiefender Informationsquellen zum Thema NLP, insbesondere für Klassifikation deutscher Texte.
geeignete Trainingsdaten in deutscher Sprache.
eine Anleitung um eine geeignete Hardware in der Cloud zu nutzen.
eine Zusammenstellung der aktuellen Forschungsinitiativen auf diesem Gebiet.

Adressaten

Software-EntwicklerInnen mit Grundkenntnissen in oder Interesse an Machine Learning.

Voraussetzungen

Grundkenntnisse in Python, Pandas, Git.
Der Einsatz viel-dimensionaler Datenstrukturen ist nötig. Es braucht keine Erfahrung darin aber die Bereitschaft sich damit auseinanderzusetzen.
Konkrete Mathematikkenntnisse sind nicht erforderlich.

Infrastruktur

Eigener Laptop mit SSH-Client.
Github-Account.

Für die Ausführung und das Training der ML-Modelle wird von INNOQ für jeden Teilnehmenden für den Workshop-Tag eine Cloud-Instanz zur Verfügung gestellt. Die Informationen, wie man eine solche Instanz selbst erzeugen kann, wird veröffentlicht. Es wird sichergestellt, dass jeder Teilnehmende am Ende des Workshops seinen Source-Code sichern kann.

Datum: 13.09.2018
Uhrzeit: 09:10 - 17:00
Konferenz / Veranstaltung: CH Open Workshop Tage 2018
Ort: ETH Zürich, Zürich