Deep Learning zur Klassifikation deutscher Texte (Sentiment Analysis)
Die Stimmungsanalyse von kurzen deutschen Texten ist u.a. im Kontext sozialer Medien eine aktuell sehr gefragte Anwendung von Natural Language Processing (NLP) und kann mit Deep Learning Methoden umgesetzt werden.
Im Workshop wird dieses konkrete Beispiel vollständig umgesetzt, d.h. die komplette Verarbeitungskette wird von den Teilnehmenden mit einem Deep Neuronal Network implementiert. Dafür werden ausschliesslich frei verfügbare Komponenten, Frameworks und Trainingsdaten eingesetzt.
Der Workshop ist für Einsteiger mit Grundkenntnissen gedacht. Es geht allerdings nicht darum, Deep Learning oder Machine Learning theoretisch zu erklären oder die allgemeinen Grundlagen davon zu vermitteln. Stattdessen wird ein konkreter Anwendungsfall mit aktuellen Deep Learning Ansätzen umgesetzt. Der Fokus des Workshops liegt auf der Vollständigkeit der Pipeline und der Umsetzung, wobei die einzelnen Schritte im Kontext der Gesamtlösung erläutert werden.
Durch die Kürze der Zeit werden für die einzelnen Schritte vorgefertigte Komponenten genutzt. Je nach Vorkenntnissen der Teilnehmendenund dem Vorankommen in der Gruppe können wir mehr in die Tiefe vordringen und die Details der einzelnen Verarbeitungsschritte erkunden.
Programm
- Vorstellung und Agenda
- Zugang zu den Cloudinstanzen
- Frameworks + Umgebung (conda, pytorch, VS Code, Jupyter Notebook)
- Einen Korpus laden, „Hello Korpus“
- Tokenizer
- PoS-Tagger
- Word Embeddings
- ML-Modelle persistieren
- Komplette Architektur der Lösung
- Training mit Daten des GermEval 2018
- Evaluierung der trainierten Modelle
- Conclusions
Kursziel
Der Workshop gibt den Teilnehmenden:
- einen Überblick über eine vollständige Lösung zur Klassifikation deutscher Texte auf Basis von Deep Learning.
- konkrete Einstiegspunkte um einzelne Teile der Lösung im Workshop oder später im Selbststudium genauer zu verstehen.
- die Erfahrung, ein funktionierendes Beispiel eines Deep Learning Systems selbst implementiert zu haben.
- die Möglichkeit, dieses System an eigene Situationen anzupassen.
- eine Menge vertiefender Informationsquellen zum Thema NLP, insbesondere für Klassifikation deutscher Texte.
- geeignete Trainingsdaten in deutscher Sprache.
- eine Anleitung um eine geeignete Hardware in der Cloud zu nutzen.
- eine Zusammenstellung der aktuellen Forschungsinitiativen auf diesem Gebiet.
Adressaten
Software-EntwicklerInnen mit Grundkenntnissen in oder Interesse an Machine Learning.
Voraussetzungen
- Grundkenntnisse in Python, Pandas, Git.
- Der Einsatz viel-dimensionaler Datenstrukturen ist nötig. Es braucht keine Erfahrung darin aber die Bereitschaft sich damit auseinanderzusetzen.
- Konkrete Mathematikkenntnisse sind nicht erforderlich.
Infrastruktur
- Eigener Laptop mit SSH-Client.
- Github-Account.
Für die Ausführung und das Training der ML-Modelle wird von INNOQ für jeden Teilnehmenden für den Workshop-Tag eine Cloud-Instanz zur Verfügung gestellt. Die Informationen, wie man eine solche Instanz selbst erzeugen kann, wird veröffentlicht. Es wird sichergestellt, dass jeder Teilnehmende am Ende des Workshops seinen Source-Code sichern kann.
- Datum
- 13.09.2018
- Uhrzeit
- 09:10 - 17:00
- Konferenz / Veranstaltung
- CH Open Workshop Tage 2018
- Ort
- ETH Zürich, Zürich