„OK Google: Was ist Natural Language Processing?“
Wie Maschinen die menschliche Sprache lesen, entschlüsseln und verstehen
von Sandra Wartner, MSc
Sprache ist nicht gleich Sprache – während Menschen über Tausende von Jahren eigene Kommunikationswege geschaffen haben, dienen Millionen an Nullen und Einsen als Maschinencode bzw. Maschinensprache dazu, dass Computer Befehle verstehen und ausführen können. Die Verarbeitung von natürlicher Sprache durch Maschinen (Natural Language Processing, kurz NLP) ermöglicht es, die menschliche Sprache maschinell zu lesen, zu entschlüsseln und zu verstehen. Sprachassistenten, Rechtschreibkorrekturen, E-Mail-Spamfilter – NLP als Technologie ist omnipräsent und verbirgt sich bereits hinter vielen, tief in unserem Alltag verankerten Abläufen und Softwareapplikationen. Das oftmals verborgene Potenzial in vielen Datenbergen ist dabei noch lange nicht erschöpft.
Inhalt
- Künstliche Intelligenz als Schnittstelle zwischen Mensch und Maschine
- Text Analytics und Use-Cases im Unternehmen
- Fazit
- Autorin
Die von uns Menschen generierte Datenflut wächst von Tag zu Tag. Allein für das Jahr 2020 zeigen Wachstumsstatistiken, dass jede Sekunde pro Person 1,7MB an Daten generiert werden. Wir verschicken Fotos, legen Dokumente in der Cloud ab, streamen Musik oder Videos, kommunizieren über Videokonferenztools und nutzen noch viele weitere Annehmlichkeiten, die uns das Internet bietet. Allein in den letzten beiden Jahren wurden ca. 90 % der weltweiten Datenmenge generiert – und die Zahlen steigen weiter an. Auch die COVID-Pandemie trägt u.a. durch den erhöhten Bedarf an Online-Kommunikation und Home-Office zu einer stark ansteigenden Wachstumsrate bei.
Ein beträchtlich großer Teil der existierenden Datenberge besteht aus Textdaten. Diese generieren wir vor allem selbst, indem wir z.B. E-Mails, Produktrezensionen, Tweets oder Textnachrichten verfassen. Gleichzeitig können wir das Potenzial der kontinuierlich wachsenden Datenberge nutzen, um die uns im Alltag immer häufiger unterstützenden Anwendungen überhaupt erst zu schaffen. Wir verwenden Übersetzungsfunktionen von einer Sprache in eine andere (z.B. DeepL), beim Verfassen von Texten und Nachrichten machen uns Programme auf Tippfehler aufmerksam, digitale Sprachassistenten wie Alexa, Cortana, Siri und co. unterstützen uns bei einer Vielzahl an Tätigkeiten und Suchmaschinen bieten Suchvervollständigung an – all diese Dienste und Funktionen bauen auf einer wesentlichen Technologie auf: Natural Language Processing (NLP).
Künstliche Intelligenz als Schnittstelle zwischen Mensch und Maschine
Die maschinelle Verarbeitung natürlicher Sprache stellt kein neues Forschungsfeld dar, allerdings haben die letzten Jahre aufgrund der Verfügbarkeit von höherer Rechenleistung, enormen Datenmengen (Big Data) sowie modernen Algorithmen eine Vielzahl an revolutionären Errungenschaften im NLP-Umfeld mit sich gebracht: Computer sind in der Lage zu lesen, zu verstehen und zu sprechen. Als interdisziplinäres Feld der Linguistik, Computerwissenschaft und Künstlichen Intelligenz (KI) ermöglicht NLP die Kommunikation zwischen Mensch und Maschine in unterschiedlichen Formen (geschrieben und gesprochen) und in einer Vielzahl an Sprachen.
Wollen wir den Google-Assistenten auf unserem Smartphone befragen, damit uns eine synthetisierte Stimme NLP erklärt, reicht ein einfaches „OK Google“ und die nachgestellte Frage. Im Optimalfall erhalten wir eine Antwort, die uns zufriedenstellt und genau jene Information liefert, nach der wir gesucht haben. Diese Aufgabe klingt für die Ausführung durch einen Menschen zwar relativ einfach, für eine Maschine bedeutet dies jedoch, Sprache in ihre elementaren Bestandteile aufzulösen, die Frage und den Kontext zu verstehen und sequenziell unterschiedliche Problemstellungen lösen zu müssen.
Natural Language Understanding (NLU) konzentriert sich auf die Extraktion von Informationen aus Text und damit auf das Erwerben von Textverständnis hinsichtlich eines bestimmten Teilaspekts. Dabei spielen v.a. Syntax (grammatikalische Struktur) und Semantik (Bedeutung von Wörtern) eine wesentliche Rolle. Beispiele hierfür sind
- grammatikalische Analysen (z. B. Part-of-Speech (POS) Tagging),
- Erkennen von Personen, Orten oder anderen Schlüsselwörtern in Texten (z. B. Named Entity Recognition (NER)),
- Stimmungs- und Meinungsanalyse (Sentimentanalyse) und
- Klassifizierung von Text in vordefinierte Kategorien.
Natural Language Generation (NLG) fokussiert sich auf die Erzeugung von natürlicher Sprache und kommt u.a. für die automatisierte Erstellung, Zusammenfassung oder Übersetzung von Texten zum Einsatz.
Da NLU und NLG ausschließlich mit geschriebener Sprache arbeiten, wird häufig eine Komponente für Spracherkennung (Speech-to-Text, kurz STT) und Sprachsynthese (Text-to-Speech, kurz TTS) notwendig, die dann als Schnittstelle zwischen dem NLP-System und der realen Welt fungieren.
Für das „OK Google“-Beispiel bedeutet dies, dass die Anfrage mittels STT von der gesprochenen Sprache in die geschriebene Sprache konvertiert wird. Auf die Anfrage, welche durch NLU erkannt wurde, kann reagiert werden, indem beispielsweise relevante Suchergebnisse gesammelt und ausgewertet werden. Das dabei generierte Wissen kann zumeist (abhängig von der Art des Resultats) mit Hilfe von NLG und TTS akustisch wiedergegeben oder die besten Treffer am Endgerät angezeigt werden.
NLP wird in der Informatik als eine der kompliziertesten Problemstellungen betrachtet. Natürliche Sprache an sich verfügt über keine identifizierbare Struktur (häufig auch als unstrukturierte Daten bezeichnet) und ist ein komplexes System aus aneinandergereihten, teilweise voneinander abhängigen Zeichen und daher von Grund auf nicht einfach zu verstehen. Deutsch, Englisch, Russisch, Japanisch, Arabisch – jede Sprache hat ihre eigene komplexe Syntax und Eigenheiten. Hinzu kommen weitere Erschwernisse, da Sprache oft nicht linear funktioniert, sondern sich unterschiedlicher Stilmittel, Redewendungen und Informationen zwischen den Zeilen bedient. Das Erkennen von Sarkasmus ist selbst für einen Menschen nicht immer möglich. Mehrdeutigkeiten einzelner Wörter müssen über eine Kontextanalyse aufgelöst werden, um bspw. das Wort „Bank“ mit einer Sitzgelegenheit oder einem Geldinstitut eindeutig assoziieren zu können. Nuscheln, Stottern, das Sprechen im Dialekt und Hintergrundgeräusche erschweren dem Sprachassistenten die Auswertung und können im Weiteren zu einer fehlerhaften Antwort führen. Algorithmen müssen sich diesen und noch einigen weiteren Herausforderungen stellen, um ihren Anforderungen gerecht zu werden.
Ältere Systeme griffen auf regel- bzw. rein statistisch-basierte Ansätze zurück, wohingegen der Durchbruch erst mit Machine Learning (insbesondere Deep Learning) und der Verfügbarkeit großer Datenmengen errungen werden konnte. Machine Learning-Modelle versuchen, aus einer Menge an Beispielen allgemeine Muster abzuleiten (Wie verwenden Menschen Sprache? Welche Grammatikregeln kommen zur Anwendung?) und diese für die Entscheidung eines Individualfalles anzuwenden – ähnlich einem Kind, das die menschliche Sprache erlernt. Je mehr Beispiele dem System zur Verfügung gestellt werden und je besser diese die Realität bzw. das zukünftige Anwendungsszenario widerspiegeln, desto höher liegt die Trefferquote bei neuen, unbekannten Aufgaben, die das System lösen soll. Die aktuell vielversprechendsten Modelle bzw. State-of-the-Art Ergebnisse für Aufgaben aus dem NLP-Bereich werden mit Deep Learning Algorithmen erzielt, die eine komplexere Modellierung erlauben als herkömmliche Machine Learning Modelle. Deep Learning wurde von der Funktionsweise des menschlichen Gehirns inspiriert und setzt vielschichtige Neuronale Netze ein. Durch die hochgradig verknüpften Strukturen wird „tiefgehendes Lernen“ ermöglicht, welches gerade für das komplexe Konstrukt der Sprache essenziell ist.
Text Analytics und Use-Cases im Unternehmen
Um das oftmals ungenutzte Potenzial in den Unternehmensdaten auszuschöpfen und Businessprobleme lösen zu können, müssen bestehende (Roh-)Daten untersucht und Wissen aus diesen abgeleitet sowie quantifiziert und visualisiert werden. Mit Text Analytics kann dieser Prozess abgebildet werden, um große Mengen an unstrukturierten Textdaten zu verarbeiten und Einblicke zu gewinnen. Nur wenn für die Ergebnisse ein einheitliches Verständnis aller Stakeholder geschaffen und der Schritt der nahtlosen Integration von Lösungen in bestehende Workflows und Systeme bewältigt werden kann, können daraus weitere Handlungsentscheidungen abgeleitet und damit der Erfolgsfaktor für das Unternehmen langfristig gesteigert werden.
Immer mehr Unternehmen aus unterschiedlichen Branchen setzen auf NLP-Lösungen, um die angehäuften, unterschiedlichen Textformen in einer Vielzahl an Bereichen besser managen und nutzen zu können. Besonders wenn wiederkehrende Aufgaben zu erledigen sind, kann eine Automatisierung dieser Tasks sinnvoll sein. Im Folgenden sind beispielhafte Use-Cases aufgelistet, um die breite Anwendbarkeit von NLP-Lösungen darzustellen.
Document Classification (Use-Case 1)
Sentiment Analysis (Use-Case 4)
Use-Case 1: „Automatisierte Dokument-klassifikation“
Sie arbeiten im Controlling und möchten zukünftig nur noch all jene Dokumente (bzw. Dokumenttypen) bekommen, für die Sie zuständig sind.
Use-Case 2: „Automatisierte Extraktion von Informationen aus Dokumenten wie bspw. Rechnungen oder Lieferscheinen“
Sie sind Leiter*in der Warenannahme und wollen zukünftig die Details der Lieferungen nur noch kontrollieren, anstatt sie händisch zu erfassen.
Use-Case 3: „Customer Support“
Sie sind Onlineversandhändler*in und möchten die Reaktionszeiten des Kundenservices durch die automatisierte Verarbeitung und Beantwortung von Kundenanfragen verkürzen.
Use-Case 4: „Automatisierte Bewertung von Kundenfeedback“
Sie sind Marketingbeauftragte/r und möchten auf Social Media einen Überblick über die Stimmung und die Reaktionen in Bezug auf Ihre neue Werbekampagne erhalten.
Use-Case 5: „Social-Media-Analyse“
Sie sind Angestellte/r im Verfassungsschutz und wollen extremistische, radikale und gewaltverherrlichende Social Media-Profile und Posts entdecken und überwachen.
Use-Case 6: „Unterstützung in der klinischen Dokumentation und Organisation“
Sie arbeiten als Facharzt und möchten essenzielle Informationen aus mehreren, umfangreichen Anamnesen einzelner Patient*innen zusammenfassen, um einen ganzheitlichen Blick über die Krankheitsgeschichte zu erhalten.
Fazit
Der Fortschritt im NLP-Bereich ist nicht aufzuhalten und stellt kontinuierlich neue und bessere Lösungen für ein breites Spektrum an Problemen bereit. Die Präzision der entwickelten Modelle sowie deren Verfügbarkeit für die breite Masse steigen weiterhin und immer mehr bahnbrechende Entwicklungen schaffen den Sprung aus dem Forschungsbereich in die Produktion. Spannend bleibt auf alle Fälle, welche weiteren Durchbrüche die kommenden Jahre mit sich bringen werden – klar ist, sie werden kommen.
Die RISC Software GmbH unterstützt Sie gerne bei der Einreichung und Durchführung von (Forschungs-) Projekten im Bereich Natural Language Processing.
Kontakt
Autorin
Sandra Wartner, MSc
Data Scientist