Mit Natural Language Understanding (NLU) vom Textchaos zum Wissensgewinn
Wie Natural Language Understanding auch Ihrem Unternehmen hilft, bestehende Prozesse zu optimieren
von Sandra Wartner, MSc
In vielen Unternehmen findet zunehmend eine Verlagerung in Richtung Digitalisierung und Automatisierung statt. Dabei fallen kontinuierlich enorme Mengen an unstrukturierten Daten an, deren Umfang und Komplexität die betroffenen Stakeholder vor einer Auswertung abschrecken lassen, oder das Potenzial in den vorhandenen Daten häufig erst gar nicht erkannt wird. Egal ob Störmeldungen in Fertigungsprozessen analysiert, Arztbriefe strukturiert abgelegt oder Produkte automatisiert vorgeschlagen werden sollen, Natural Language Understanding (NLU) bietet ein breites Spektrum an branchenspezifischen und -übergreifenden Einsatzmöglichkeiten.
Inhalt
- Am Anfang steht der Datenberg… und was nun?
- Wie bringe ich dem KI-System bei, was es tun soll?
- Aktuelle Trends und Herausforderungen
- Fazit
- Referenzen
- Autorin
Sprache ist omnipräsent und begegnet uns sowohl in unserem Alltag als auch in unserem beruflichen Umfeld in vielen unterschiedlichen Facetten – von Menschen geschrieben, gesprochen und in unterschiedlichen Sprachen kommuniziert, aber auch analysiert, bearbeitet und synthetisiert durch Maschinen. Mit Natural Language Processing (NLP) sind Computer in der Lage, natürliche Sprache automatisiert zu verarbeiten, zu erzeugen und als Schnittstelle zwischen Mensch und Maschine zu fungieren (für mehr Details zum Thema NLP siehe [1]). Als Anwendungsbereich der Künstlichen Intelligenz (KI) kommt NLP immer dann zum Einsatz, wenn monotone Prozesse bzw. häufig wiederkehrende Aufgaben in der Textverarbeitung automatisiert, anschließend optimiert und in ein übergeordnetes Framework eingegliedert werden sollen. Dadurch können in verschiedenen Bereichen Fehler minimiert, Prozesse (teil)automatisiert und Einsparungen (durch verringerten Personalaufwand) erzielt werden.
Die RISC Software GmbH unterstützt ihre Kund*innen mit ihrer langjährigen, praktischen Erfahrung, wenn es um die Entwicklung von individuell zugeschnittenen, KI-gestützten Lösungen geht, u.a. auch im Bereich Natural Language Understanding (NLU), einem Teilbereich des Natural Language Processing.
Natural Language Understanding (NLU) konzentriert sich auf die Extraktion von Informationen aus geschriebenem Text und damit auf das Erwerben von Textverständnis hinsichtlich eines bestimmten Teilaspekts. Dabei spielen v.a. Syntax (grammatikalische Struktur) und Semantik (Bedeutung von Wörtern) eine wesentliche Rolle. Beispiele hierfür sind:
- Informationsextraktion, z.B. das Erkennen von Personen, Orten oder anderen Schlüsselwörtern in Texten (z.B. Named Entity Recognition (NER)),
- Use-Case “Newsadoo”: „Newsadoo – Alle News zu deinen Interessen“ – ermöglicht Benutzer*innen den Zugriff auf Newsartikel zahlreicher Quellen und bietet relevante sowie nach Interessen personalisierte Nachrichten. Im Hintergrund findet mittels NLP eine Transformation von unstrukturierten Textdaten in strukturierte, auswertbare Inhalte statt.
- Use-Case “FLOWgoesS2T“: Sprachnachrichten zum aktuellen Verkehrsgeschehen werden in geschriebene Texte überführt, in denen anschließend mittels NLP wichtige Informationen wie Straßen, Ortsangaben, Fahrtrichtungen und Ereignisse automatisch erkannt und strukturiert gespeichert werden. Dies dient zur Unterstützung der Redakteur*innen bei der Bearbeitung von übermittelten Sprachnachrichten, um verkehrsrelevante Ereignisse rasch identifizieren zu können.
- Klassifizierung von Text in vordefinierte Kategorien
- Use-Case “ACT4”: In einer Ausbaustufe der bestehenden Plattform-Lösung ACT4 der Compliance 2b GmbH entwickelt die RISC Software GmbH gemeinsam mit dem Unternehmen eine vertrauenswürdige KI-Komponente, welche einerseits Hinweisgebende bei der Abgabe der Meldung unterstützt und andererseits den zuständigen Sachbearbeiter*innen eine effizientere und weniger fehleranfällige Abwicklung der Meldungen ermöglichen soll. Das System soll dabei automatisiert Informationen (z.B. Hinweiskategorie oder Rollen der beteiligten Personen) aus den textuellen Hinweisen ableiten und diese mit bereits strukturell erfassten Daten in Form einer Plausibilitätsprüfung abgleichen.
- Stimmungs- und Meinungsanalyse (Sentimentanalyse)
- Use-Case “Intelligente Twitter Analyse”: Stehen positive Emotionen in Tweets über aktiennotierte Unternehmen mit deren Aktienkursentwicklung in Zusammenhang? Mittels Sentimentanalyse kann ein Text hinsichtlich Stimmung (positiv, negativ etc.) analysiert und dahingehend evaluiert werden, wie viel Information tatsächlich zwischen den Zeilen steckt.
Am Anfang steht der Datenberg… und was nun?
Die ersten Schritte sind fast immer die schwersten. Nachfolgende (bestimmt nicht vollständige) Checkliste bietet einen Überblick über die relevantesten Fragestellungen, die jedes Projektteam vor der konkreten Planung bzw. Umsetzung von NLU- bzw. KI-Systemen im Allgemeinen klären sollte.
Ist die Problemstellung ausreichend gut formuliert?
- Welchen Anforderungen muss das KI-System genügen, um nutzbringend im operativen Betrieb eingesetzt werden zu können?
- Sind die erwarteten Ergebnisse klar definiert?
- Haben alle Stakeholder die gleichen Erwartungen?
Ist die Art des zu lösenden Problems bekannt bzw. klar abgegrenzt (z.B. Klassifikation von Wörtern oder Dokumenten, Sentimentanalyse)?
- Falls nein, kann das Problem in mehreren Teilproblemen gelöst werden, die sich klar abgrenzen lassen?
Kann ich das Problem anhand der vorhandenen Datenbasis lösen?
- Falls nein, gibt es Möglichkeiten diese Daten zu bekommen, z.B. durch das Verwenden von Daten aus anderen/öffentlichen Quellen, oder durch Sammeln eigener Daten?
Ist die Datenqualität ausreichend „gut“?
- Die Datenqualität ergibt sich aus dem Zusammenspiel unterschiedlicher Kriterien, die abhängig vom Use-Case sind (siehe [2]).
- Falls die Datenqualität nicht ausreichend ist – welche Maßnahmen können gesetzt werden, um diese zu verbessern? Gibt es die Möglichkeit, langfristig eine robuste(re) Datenstrategie im Unternehmen zu etablieren?
Ist eine Ground Truth (korrekt annotierte Beispiele) vorhanden?
- Falls nein, kann diese erstellt werden? Sind Ressourcen verfügbar bzw. ist technisches/domänen-spezifisches Know-how vorhanden, um diese zu annotieren?
Wie bewerte ich, ob eine Lösung „gut genug“ funktioniert? Wie kann ich Fehler „messen“?
- Es braucht einerseits Metriken für die Genauigkeit der Modelle selbst, und andererseits Bewertungsstrategien, ob und welcher Mehrwert durch den Einsatz der Lösung erzeugt wird, z.B. eine gewisse prozentuelle Erhöhung einer oder mehrerer KPI’s des Unternehmens.
Gibt es bereits Lösungsansätze zu ähnlichen Problemstellungen oder hat das Projekt einen hohen Innovationsgrad? Wie risikotolerant ist meine Organisation?
- Bei hohem Innovationsgrad und vielen Risikofaktoren können auch Fördermöglichkeiten genutzt werden, um das Projekt dennoch, aber mit geringerem Risiko umsetzen zu können (siehe [3]).
- Wenn die Risikofaktoren (noch) unbekannt oder unklar sind, kann eine Machbarkeitsstudie helfen, diese einzuschätzen (siehe [4]).
Wie kann ich ein vertrauenswürdiges KI-System schaffen?
- Welche Bereiche sind für meinen Use-Case relevant, z.B. Nachvollziehbarkeit, Fairness, technische Robustheit (siehe [5])?
- Kann ich Methoden aus dem Bereich Explainable AI nutzen, um meine Black-Box zu durchleuchten (siehe [6])?
Wie bringe ich dem KI-System bei, was es tun soll?
Um von den Rohdaten zu einer erfolgreich umgesetzten NLU-Komponente zu kommen, sind einige Schritte notwendig. Die konkreten Maßnahmen unterscheiden sich zwar von einem Projekt zum nächsten, die grundlegende Vorgehensweise folgt allerdings dem in Abbildung 1 dargestellten Schema.
Datenbasis
Die vorhandenen Rohdaten können in vielen verschiedenen Formaten vorliegen, z.B. als Textfelder in Datenbanken, Inhalte von Webseiten, Textdateien oder Text in Bildern bzw. Scans. Sind Texte in (komplex-)strukturierten PDFs oder Webseiten enthalten, können relevante Inhalte mit einem gewissen Aufwand extrahiert werden. Bei Scans von Dokumenten kommt die Methode Optical Character Recognition (OCR) zum Einsatz, welche Texte in einem zweidimensionalen Bild erkennt und mit deren Position für die weitere Verarbeitung ablegt. Bei Bildern mit strukturierten, maschinengeschriebenen Texten (z.B. Scans oder Fotos von analogen Dokumenten) erzielen OCR-Systeme bereits sehr gute Ergebnisse, bei Fotos (z.B. von Straßenschildern) oder handgeschriebenen Texten stellt dieser Schritt häufig eine Herausforderung dar. Auch Audiodateien können mittels Speech-To-Text-Technologien in geschriebenen Text transkribiert werden. Je nach Qualität der Aufnahme, Sprache und Dialekt kann auch dies erheblichen Aufwand bedeuten, bis die Texte für die weitere Verarbeitung in ausreichend guter Qualität verfügbar sind.
Datenaufbereitung
Als nächstes müssen die Texte für die weitere Verarbeitung aufbereitet werden. Dieser Schritt erfordert je nach Anwendungsfall bspw. bestimmte Satzzeichen und/oder überschüssige Leerzeichen zu entfernen oder Texte in Kleinschreibung zu konvertieren. Dadurch gehen zwar manche Informationen verloren, allerdings erleichtert dies sowohl die manuelle als auch die maschinelle Verwertung der Texte durch KI-Modelle erheblich. Ein weiterer essenzieller Schritt ist die Tokenisierung der Texte. Da Computer mit Wörtern nicht “rechnen” können, wird jedem Wort eine eindeutige Zahl zugewiesen, und alle Texte in dieses einheitliche Zahlenschema konvertiert.
Sprachmodelle
Moderne, deep-learning-basierte Sprachmodelle werden selbstüberwacht auf umfangreichen Textdatenbanken wie etwa BookCorpus vortrainiert. Ein sehr häufig verwendeter Ansatz ist dabei das sogenannte Masked Language Modelling, bei dem zufällige Satzteile (z.B. Wörter) geschwärzt werden und das Modell versucht, den Lückentext möglichst nahe zum Originaltext wieder zu befüllen. Damit das Modell ein gutes Verständnis für die Strukturen natürlicher Sprache aufbauen kann, sind Millionen an Beispielen und viele Iterationen dieses Ratespiels notwendig. Da dieser Prozess sehr ressourcenintensiv ist (hohe Rechenleistung und Kosten), werden diese meist von großen Organisationen wie bspw. Google oder Facebook vortrainiert und – dankenswerterweise – anderen Entwickler*innen öffentlich verfügbar gemacht.
Finetuning
Über das Prinzip des sogenannten Transfer-Learnings können vortrainierte Modelle ihr Sprachverständnis nun nutzen, um mit geringeren Datenmengen die Lösung konkreter Aufgaben (wie bspw. weiter oben bereits erläutert NER, Textklassifikation oder Sentimentanalyse) zu erlernen. Für dieses Finetuning sind je nach Komplexität der Aufgabenstellung einige hunderte bis tausende Beispieldaten notwendig.
Evaluierung
Die Qualität dieser Modelle wird anschließend über bereitgestellte Test- bzw. Validierungsdaten quantitativ bewertet. Je nach Aufgabe und Ziel werden dabei unterschiedliche Metriken herangezogen. Somit kann es notwendig werden, Modelle anhand mehrerer Metriken zu bewerten und zu vergleichen.
Produktiveinsatz
Die Vorhersagen der Modelle auf neuen Daten (Inferenz) liefern Ergebnisse entsprechend der Struktur aus den Beispieldaten und können damit in den Unternehmens-Workflow eingebunden werden.
Aktuelle Trends und Herausforderungen: Wenn KI’s lernen wie Menschen zu schreiben, zeichnen und kommunizieren
In den letzten Jahren dreht sich im NLU-Bereich fast alles um die sogenannten Transformer-Modelle. Dabei handelt es sich um eine spezielle Architektur von künstlichen neuronalen Netzen, die besonders geeignet für den Umgang mit Textdaten ist (siehe auch [7]). Besondere Aufmerksamkeit erregte in den letzten Monaten beispielsweise Google’s Language Model for Dialogue Applications – kurz: LaMDA (siehe [8]). Dieses Modell ist darauf trainiert, sich im Dialog möglichst menschlich zu verhalten, und diese Fähigkeit konnte das Modell bereits in mehreren “Interviews” beweisen (siehe [9]). Auch die von OpenAI entwickelten DALL·E Modelle (siehe [10]) können (unter anderem) zu einem Eingabetext passende Bilder erzeugen. Das Modell basiert auf der GPT-3 Architektur (siehe [11]), welche zuvor bereits durch ihre Fähigkeit, neue Texte in bisher unerreichter Qualität zu generieren, überzeugen konnte. Ein vereinfachtes, DALL·E nachempfundenes Modell ist unter craiyon.com öffentlich verfügbar: Was für durchschnittliche Internetuser*innen eine lustige Spielerei ist, kann auch zahlreiche produktive Anwendungen finden.
Die größte Herausforderung bei der Verwendung dieser neuen Modelle in innovativen Forschungsprojekten sind die für die jeweilige Aufgabe verfügbaren Daten. Für erfolgreiches Finetuning eines vortrainierten Modells auf eine neue Aufgabe sind entsprechende Daten notwendig, die dem Modell vorzeigen, was es zu tun hat. Diese Daten müssen auch in ausreichender Menge vorhanden sein und den festgelegten Datenqualitätskriterien entsprechen. Im Weiteren stellt auch die Auswahl des vortrainierten Modells eine Herausforderung dar. Um die besten Ergebnisse zu erzielen, ist eine Literaturrecherche und das Testen und Evaluieren unterschiedlicher Modelle unumgänglich.
Bei all diesen spannenden, neuen Innovationen den Überblick zu behalten, ist nicht immer einfach. Allerdings sollten hier auch nicht immer nur die neuesten Trends beachtet werden. Manche Aufgaben können auch mit älteren Methoden oder (in Kombination) mit ausgeklügelten regelbasierten Systemen gelöst werden, die teilweise effizienter in der Verwendung sind und auch die Nachvollziehbarkeit von Modellentscheidungen ad-hoc ermöglichen. Es lohnt sich daher definitiv, für einen ersten Prototyp auch bereits langfristig etablierte Methoden auszutesten.
Fazit
Menschliche Sprache ist erstaunlich komplex und vielseitig. NLU-Lösungen verstehen und interpretieren sprachlich vermittelte Inhalte immer besser und der rasante Fortschritt wird immer beeindruckender. Fast täglich erhöht sich die Anzahl der öffentlich verfügbaren Modelle, und gleichzeitig zeigt sich, wie vielfältig diese bereits eingesetzt werden können. Mit der zunehmenden Digitalisierung sowie der Menge an routinemäßigen Abläufen steckt noch immer viel ungenutztes Potenzial in den unstrukturierten Textdaten der Unternehmen, um deren Prozesse und Produkte mit NLP-Lösungen auf das nächste Level zu heben. Wenn auch Sie am Einsatz solcher Technologien in Ihrem Unternehmen interessiert sind, unterstützen wir Sie gerne bei der Planung und Umsetzung von NLP-Projekten (https://www.risc-software.at/annalyze-nlp/).
Referenzen
[1] Wartner, Sandra (2021): „OK Google: Was ist Natural Language Processing?” – Wie Maschinen die menschliche Sprache lesen, entschlüsseln und verstehen (ris.w4.at/fachbeitrag-natural-language-processing-1)
[2] Wartner, Sandra (2021): Vom Informationsfluss zum Informationsgehalt – warum sich sauberes Daten(qualitäts)management auszahlt (ris.w4.at/fachbeitrag-datenqualitaet)
[3] Hochleitner, Christina (2021): Förderungen mit laufender Einreichmöglichkeit (https://www.risc-software.at/foerderungen-mit-laufender-einreichmoeglichkeit/)
[4] Wartner, Sandra (2021): Warum auch eine gute Idee eine Machbarkeitsstudie braucht (ris.w4.at/fachbeitrag-warum-auch-eine-gute-idee-eine-machbarkeitsstudie-braucht)
[5] Wartner, Sandra (2021): Wie wir vertrauenswürdige KI-Systeme schaffen und nutzen (ris.w4.at/fachbeitrag-vertrauen-in-die-kuenstliche-intelligenz)
[6] Jaeger, Anna-Sophie (2022): Explainable Artificial Intelligence (XAI) – Wie Machine Learning Vorhersagen interpretierbar(er) werden (ris.w4.at/fachbeitrag-explainable-artificial-intelligence)
[7] Wartner, Sandra (2022): Transformer-Modelle erobern Natural Language Processing (ris.w4.at/fachbeitrag-transformer-modelle-erobern-natural-language-processing)
[8] Thoppilan, Romal, et al. “Lamda: Language models for dialog applications.” arXiv preprint arXiv:2201.08239 (2022).
[9] Lemoine, Blake (2022): “Is LaMDA Sentient? – an Interview” (https://cajundiscordian.medium.com/is-lamda-sentient-an-interview-ea64d916d917)
[10] OpenAI (2022): https://openai.com/dall-e-2/
[11] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.
Kontakt
Autorin
Sandra Wartner, MSc
Data Scientist