FLOWgoesS2T
Automatisierte, KI-basierte Einbindung von Sprachnachrichten im redaktionellen Workflow einer Verkehrsredaktion
Im von der FFG geförderten Forschungsprojekt FLOWgoesS2T arbeiteten Forscher*innen und Entwickler*innen der XEBRIS Solutions GmbH, aiconix GmbH und der RISC Software GmbH gemeinsam an der Analyse von telefonischen Sprachmeldungen zum österreichischen Verkehrsgeschehen. Das Ergebnis dieser Analysen soll die Grundlage für eine Kategorisierung der Anrufe und die teil-automatisierte Erstellung von Verkehrsmeldungen bilden, denn aktuell bedeutet dies erheblichen manuellen Aufwand für Redakteur*innen.
Ziel ist es, die Interaktion zwischen Redakteur*innen und externen Quellen (z.B. Anrufe von Verkehrsteilnehmer*innen) durch die Unterstützung von innovativen KI-Systemen zu vereinfachen. Dies ermöglicht es, besonders sendungsrelevante Verkehrsmeldungen wie bspw. Geisterfahrermeldungen rasch identifizieren zu können und den Verarbeitungsprozess skalierbar aufzusetzen. Aus Sicht eines Verkehrsteilnehmenden wird zusätzlich die Möglichkeit geschaffen, ohne eine zeitaufwändige bzw. vom Verkehrsgeschehen ablenkende, manuelle Interaktionen (z.B. Eintippen einer SMS-Meldung), per intuitiver Sprachnavigation im Auto eine Sprachnachricht zu übermitteln. Grundlegende Werkzeuge zur Unterstützung bei diesen Aufgaben existieren zwar zumindest teilweise, allerdings nehmen diese keine besondere Rücksicht auf österreichische Dialekte und sind somit im österreichischen Raum kaum einsetzbar.
Vom Audio zum annotierten Text-Transkript
Um Informationen aus einem Sprachanruf ableiten zu können, muss dieser zuerst mittels Speech-to-Text von gesprochener in geschriebene Sprache (Text) überführt werden. Forscher*innen der aiconix GmbH entwickelten zu dieser Transkription ein eigenes Modell, angepasst an die österreichische Sprache und den Verkehrskontext. Eine besondere Herausforderung hierbei war die Rücksichtnahme auf die vielen, unterschiedlichen Dialekte und deren Überführung in Standarddeutsch – ein Problem, das zuvor mit verfügbaren Technologien am Markt noch nicht gelöst wurde.
Der transkribierte Text kann in einem zweiten Schritt für die Extraktion relevanter Informationen verwendet werden (siehe Fachbeitrag NLP). Durch die Kombination von ausgeklügelten regelbasierten Mechanismen und sogenannten Transformer-Modellen (siehe auch Fachbeitrag Transformer-Modelle) – einer speziellen Architektur von künstlichen neuronalen Netzwerken, welche sich besonders für die Analyse von Textdaten eignet – entwickelten die Forscher*innen der RISC Software GmbH ein System zur Erkennung verkehrsrelevanter Textbausteine. So können beispielsweise Straßennummern und -namen, der Ort, die Fahrtrichtung, aber auch komplexere Inhalte wie das Ereignis (z.B. Stau, gesperrte Fahrspur, Geisterfahrer, etc.) und die Ursache dafür (z.B. Auffahrunfall mit 2 PKW, Wildunfall, Bauarbeiten, etc.) vom KI-System automatisch erkannt und entsprechend gekennzeichnet werden.
Zum Training solcher KI-Modelle sind große Mengen an Daten notwendig, um dem Modell beizubringen, was es zu tun hat. Als Datenbasis wurden zwei öffentliche Datensets mit tausenden (standard-)deutschen Verkehrstexten und dazugehörigen Annotationen herangezogen, die für die Aufgabenstellung aufbereitet, vereinheitlicht und für die Ziele des Projekts angepasst wurden. Basierend darauf wurden anschließend eigene KI-Modelle trainiert, evaluiert und abschließend auf den Transkripten der Anrufe getestet.
Innovative Kombination unterschiedlicher Lösungsansätze
Beim Kombinieren unterschiedlicher Systeme, welche sich in ihren Aufgabenbereichen überschneiden, läuft nicht immer alles reibungslos ab. So ergab die Verbindung aus regelbasierten Systemen und den Transformer-Modellen auch hier neue Herausforderungen. Regelbasierte Systeme bieten zwar für einfache Fälle stabile und einfach nachvollziehbare Resultate, allerdings sind die Strukturen der Regeln oftmals zu rigide, um komplexe Inhalte oder Sonderfälle richtig zu behandeln. Künstliche neuronale Netzwerke bieten hier weitaus mehr Flexibilität und oftmals erstaunlich gute Resultate, allerdings können Sie auch Fehler machen und ihr Verhalten ist schwieriger nachzuvollziehen (siehe auch Fachbeitrag Explainable AI). Durch die Kombination der beiden Ansätze sollen die jeweiligen Vorteile optimal ausgenutzt werden, um zum bestmöglichen Resultat zu gelangen. Der Erfolg des entwickelten Prototyps zeigt sich in der Genauigkeit von etwa 90 % (F1-Score) auf hochdeutschen Texten, und etwa 85 % bei transkribierten Texten aus Anrufen mit österreichischen Dialekten.
Das Forschungsprojekt wurde von der Forschungsförderungsgesellschaft im Rahmen des Basisprogramms Kleinprojekte unter der Projekt-Nr. 42190322 gefördert.
Projektpartner
Details zum Projekt
- Projekt-Kurztitel: FLOWgoesS2T
- Projekt-Langtitel: KI-basierte Unterstützung eines vertrauenswürdigen Whistleblowing-Systems
- Fördercall: Basisprogramm Kleinprojekt, FFG
- Projektpartner*innen:
- Xebris Solutions GmbH (Konsortialführugn)
- aiconix GmbH
- Budgetvolumen (gesamt): EUR 149.830
- davon Förderung (gesamt): EUR 89.897
- Laufzeit: 14 Monate (März 2022 – April 2023)
Kontakt
Projektleitung
DI Dr. Markus Steindl
Senior Data Scientist