Erfolgreicher Abschluss: Automatisierte Verkehrszeichenerkennung in OÖ
Innovatives KI-Projekt optimiert die Erfassung von Verkehrszeichen für die Straßenverwaltung
Die RISC Software GmbH hat erfolgreich ein Projekt zur automatisierten Erkennung und präzisen Lokalisierung von Verkehrszeichen abgeschlossen. In Zusammenarbeit mit der Direktion für Straßenbau und Verkehr des Landes Oberösterreich wurde getestet, wie bestehende RGB-Videodaten des RoadSTAR-Aufzeichnungsfahrzeugs zur KI-gestützten Detektion, Klassifikation und Verortung von Verkehrszeichen genutzt werden können. Mittels Machine Learning und Stereokamera-Analyse konnte ein System entwickelt werden, das Verkehrszeichen mit hoher Genauigkeit erkennt und ihre Position in Echtweltkoordinaten bestimmt. Dies ermöglicht eine effiziente und präzisere Verwaltung der Straßendatenbanken und bildet die Grundlage für zukünftige Innovationen in der Verkehrsüberwachung.
Genaue und automatisierte Lokalisierung von Verkehrszeichen im Straßenverkehr
Das Land Oberösterreich erfasst regelmäßig die Straßenzustände des Landes durch Befahrungen des RoadSTAR-Aufzeichnungsfahrzeugs des Austrian Institute of Technology. Unter anderem kommt dabei auch ein kalibriertes Stereokamerasystem zum Einsatz, das die Befahrung in RGB Videos aufzeichnet. Im Auftrag der Direktion für Straßenbau und Verkehr des Landes testete die RISC Software GmbH, inwieweit diese Videos verwendet werden können, um Verkehrszeichen (VZ) einerseits automatisiert zu detektieren (wo im Bild befinden sie sich) und zu klassifizieren (welche VZ sind es) und andererseits mit hoher Genauigkeit zu verorten (wo auf der Welt befinden sie sich). Diese Aufgabe umschließt mehrere Schritte, die in Abbildung 1 gezeigt sind.

Abbildung 1: Schritte der Verkehrszeichenerkennung und -verortung
Erstellung eines VZ Datensatzes
In einem ersten Schritt müssen alle Verkehrszeichen in den Videos verlässlich erkannt werden. Dafür wurde ein repräsentatives Datenset für den österreichischen Straßenraum aus mehreren tausend Bildern erstellt, die zum Teil aus öffentlichen Datensätzes ausgewählt, zum Teil völlig neu annotiert wurden. Hervorgehoben sei hier der öffentliche Datensatz Austrian Highway Traffic Sign Data Set (ATSD), der eine Vielzahl von Verkehrszeichen auf österreichischen Autobahnen enthält und im Zuge des früheren Forschungsprojekts SafeSign entstanden ist.
Modeltraining
Mit diesem Datensatz wurde dann ein Modell trainiert, das die Anforderungen an sowohl Geschwindigkeit als auch Genauigkeit erfüllte. Das ausgewählte, trainierte Detektionsmodell liefert die Positionen von VZ in jedem Bild des linken und rechten Videos als objektumschließende Bounding Box (Rechteck), sowie deren Klassenzugehörigkeit (zB. Vorang geben), siehe auch Abbildung 2. Dies ist die Voraussetzung für die genaue räumliche Verortung.
Abbildung 2: Beispielbild mit detektierten Verkehrszeichen. Jedes Verkehrszeichen ist von einer Bounding Box umfasst, zusätzlich wird noch die Konfidenz des Modells (hier 100%) und die Klasse angezeigt.
Punktpaarung & 3D Positionsschätzung
Ein Stereokamera System erlaubt, die Tiefe eines Punktes im Raum zu schätzen – vorausgesetzt, man kennt die korrespondierende Position in beiden Bilder. Dazu werden Bereiche beider Bilder abgeglichen, um pixelgenaue Korrespondenzen zu indentifizieren (siehe Abbildung 3). Damit kann der Abstand der Punkte zwischen dem linken und rechten Bild berechnet werden – die Disparität (in Pixel). Ein vertrautes Beispiel dafür ist die menschliche Tiefenschätzung: Unsere Augen haben einen konstanten Abstand zueinander und nehmen daher leicht unterschiedliche Bilder auf. Wenn wir auf einen Finger blicken und abwechselnd das linke und rechte Auge schließen, sehen wir, dass der Finger seine relative Position abhängig von der Distanz zum Finger ändert – je weiter weg, desto weniger ist die Verschiebung. Diese Verschiebung ist die Disparität, die unser Gehirn nutzt, um die Entfernung des Fingers zu bestimmen. Da in einem Stereokamerasystem der Abstand der Kameras zueinander (die Baseline) und die Kameraeigenschaften bekannt sind, kann die Disparität in eine Entfernung umgerechnet werden. Und sobald diese relative Position zur Kamera ermittelt wird, können ebenfalls die Echtweltkoordinaten berechnet werden – sofern die GPS Position der Kamera, wie bei dem RoadStar Truck, bekannt ist.
Abbildung 3: Durch Matching werde möglichst pixelgenaue Positionen im linken und rechten Bild identifiziert.
Räumliche Gruppierung
In einem nächsten Schritt werden dann alle Instanzen desselben Verkehrszeichens gruppiert. Das ist notwendig, da beim Vorbeifahren jedes Verkehrszeichen mehrfach aufgezeichnet wird. Jedes muss natürlich verlässlich wiedererkannt werden, besonders wenn mehrere gleiche VZ im Bild sind. Dafür werden die geschätzten Echtweltkoordinaten verwendet, womit auch zugleich Außreißer identifiziert werden können, die inkorrekt verortet wurden (z.B. durch falsche Punktpaarung aufgrund von teilweise verdeckten Zeichen).
Texterkennung
In einem finalen Schritt werden noch Verkehrszeichen betrachtet, die Information in Textform beinhalten. Um etwaigen Text zu extrahieren, wird auf Texterkennungsmodelle für Optical Character Recognition (OCR) zurückgegriffen. Dafür gibt es bereits viele vortrainierte Modelle wie z.B: tesseract, aber auch Vision-Language-Modelle wie Florence-2, die mit entsprechender Vorverarbeitung sehr gute Ergebnisse liefern. Siehe Abbildung 4 für ein Beispiel von Textextraktion auf Km-Tafeln entlang der Straße, die gerade aufgrund ihrer geringen Größe besonders herausfordernd sind.
Abbildung 4: Beispiele für OCR, über dem Bildausschnitt wird der erkannte Text angezeigt.
Ausgabe der Detektionsdaten & Visualisierung
Alle Schritte zusammen liefern dann eine Pipeline, die automatisiert über eine beliebige Anzahl von Videos vorhandene Verkehrszeichen detektieren und verorten kann. Die generierten Daten stehen dann für Visualisierungen, aber auch für Identifikation problematischer VZ bereit. Und – am wichtigsten – für die Verbesserung der Positionsdaten von Verkehrszeichen in den Straßendatenbanken des Landes.
Kontakt
Ansprechperson
Dr. Felix Oberhauser
Data Scientist & Researcher