Skalierbare Wetterdatenbank für wetter.at und wetter-deutschland.com
Verlässliche und präzise Wetterprognosen sind sowohl für die Planung privater Freizeitaktivitäten als auch für Unternehmen und Organisationen essenziell. Die Mobile World Information Systems GmbH (MOWIS) bietet dafür Wetterdienste an und betreibt unter anderem die Webseiten wetter.at und wetter-deutschland.com.
Entwicklung durch RISC Software GmbH
Die RISC Software GmbH entwickelte im Auftrag von MOWIS das zentrale Datenhaltungssystem für diese Dienste. Seit 2011 betreut sie es laufend und erweitert es bei Bedarf. Herzstück ist die NoSQL-Datenbank HBase, die auf einem Hadoop-Cluster läuft. Dort fließen kontinuierlich aktuelle Wetterdaten aus unterschiedlichen Quellen ein: Ergebnisse verschiedener Prognosemodelle ebenso wie Messwerte von Wetterstationen. Auf dieser Basis lassen sich weltweit interaktive Wetterprognosen bis zu 14 Tage im Voraus abrufen.
Das System wählt für jede Prognose automatisch die passende Datenbasis aus und kombiniert Informationen aus mehreren Quellen. Zusätzlich speichert es bereits abgerufene Daten zwischen, um Abfragen weiter zu beschleunigen. Eine XML-basierte Schnittstelle erlaubt webbasierten Diensten den Datenabruf. Ergänzend stellte RISC Software mithilfe von Apache Hive auch einen SQL-Zugang bereit. Dieser dient nicht dem Export, sondern der interaktiven Kontrolle der Datenqualität durch MOWIS.

Laufender Datenimport und -export
Der Datenbestand in HBase wird durch den laufenden Import von Prognosemodellergebnissen sowie Messdaten von Wetterstationen auf dem aktuellen Stand gehalten. Hierbei werden die gesamten gelieferten Wetterdaten eines Modells in eine strukturierte Textdarstellung überführt, was in weiterer Folge den Einsatz von Hadoop MapReduce sowie von HBase Bulk-Imports ermöglicht. Damit kann ein hochaufgelöstes Wetterprognosemodell für Österreich über mehrere Stunden innerhalb von fünf Minuten importiert und so zeitnahe für Prognosen zur Verfügung gestellt werden. Analog dazu kann ein weltweites Wetterdatenmodell mit Prognosewerten für einen Tag in fünfzehn Minuten importiert werden. Ein vergleichbarer Datenimport benötigte unter Einsatz der abgelösten Legacy SQL-Datenbank mehrere Stunden.
Entwurf eines geeigneten Datenmodells
Um die Abfragen interaktiv durchführen zu können, wurde das Datenmodell auf die Anfragen angepasst, was zum Beispiel eine schnelle Abfrage nach einem Ort ermöglicht. Um eine NoSQL-Datenbank effektiv nutzbar zu machen, ist der Entwurf eines auf die geplanten Abfragen optimierten Datenmodells zentral. Daher wurden zu Beginn des Projekts gemeinsam mit den Domänenexpert*innen der Firma MOWIS die geplanten Abfragen definiert. Auf dieser Basis wurde das Datenmodell für HBase definiert, das im speziellen schnelle Abfragen auf einzelne Orte erlaubt und andererseits ein automatisiertes Entfernen nicht mehr benötigter Daten ermöglicht. Um einen effizienten Zugriff über andere Attribute zu ermöglichen, wurden zusätzlich zahlreiche Lookup-Tabellen implementiert. Der Einsatz eines Big-Data Systems ermöglicht die flexible Anpassung beziehungsweise Erweiterung des Datenmodells, falls neue Abfragen benötigt werden.
Beschleunigung und Kostenersparnis im Vergleich zur Legacy SQL-Datenbank
Durch die Umstellung auf eine Hadoop-basierte NoSQL Lösung konnte ein zusätzliches Prognosemodell für weltweite Wetterdaten eingeführt werden sowie die Datenimporte sowie Exporte um den Faktor sieben beschleunigt werden. Damit wird es möglich weltweite Wetterprognosen interaktiv abzurufen oder aktuelle Wetterprognosen für ganz Österreich und Deutschland für die obengenannten Webseiten zu exportieren. Hierfür nutzen sowohl die Importe der unterschiedlichen Wettermodelle sowie die Exporte der Datenupdates für wetter.at Hadoop Map-Reduce Jobs, um die Erstellung der aktuellen Wetterprognosen für ganz Österreich und Deutschland am Hadoop-Cluster parallel auszuführen.
Der Einsatz von Hadoop bringt hierbei folgende Vorteile:
- Bei wachsender Datenmenge einfache und kostengünstige Skalierung des Systems durch Hinzufügen neuer Rechenknoten zum Cluster.
- Der Einsatz einer OpenSource Technologie ermöglicht die Einsparung signifikanter Lizenzkosten im Vergleich zu klassischen kommerziellen Datenbankangeboten.
Projektpartner
Details zum Projekt
- Projektpartner*innen:
- Mobile World Information Systems GmbH (MOWIS)
- Laufzeit: 2010 – lfd.
Kontakt
Projektleitung
DI Paul Heinzlreiter
Senior Data Engineer