Linked Environment Data

Seit 2010 haben einige Projekte des Umweltbundesamts (UBA) mit dem Aufbau eines öffentlichen Daten-Netzwerks auf der technischen Grundlage von Linked Data begonnen. Den Anfang machen die Umweltprobenbank (UPB) und der Semantic Network Service (SNS), im Gespräch sind weitere Informationssysteme und der On-line Katalog der Umweltbibliothek. Das Vorhaben entsteht in internationaler Zusammenarbeit mit der Ecoinformatics Initiative. innoQ ist bei diesen Vorhaben maßgeblich an der technischen Realisierung mit Hilfe des Linked Data-Ansatzes beteiligt.

Linked Data und Umweltinformationen

Die Vernetzung von Umweltdaten und Fachvokabular ist seit den 90er Jahren ein grundsätzliches Anliegen des UBA, welches bereits mit mehreren Projektgenerationen (UMPLIS, UDK, GEIN, SNS, PortalU) verfolgt worden ist. Alle bisherigen Umsetzungen haben jedoch zwei gemeinsame Schwächen:

  • Es wurden stets lediglich Datencontainer (Datenbanken, Informationssysteme, komplexe Webseiten) miteinander vernetzt und nicht einzelne Datensätze.
  • Es gab keine gemeinsam zugreifbare Datenstruktur, sodass jeder Querverweis gewissermaßen vor den Toren des verwiesenen Datenbestands endete, bestenfalls auf einer Webseite, die den Zugang beschreibt.

Genau diese Schwächen sollen mit dem Linked Data-Ansatz überwunden werden.

Vernetzung der Umweltprobenbank

Die Umweltprobenbank berichtet über die Anreicherung von (Schad-)stoffen in Probanden an bestimmten Orten im Zeitverlauf, ist aber selbst nicht der Spezialist, der all diese Bezugselemente erschöpfend beschreiben kann. Daher soll die Vernetzung gezielt auf spezialisierte Information zu jedem dieser Parameter verweisen. Für Stoffe z.B. auf die entsprechende Stoffinformation im GSBL, für Spezies (als Proband) auf EUNIS , für Orte auf den Geo-Thesaurus von SNS, für den Zeitbezug auf die Umweltchronik (ebenfalls SNS). Der Umwelt-Thesaurus (UMTHES) bildet dabei eine übergreifende Klammer, die ihrerseits mit dem internationalen GEMET vernetzt ist.

Von jedem Datensatz der UPB aus gesehen kann direkt zu den Informationen dieser Spezialisten verzeigt werden. Idealerweise erfolgt von dort ein Rückverweis, so dass die Navigation in beiden Richtungen verlaufen kann.

Über die bisher genannten Informationsysteme hinaus gibt es zahlreiche Spezialisten, die nicht von Behörden betrieben werden, z.B. Chemical Entities of Biological Interest ChEBI oder GeoNames . Es ist eine politische Frage, ob auch diese referenziert werden sollen, die technischen Voraussetzungen sind gegeben.

RDF-Modelle

Damit die Vernetzung technisch funktioniert und auf die angegebene Referenz sofort zugegriffen werden kann, muss für alle teilnehmenden Systeme eine Daten-Repräsentation im Resource Description Framework (RDF) geschaffen werden. Auf dieser Grundlage werden individuelle Modelle (RDF Schema oder „Vokabular“) beschrieben und angewendet, die grob mit objektrelationalen Modellen vergleichbar sind, diese aber an Aussagekraft übertreffen können. Zahlreiche RDF Vokabulare sind bereits etabliert. Diese können und sollen nach Möglichkeit verwendet, miteinander kombiniert und nach Bedarf erweitert werden.

  • Das Datenmodell der UPB kann mit dem Data Cubes Vokabular (vormals SCOVO), abgebildet werden. Einige Erweiterungen sind erforderlich, um die domänenspezifischen Dimensionen (Probenart, Analyt, Probenahmegebiet, also die Systematik der UPB-"Steckbriefe") abbilden zu können.
  • Das RDF-Modell des Umwelt-Thesaurus UMTHES ist eine Anwendung des Simple Knowledge Organisation System (SKOS).
  • Das RDF-Modell der Umweltchronik ist eine Erweiterung der Event Ontology
  • Das RDF-Modell des Geo-Thesaurus basiert auf der Geonames Ontology und dem WGS84 Geo Positioning.

Technische Architektur

Es scheint aber nicht effizient, dass jedes der beteiligten Informationssysteme die Linked Data-Mechanismen in eigener Regie implementiert. Stattdessen wird das Umweltbundesamt einen dedizierten Linked Data Server als gemeinsamen Proxy implementieren, der alle URIs dereferenziert, bei Bedarf auf die HTML-Darstellung der einzelnen Systeme weiterleitet und außerdem einen SPARQL-Endpunkt bereitstellt.

Jedes beteiligte System muss dann lediglich seine eigenen Datensätze im jeweiligen RDF Vokabular ausgeben können und bei Änderung so an den Linked Data Server posten.

Auf dieser Grundlage können dann auch weitere Visualisierungsdienste implementiert werden, wie sie z.B. im Data-gov Projekt der US Regierung bereits erprobt werden.

Der Beitrag von innoQ

Ihr Ansprechpartner: Thomas Bandholtz