Aktuelles

Die Herausforderungen der Datenintegration und Synchronisation

veröffentlicht am 17. Juni 2016

Als wissenschaftlicher Mitarbeiter der Arbeitsgruppe „Agile Knowledge Engineering and Semantic Web“ (AKSW) an der Universität Leipzig ist Natanael Arndt schon seit vielen Jahren begeistert von der Forschung rund um die Themen “Datenintegration” und “Linked Data”. So hat er in einem Projekt mit der Leipziger Universitätsbibliothek an der Verwaltung von elektronischen Ressourcen (E-Paper, E-Books, Datenbanken) mit Hilfe von Linked Data gearbeitet. Im Wachstumskern-Projekt LEDS leitet er aktuell den Arbeitsschwerpunkt “Management von Hintergrundwissen”, der sich unter anderem mit der Frage der Co-Evolution sowie der Anreicherung von internen Daten mit Wissen aus dem Web of Data und deren Verwaltung befasst. Wenn Natanael nicht gerade das Feld der semantischen Technologien beackert, verbringt er seine Zeit lieber auf dem Rad, beim Joggen oder unterstützt Flüchtlinge bei den ersten Schritten in unsere technisierte Welt. Neuerdings hat er zudem Geocaching für sich entdeckt.

Wie ist der wissenschaftliche Stand beim Thema Synchronisation und Integration semantischer Daten?

Im Grunde genommen sind das alte Probleme, die es – bezogen auf Computer – schon vor Beginn des Internet gab und die bis heute nicht vollständig gelöst werden konnten. Vor 15 Jahren formulierte Tim Berners-Lee zusammen mit Dan Connolly das Problem auf diese Weise:

One of the most stubborn problems in practical computing is that of synchronizing calendars and address books between different devices. Various combinations of device and program, from the same or different manufacturers, produce very strange results on not-so-rare occasions. ¹

Durch das Aufkommen von Cloud Computing ist das Problem noch nicht gelöst worden und eine Lösung umso dringlicher. Google umgeht das Problem zum Beispiel in seiner Kontaktverwaltung durch die Erzeugung von Duplikaten bei auftretenden Konflikten. Neben diesem allgemeinen Anwendungsfall gibt es natürlich auch viele spezifische Szenarien, in denen Daten Integriert werden müssen, und maßgeschneiderte Lösungen. Dort existieren durchaus bereits praxistaugliche Lösungen, zum Beispiel ETL-Prozesse in Data Warehouses. Ein neuerer Ansatz zur gemeinsamen Verwaltung und Abfrage von heterogenen Daten sind immerhin Data-Lakes. Semantische Technologien spielen insbesondere im Bereich des Ontology Matching eine wichtige Rolle, werden aber, meiner Meinung nach, auch auf der Instanzebenen noch mehr an Bedeutung gewinnen.

Welche methodischen und welche technischen Limitation gibt es derzeit noch, die gelöst werden müssen?

Das Problem der Synchronisation und Integration lässt sich in die drei Teile “Umwandlung der Syntax”, “Verstehen der Semantik” und die tatsächliche “Synchronisation der Datenbestände” (Integration) unterteilen (vgl. Berners-Lee und Connolly: Delta). Wenn wir von semantischen Daten reden, haben wir immerhin RDF als gemeinsame Syntax und die Definition der Semantik kann in Ontologien ausgedrückt werden. Zur Betrachtung der Synchronisation von semantischen Daten gehört die Aufzeichnung der Veränderung von Daten (Evolution bzw. Versionierung), die Übertragung der aufgezeichneten Änderungen zwischen den beteiligten Akteuren und deren Datenbeständen und die Integration der Änderungen, d.h. Verschmelzung unter Wahrung der Konsistenz, auf der jeweils anderen Seite. Bei der Suche nach Lösungen ist meines Erachtens eine Trennung der Synchronisation in die einzelnen Teilbereiche notwendig. Insbesondere die Unterscheidung zwischen struktureller Integration und semantischer Integration schafft viel Klarheit. Aber auch die Integration (und Verknüpfung) der Daten ist ein kompliziertes Feld, das nicht immer automatisch gelöst werden kann, sondern Handarbeit verlangt. Es gibt bereits viele vorgeschlagene Lösungen in den einzelnen Teilbereichen. Unsere momentane Aufgabe ist dabei insbesondere die Bewertung dieser Ansätze auf ihre Nutzbarkeit und die Integration der Lösungen in ein gemeinsames System, das die Gesamtheit der Problematik berücksichtigt.

Welcher Aspekt brennt den Forschern aktuell besonders unter den Nägeln?

Im Bereich des Software Engineering werden seit etwa zehn Jahren vermehrt verteilte Versionsverwaltungssysteme, wie git und mercurial, eingesetzt. Deren Entstehung hat insbesondere für Open Source Projekte, aber auch für Unternehmen mit Entwicklern rund um den Globus eine große Verbesserung bei der Synchronisation von Software-Quelltext-Verzeichnissen bedeutet. Dabei kommt eine Kombination aus aufeinander folgenden Versionen bzw. Patches, zusammen mit Pull- und Push-Verfahren zur Übertragung der Änderungen zum Einsatz. Da diese Methoden und Techniken so grundlegend und einfach wirken und im Software Engineering so erfolgreich sind, ist unser aktuell präferierter Weg die Übertragung dieser Techniken und Methoden auf semantische Datenbanken (Siehe dazu „Distributed Collaboration on RDF Datasets Using Git Towards the Quit Store“ by Natanael Arndt, Norman Radtke, Michael Martin).

Welchen Beitrag leistest du im Rahmen des LEDS-Projekts bei dieser Forschung?

Im Laufe des Projekts werden wir unterschiedliche Ansätze in den einzelnen Bereichen (Versionierung, Übertragung der Änderungen zwischen den beteiligten Akteuren und Verschmelzung der Datenbestände, Wahrung der Konsistenz) ausprobieren und auf ihre praktische Nutzbarkeit hin untersuchen. Zusätzlich zu diesen Problemen kommt dann aber noch die Zugriffskontrolle und Kuratierung der Daten, sowie die Systemische Integration bzw. Orchestrierung und Sicherstellung der Skalierbarkeit der einzelnen Komponenten.

Weiterführende Literatur

Structured Feedback: A Distributed Protocol for Feedback and Patches on the Web of Data by Natanael Arndt, Kurt Junghanns, Roy Meissner, Philipp Frischmuth, Norman Radtke, Marvin Frommhold und Michael Martin in Proceedings of the Workshop on Linked Data on the Web co-located with the 25th International World Wide Web Conference (WWW 2016)
Publish and Subscribe for RDF in Enterprise Value Networks by Marvin Frommhold, Natanael Arndt, Sebastian Tramp (geb. Dietzold) und Niklas Petersen in Proceedings of the Workshop on Linked Data on the Web co-located with the 25th International World Wide Web Conference (WWW 2016)

Ausblick auf die SEMANTiCS 2016

Distributed Collaboration on RDF Datasets Using Git: Towards the Quit Store by Natanael Arndt, Norman Radtke, Michael Martin
Towards Versioning of Arbitrary RDF Data by Marvin Frommhold, Ruben Navarro Piris, Natanael Arndt, Sebastian Tramp, Niklas Petersen and Michael Martin

Tim Berners-Lee, Dan Connolly: „Delta: an ontology for the distribution of differences between RDF graphs“ https://www.w3.org/DesignIssues/Diff ↩

Interview, SEMANTiCS 2016, Semantic-Web Technologien, Universität Leipzig, aksw