Aktuelles

Wo stehen wir mit semantischen Technologien eigentlich in zehn Jahren

veröffentlicht am 09. September 2016

Als Abteilungsleiter am Rechenzentrum der Universität Leipzig, stellvertretender Leiter des Kompetenzzentrums für Semantic Data Management am Institut für Angewandte Informatik (InfAI) e.V. sowie als Verantwortlicher für die wissenschaftliche Koordination im LEDS-Projekt beschäftigt sich Michael Martin quasi rund um die Uhr mit der Zukunft semantischer Technologien. Dabei geht es nach eigener Aussage viel öfter um die kleinen alltäglichen Schritte in der wachsenden Datenwelt als um die großen Utopien einer digitalen Zukunft. In seiner täglichen Arbeit stehen deshalb z. B. Technologien im Mittelpunkt, die überhaupt erst einmal die Abfrage, Analyse und Transformation von Bestandsdaten in einfach zu verarbeitende Repräsentationsformen oder die Akquise neuer, noch nicht digital vorliegender Wissensbausteine ermöglichen - und dabei dem Nutzer keinen Doktortitel abverlangen. Star Trek ist da - zugegebenermaßen - noch weit entfernt.

Michael interessiert deshalb auch viel eher das Tagesgeschehen, als Science-Fiction-Bücher. Oder wie er selbst sagt:

“Filme und Bücher, die eine mögliche Zukunft skizzieren, sind meist sehr düster / apokalyptisch oder beschreiben Gesellschaften, die sehr stark von Technologien abhängig sind. Ich hoffe, dass beides nicht eintritt.“

Recht hat er. Wie also sieht Michael Martin selbst die Zukunft mit semantischen Technologien?

Was denkst du, wie weit wird in 10 Jahren die Künstliche Intelligenz sein?

Künstliche Intelligenz (KI) ist kein Thema, dem wir uns aktiv widmen. In unserem Forschungsumfeld geht es vielmehr darum, bestehende Datenbestände um eine Semantik zu erweitern, d.h. Informationen über Struktur und Bedeutung dieser Daten beizufügen. Da sich die Bedeutung von Daten auch häufig aus deren Kontext ableiten lässt, ist es zudem sinnvoll, diese Daten mit anderen Daten zu vernetzen, um so einen Kontext-Bezug herzustellen. Insofern die zu verknüpfenden Daten dezentral organisiert sind (nicht an einem Ort (physisch oder virtuell) verwaltet werden), ergibt sich ein dezentrales Netz von Informationen. Dieses dezentrale, weltumfassende Informationsnetz basiert in seinem Aufbau auf dem RDF-Paradigma und ist im Forschungsumfeld unter dem Namen Linked Open Data Cloud (LOD cloud) bekannt. Es existiert bereits seit vielen Jahren und wird verstärkt seit den letzten 10 Jahren weiterentwickelt. RDF ist ein Akronym für das Resource Description Format, ein spezielles Format zur Repräsentation von Daten, bei dem einerseits Daten und deren Semantik gleichermaßen dargestellt und andererseits die so formatierten und untereinander vernetzten Daten im Web veröffentlicht werden können. Organisationen, die das Thema künstliche Intelligenz aktiv adressieren, können dieses Datennetz verwenden, um die entsprechenden Algorithmen mit Informationen (also Daten und deren Bedeutung) zu füttern (Bsp. http://www.aaai.org/Magazine/Watson/watson.php).

Wenn man davon ausgeht, dass weltweit Organisationen aus Technik, Wirtschaft, Wissenschaft und öffentlichen Verwaltungen auch in den nächsten 10 Jahren daran arbeiten, die LOD cloud mit neuen Informationen anzureichern, so könnten auch spannende neue, durch KI-Algorithmen entstandene Erkenntnisse gewonnen werden.

Wie wird sich unser Alltag verändert haben?

Aus der LOD cloud lassen sich verschiedene Aspekte der Nutzung ableiten. Zum einen sind in der LOD cloud Fakten aus unterschiedlichen Domänen und Sprachen vorhanden, die frei verfügbar sind und z. B. von Unternehmen zur Anreicherung der eigenen Datenbestände mit “fremden” Wissensfragmenten genutzt werden können. Insofern Unternehmen diese öffentlichen Informationen wiederverwenden, können neue Geschäftskonzepte entstehen oder sich bestehende Geschäftskonzepte verändern. So wäre es beispielsweise möglich, Produktinformationen aus der LOD cloud in strukturierter Form zu beziehen und diese wiederum dem Kunden eines Online-Shops in unterschiedlichster Form zur Verfügung zu stellen. Andererseits ist es auch für Organisationen möglich, der LOD cloud Daten eigenverantwortlich zur Verfügung zu stellen und somit eigene Produkte oder Dienstleistungen strukturiert zu präsentieren und im Web auffindbar zu machen.

Ähnliche Beispiele lassen sich auch bei der Administration von Ländern und Kommunen finden. So ist es möglich, auf Basis derart repräsentierter und veröffentlicher Daten Verwaltungsprozesse bzw. die damit verbundenen Kommunikationsstrukturen zu optimieren und zu steuern. Aber auch die Kommunikation zwischen Bürgern und Verwaltung (A2C/C2A)) bzw. Unternehmen und Verwaltung (B2A/A2B)) könnte davon profitieren. Diese Verbesserungen sollten dann auch im Alltag erkennbar sein. Schon heute erleben wir kleine Verbesserungen bei der Kommunikation mit Behörden, wenn man beispielsweise an die digitale Terminvergabe, die digitale Steuererklärung mit Signatur oder das Ausfüllen und Absenden von digitalen Formularen für unterschiedlichste Lebenslagen denkt. In Zukunft stellen wir uns allerdings noch viel weitreichendere Angebote vor, die auf Basis von Daten der öffentlichen Hand bereitgestellt werden.

Beide Bereiche (Business und eGovernment), in denen Dienstleistungen unter Verwendung des Linked Data Paradigmas konzipiert, entwickelt und umgesetzt werden, adressiert das LEDS-Projekt und evaluiert deren Voraussetzungen, Integration und Anwendbarkeit.

Wird es, auch aufgrund semantischer Technologien, dann den komplett gläsernen Menschen geben?

Ich denke nicht, dass semantische Technologien als Voraussetzung für den komplett gläsernen Menschen definiert werden können. Es ist auch heute schon möglich, Daten über Personen aus verschiedenen Quellen zu sammeln und zusammenzuführen, unabhängig von deren Datenrepräsentation.

Wichtig wird allerdings, dass wir der Thematik Datenschutz, ganz speziell bei personenbezogenen Daten, auch zukünftig einen primären Stellenwert zuordnen.

Welche technische Neuerung würdest du persönlich gerne sehen?

Viele der technischen Neuerungen aus unserem Forschungsbereich, die ich mir wünsche oder besser wünschte, sind tatsächlich schon in Entwicklung oder sind vor kurzem wenigstens prototypisch entwickelt worden. Hierzu gehören unter anderem Neuerungen aus den folgenden Themenbereichen:

Datenformate, die eine globale Vernetzung von Informationen ermöglichen,
APIs, Datenbanken, Transformations- und Abfragesprachen, die Bestandsdaten über das Web zugänglich machen,
Qualitätsanalyse- und Qualitätssicherungswerkzeuge,
Versionierungskomponenten, um die Evolution von Informationen nachvollziehen zu können sowie
Publikations- und Visualisierungskomponenten für vernetzte Daten.

Die Fragen, denen wir uns aktuell stellen, zielen eher darauf ab, wie wir neue Technologien flächendeckend in Unternehmen und Administrationen (z. B. von Kommunen) integrieren können. Wir alle wissen, dass extrem viele Wissensschätze weltweit in digitaler und analoger Form existieren, die in ihrer Gesamtheit aktuell jedoch kaum jemandem zugänglich sind. Einerseits gilt es, diese Schätze zu bergen und andererseits, diese großen Datenmengen in Repräsentationsformen zu überführen, die von Mensch und Maschine verstanden und verwaltet werden können. Optimaler Weise führt das zukünftig zu mehr Transparenz bei vielerlei gesellschaftlichen und wirtschaftlichen Entscheidungen (z. B. globale Geldflüsse / Subventionen / Investitionen, Eintritt und Austritt von Staaten aus der EU, Handelsabkommen, Lebensmittelqualität etc.).

Interview, LEDS, SEMANTiCS 2016, Universität Leipzig, semantische Technologien