Aktuelles

Qualitätssicherung von Daten als Chance und nicht nur Pflicht verstehen

veröffentlicht am 24. August 2016

Prof. Dr.-Ing. Martin Gaedke gehört zu den deutschen Koryphäen im Bereich Web Engineering und Linked Data. Er ist Prodekan der Fakultät für Informatik an der TU Chemnitz und Leiter der Professur Verteilte und selbstorganisierende Rechnersysteme, wo er seit vielen Jahren am optimierten Zusammenspiel von Menschen, Softwarediensten und Cyber-Physikalischen Systemen forscht. Er hat hierzu über 170 Veröffentlichungen publiziert. Im Zentrum seiner Forschung steht die Frage: Wie kann die Zusammenarbeit von Menschen und neuen Technologien unser Leben in einer hoch-vernetzten Gesellschaft nachhaltig verbessern? Neben seinem akademischen Verpflichtungen ist Martin Gaedke zudem Präsident der International Society of Web Engineering (ISWE), Berater für digitale Transformation, agiles Management sowie IKT-Strategie, Gutachter für die Europäische Kommission, den European Research Council und andere internationale Fördereinrichtungen sowie Chefredakteur des Journal for Web Engineering (JWE). Ferner unterstützt er die WebID und Social Web Aktivitäten beim World Wide Web Consortium (W3C) für ein sicheres Web. Wann genau er Freizeit hat, können wir euch wirklich nicht sagen.

Was bedeutet Qualitätskontrolle / Qualitätssicherung in Bezug auf die Nutzung semantischer Daten?

Ganz vereinfacht ausgedrückt beschreibt Datenqualität, ob Daten für ihren Einsatzzweck fit bzw. gut genug sind. Ein einfaches Beispiel lässt sich mit Kundendaten darstellen. Die sogenannten Stammdaten sind Daten über unsere Kunden, etwa die Anschrift oder E-Mail-Adresse. Muss ein Außendienstmitarbeiter zu einem Kunden fahren, um ein Gerät zu reparieren, dann sollte die Adresse in unserer Datenbank richtig sein. Das klingt trivial, ist es aber nicht. Selbst solche sehr einfachen Qualitätsmerkmale liegen häufig nicht vor, weil beispielsweise die Kundenadressen bzw. Stammdaten nicht systematisch gepflegt werden oder es mehrere Datenbanken mit Stammdaten gibt, die nicht synchron gehalten werden. Genau hier setzt die Qualitätskontrolle und Qualitätssicherung ein - indem zunächst Qualitätsstandards festgelegt werden müssen, um deren Einhaltung kontrollieren zu können. Darüber hinaus müssen Prozesse etabliert werden, die zur Einhaltung von Qualitätsstandards führen. Die Qualitätskontrolle / Qualitätssicherung betrachtet natürlich deutlich mehr als nur Adressen oder Stammdaten - sondern befasst sich mit mehreren Dimensionen der Datenqualität, insbesondere mit den vier Dimensionen

intrinsische Datenqualität, die den Wert der Daten an sich beschreibt,
kontext-bezogene Datenqualität, also Anforderungen an Daten für bestimmte Situationen,
sowie Darstellungs- und Verfügbarkeitsaspekte, was systemabhängige Eigenschaften der Datenqualität berührt.

Was ist der Status Quo beim Thema Qualitätskontrolle / Qualitätssicherung?

In den letzten 10 Jahren wurde sehr viel über das Problem der Datenqualität gesprochen. Der Slogan „fitness for use“ hat sich in der Literatur zur Datenqualität durchgesetzt und wurde vielseitig beleuchtet. Eine Studie aus dem Jahr 2002 gibt an, dass die USA jährlich schätzungsweise 600 Milliarden US-Dollar durch mangelhafte Datenqualität verlieren. Mangelhafte Datenqualität hat direkten Einfluss auf den Geschäftserfolg. Im genannten Beispielsszenario des Außendienstmitarbeiters ist es leicht nachvollziehbar, dass die Kundenzufriedenheit sinkt, wenn der Außendienstmitarbeiter ihren Internet-Anschluss nicht reparieren kann, weil er keine korrekte Adresse vorliegen hat und durch Fehlfahrten darüber hinaus auch noch enorme Kosten entstehen. Mangelhafte Datenqualität liegt häufig auch vor, wenn die Kunden nicht finden, was man anbietet - weil sie etwa eine andere Sprache verwenden. So konnten Kunden bei einem Automobilhersteller vor ein paar Jahren keine Autos über die Web-Seiten finden, die mit E10 betankt werden können, weil die Ingenieure alle Kraftstoffe in korrekter DIN-Bezeichnung, hier also beispielsweise ROZ 95 E DIN 51626-1, angegeben hatten.

Mangelhafte Datenqualität aufgrund von schlechter oder häufig gar keiner Qualitätskontrolle / Qualitätssicherung kann dabei nicht nur die Kundenzufriedenheit senken und unnötige Kosten verursachen, sondern auch zu gravierenden Fehlentscheidungen führen, etwa hinsichtlich Markt- und langfristiger Geschäftsstrategien. Beunruhigend ist, dass sich die Situation seither nicht wesentlich geändert hat, wohl aber die Technologie noch komplexer geworden ist und ihre Durchdringung immer intensiver wird. Viele Unternehmen nutzten in der Vergangenheit ihre hierarchischen Strukturen, um die Qualitätskontrolle / Qualitätssicherung zu realisieren. Der Trend geht heute aber zur Dezentralisierung, d.h. zur Verteilung der Daten - etwa zur Speicherung in der Cloud oder der Verarbeitung mittels Software as a Service, und erfordert damit noch mehr Betrachtungen und Regelungen, etwa zu rechtlichen Fragestellungen der Datenlagerung. Ferner nimmt die Datenmenge durch das Internet der Dinge und das Internet der Dienste erheblich zu. Hatte man früher einen Datenwert einer bestimmten Qualitätsgüte zur Verfügung, hat man es heute mit Big Data zu tun, was dann häufig auch sehr viele Daten unterschiedlichster Qualität bedeuten kann. Das ist nicht grundsätzlich schlecht - im Gegenteil; es erfordert aber ein bewusstes Umdenken und vor allem Veränderungen bei Prozessen sowie bei der strategischen Ausrichtung, um Datenqualität als „competitive advantage“ zu etablieren.

Welchen Herausforderungen steht man gegenüber?

Die zentrale Herausforderung ist für viele Unternehmen, den Wandel ins Informationszeitalter weiter und schneller fortzuführen. Unternehmen müssen zunächst verstehen, wie sie bei ihren bisherigen Produkten, Dienstleistungen und Wertschöpfungsketten Daten erheben können. Dies kann beispielsweise durch die Integration von Informations- und Kommunikationstechnologie in die Produkte geschehen, etwa der Internetanschluss bei der Kaffeemaschine, oder internet-gestütztes Messen aller relevanten Parameter bei der Durchführung einer Dienstleistung, bis hin zur nahezu vollständigen Verknüpfung industrieller Produktion mit Informations- und Kommunikationstechnologien (IKT), wie sie mit Industrie 4.0 umschrieben wird. Dies ist ein erheblicher Aufwand, wenn man die gewonnenen Daten lediglich zur Optimierung etwa von Kundenverstehen, Vertrieb und Produktion nutzt. Die echte Herausforderung besteht darin, mit den Daten und dem daraus gewonnenen Wissen das bisherige Geschäftsmodell des Unternehmens so zu transformieren, dass die Daten selbst für das zentrale Wertversprechen und die Verwertung genutzt werden können.

Der 2015 Data Management Industry Benchmark Report des EDM Councils zeichnet ein nicht gerade gutes Bild in Bezug auf die Umsetzung von Qualitätskontrollen in (Finanz-)Unternehmen. Selbst grundsätzliches Datenmanagement wird dort vor allem deswegen umgesetzt, weil es durch Regularien (z. B. BCBS 239) gefordert wird und nicht, weil es sinnvoll und notwendig für den Geschäftserfolg ist. Warum tun sich Unternehmen so schwer damit?

Die allgemeine Wahrnehmung von Regularien ist doch zumeist die, dass diese (oft schwer verständlich) beschreiben, was zu tun ist; und das bedeutet, dass sie Kosten verursachen. Selten wird das „Warum“ solcher Regularien klar, nämlich die Verbesserung von Marktsituationen, Transparenz etc. - was, wenn richtig umgesetzt, zu Kostenreduktion oder Marktvorteilen führen kann. Darüber hinaus stellen Regularien für viele Unternehmen eine Entwicklungsbremse dar, da sie sich erst seit einiger Zeit mit dem Thema digitale Transformation beschäftigen und gerade erst dabei sind, die neuen „Möglichkeiten der Informationszeitalters“ auszuprobieren und zu entdecken - da sind Regelungen zunächst einfach nur hinderlich, da sie Ausprobieren und Lernen erschweren.

Insgesamt lässt sich das m.E. nur dadurch erklären, dass wir (Datenprofis eingeschlossen) nur ganz langsam verstehen, wie wertvoll unsere Daten in unterschiedlichen Kontexten sind - d.h. ab welcher Datenqualität diese für manche Branchen sehr nützlich und damit auch wertvoll werden. Datenqualität ist multi-dimensional und damit schwer fassbar und vergleichbar.

Wie werden diese Herausforderungen im LEDS-Projekt adressiert?

Im LEDS-Projekt beschäftigt sich ein ganzes Arbeitspaket ausschließlich mit dem Thema Datenqualität. So wurde der Begriff der Datenqualität und das allgemeine Verständnis über Datenqualität intensiv recherchiert, analysiert und untersucht. Im Fokus der Arbeiten steht dabei natürlich, wie Datenqualität im Umfeld von Linked Data beschrieben, kontrolliert und gesichert werden kann. Hierzu werden im Projekt Modelle und Vorgehensweisen entwickelt, die die Entwicklung neuer Software unterstützen, um die Nutzung und den hochqualitativen Vertrieb von Daten mittels Linked Data Technologie zu ermöglichen. Die technische Unterstützung wird ferner durch Komponenten ergänzt, die notwendige Aspekte zur Qualitätskontrolle, Klassifikation und Link Discovery ermöglichen soll.

Diese Modelle, Vorgehensweisen und Komponenten stellen Unterstützungsinstrumente zur Qualitätssicherung im LEDS Framework dar. Unternehmen sollen mit dem LEDS-Ansatz damit nicht nur in die Lage versetzt werden, ihre Geschäftsmodelle besser auf Linked-Enterprise-Daten auszurichten und diese zu verwerten bzw. zur Verfügung zu stellen, sondern diese auch im Sinne eines umfänglichen Qualitätsmanagements nachhaltig für verschiedenste Geschäftsszenarien „fit“ zu halten.

Interview, LEDS, Qualitätssicherung, SEMANTiCS 2016, TU Chemnitz