Aktuelles

Die Überführung des BVL Online-Stadtführers ins CSV-Datenformat

veröffentlicht am

Dieser Post ist Teil einer Postreihe mit den folgenden Blogposts:

  1. Ankündigung der Zusammenarbeit mit BVL
  2. Über Erstellung der CSV-Datei mit Gebäudeinformationen und Barrierefreiheit
  3. Analyse des Datenmanagements des Behindertenverband Leipzig e.V.
  4. Treffen mit Interessenvertretern zur Vorstellung des Gebäude-Navigators (Open Data Show-Case)

Im vorherigen Blogpost (1.) haben wir über die Zusammenarbeit mit dem Behindertenverband Leipzig e.V. (BVL) gesprochen. In diesem Kontext wurde über den vom BVL herausgegebenen Online Stadtführer sowie dessen Überführung in eine CSV-Datei (Download) gesprochen. Der Online-Stadtführer enthält Informationen zur Barrierefreiheit von Gebäuden und Einrichtungen in Leipzig und unterstützt damit nicht nur Menschen mit Behinderung. Im hier vorliegenden Blogpost möchten wir näher darauf eingehen, wie Informationen des Online-Stadtführers in eine maschinenlesbare Form überführt wurden, welche Probleme wir konstatiert und welche Lösungen wir dafür erarbeitet haben

Über die Daten im Online Stadtführer

Der Behindertenverband Leipzig e.V. (BVL) hat in jahrelanger Arbeit nahezu alle öffentlichen Gebäude (Museen, Bürgerämter, …) und Orte in Leipzig nach den gültigen DIN-Vorschriften 18024 und 18040 zur Barrierefreiheit im Rahmen des Online-Stadtführers klassifiziert und dabei ausgewählte bzw. vor allem metrisch erfassbare Informationen erhoben. Im Datensatz des Stadtführers findet man, neben allgemeinen Angaben über den jeweiligen Ort, vor allem Informationen zu dessen Eingangsbereich, zu vorhandenen Aufzügen, zu Behindertenparkplätzen sowie zu Behinderten-Toiletten. Liegen Angebote für sinnesbeeinträchtigte Menschen vor, werden diese im Detail bereitgestellt. Die ausgewiesenen Daten wurden durch Mitarbeiter vor Ort verifiziert; metrische Angaben wurden durch händische Messungen erhoben. Anhand dieser Vorgehensweise wurde ein Datensatz generiert, der nicht nur sehr umfangreiche Informationen bereitstellt, sondern auch belastbare, durch kontrollierte Prozesse erstellte Daten beinhaltet.

Folgende Themenbereiche werden vom Stadtführer abgedeckt:

Selektion praktikabler Vorschriften aus DIN-Vorschriften

Nicht alle Details der hier relevanten DIN-Vorschriften fanden in der Überführung der Daten Anwendung, sondern nur die für hilfreich und praktikabel befundenen. Dazu möchten wir ein kleines Beispiel geben. In der DIN-Vorschrift 18024-2 (Öffentlich zugängige Gebäude und Arbeitsstätten) heißt es unter anderem:

Bedienungsvorrichtungen (z.B. Schalter, Taster, Toilettenspüler, Briefeinwurf- und Codekartenschlitze, Klingel, Bedienungselemente kraftbetätigter Türen, Notrufschalter) müssen auch mit eingeschränkter Greiffähigkeit leicht benutzbar sein; sie sind in 85 cm Höhe anzubringen. Sie dürfen nicht versenkt und scharfkantig sein. Für Sehbehinderte und Blinde müssen Bedienungselemente durch kontrastreiche und taktil erfassbare Gestaltung leicht erkennbar sein. [Quelle: http://nullbarriere.de/din18024-2-bedienungsvorrichtung.htm]

Dieses Zitat enthält eine Reihe von Anforderungen an öffentliche Gebäude in Form von diversen Begrifflichkeiten, deren inhaltliches Spektrum nicht ohne weiteres erfassbar ist. Es stellt sich die Frage des Bedeutungsspielraumes, bspw. von „eingeschränkte Greiffähigkeit, „leicht benutzbar“ oder auch „scharfkantig“. Diese Formulierungen sind auf den ersten Blick allgemeinverständlich und nachvollziehbar. Sobald es jedoch um die Erfassung und Klassifikation dieser Gegebenheiten vor Ort geht, zeigt sich das Problem der Abstufung, Einteilung und Messung dieser Begriffe. Für eine praktikable Nutzung sind daher eineindeutige, trennscharfe Begriffe und Skalen nötig. Aus diesem Grund hat sich der BVL entscheiden, sich auf klassifizierbare bzw. messbare Anforderungen der DIN-Vorschriften zu beziehen. Eine solche Angabe wäre bspw. die im obigen Zitat genannte Höhenangabe: “Bedienungsvorrichtungen […]; sie sind in 85 cm Höhe anzubringen.“ Der BVL entschied sich zudem, zusätzliche Informationen (u.a. als Piktogramme) über die örtlichen Gegebenheiten bereitzustellen. Auf diese Weise werden komplexe Gegebenheiten visuell zusammengefasst und können bei Bedarf an anderer Stelle nachgelesen werden.

Gründe für die Erstellung der CSV-Datei

Aktuell liegen Informationen über öffentliche Gebäude in Form einer Webseite vor. Auf dieser sind Informationen über HTML-Tags grob strukturiert und teilweise optisch ausgezeichnet (z.B. Markierung von Überschriften). Leider erlaubt diese Form keine effiziente Maschinenlesbarkeit und die Daten selbst lassen sich nicht direkt als Datenquelle für eigene Services einbinden. Unserer Meinung nach sind diese Informationen im Bereich von Open Data jedoch sehr hilfreich, weshalb eine maschinenlesbare Form zur einfacheren Weiterverarbeitung vonnöten ist.

Über die Transformation von Webseite nach CSV-Datei

Wir haben einen Web Scraper programmiert, welcher die Webseiten des Online- Stadtführers mit den Gebäudeinformationen einliest und relevante Informationen extrahiert. Ein Web-Scraper ist ein Programm, welches Informationen aus unstrukturierten Daten auslesen und in einer neuen Form ablegen kann. Unstrukturierte Daten wären z.B. einfache Webseiten und Volltexte. Der Transformator konnte sich in diesem Fall darauf verlassen, dass der BVL die Informationen auf der Homepage immer gleich angeordnet hat. Somit war eine weitgehend vollständige Extraktion von Informationen wie bspw. Gebäudename oder Adresse möglich.

Piktogramme als Wegweiser

Neben den Texten gibt es für jeden Ort ein oder mehrere Piktogramme, welche nähere Informationen darüber angeben, welche Hilfestellungen für Menschen mit Behinderung vor Ort zur Verfügung stehen. Diese Piktogramme werden auf dieser Webseite vom BVL erklärt. Jedem Piktogramm wurde eine klare Semantik zugeordnet. So hat z.B. das Rollstuhl-Piktogramm, mit einem P darauf , die Bedeutung, dass markierte Behindertenparkplätze vorhanden sind. Der Transformator hat sich die Piktogramme zunutze gemacht. Da die Piktogramme selbst schon einer Klassifikation zugeordnet sind, konnte der Transformator diese einfach übernehmen. Nähere Informationen zu den Piktogrammen findet man hier.

Probleme bei Erstellung des Transformators

Bei der Erstellung des Transformators sind wir auf folgende Probleme gestoßen, welche ihren Ursprung in den Daten auf der Homepage haben:

  1. Die HTML-Seite enthielt eine Liste von Orten, die man nur über den <h2> Tag voneinander abgrenzen konnte.
  2. Die Reihenfolge der Informationen innerhalb der Ortsbeschreibung war in allen Beschreibungen identisch, jedoch waren in einigen Feldern (bspw. der Adresse) oft Zusatzinformationen.
  3. Die Transformation von HTML-Sonderzeichen (sprachspezifische Sonderzeichen wie Umlaute und der S-Laut ß) ist problematisch.

Über die Datenqualität der erzeugten CSV-Datei

Die erzeugte CSV-Datei enthält ca. 80% der Informationen, welche auf der Homepage des BVL selbst zu finden sind. Diese Informationen sind jedoch aufbereitet und maschinenlesbar. Leider müssen vorerst die folgenden Einschränkungen bei der Nutzung der CSV-Daten hingenommen werden:

  • Gewisse Datenfelder enthalten noch Fragmente aus anderen Feldern oder die eigentlichen Informationen konnten nicht ausreichend abgrenzt werden. (siehe Problem 2)
  • Datensätze aus der Verkehrskategorie beschreiben Ampeln und Plätze, welche nicht immer eine Adresse besitzen. Das führt zu Irritationen in der Gesamtübersicht, weil die Auflistung der Gebäude und Plätze eine Adresse vorraussetzt. Aus diesem Grund wurden sie ignoriert.
  • Das Adressfeld kann neben Angaben zu Straße, Hausnummer, PLZ und Ort auch zusätzliche Hinweise (z.B. Etage) enthalten, wo auf dem Gelände/innerhalb eines Gebäudes sich die Einrichtung befindet. Diese Angaben wurden vom BVL ergänzt, wenn es sich um ein größeres Gelände mit mehreren Gebäuden handelt oder mehrere Einrichtungen innerhalb eines Gebäudes unterbracht sind.

Einsatzfähigkeit der erzeugten CSV-Datei

Trotz der erwähnten Probleme hat die CSV-Datei ein Maß an Qualität und Umfang erreicht, welches für deren Verwendung spricht. Die erwähnten Probleme sind vorhanden und müssen bei der Einbindung bedacht werden. Die erwähnten Einschränkungen bei den Adressdaten könnten umgangen werden, wenn man die jeweiligen Gebäude bereits über deren Namen oder Homepage identifizieren kann. Darüber können dann die zugehörigen Informationen zur Barrierefreiheit ebenfalls ermittelt werden.

Öffentliches Repository und Feedback

Wir stellen unseren Transformator Open Source für Interessierte zur Nutzung bereit. Man kann den Quellcode in dem folgenden Github-Repository finden: https://github.com/AKSW/transform-bvl-pages-to-csv-file. Jeder Interessierte ist eingeladen über Github Verbesserungen, Kritik und Anregungen einzureichen. Bei persöhnlichen Nachfragen können Konrad Abicht (Universität Leipzig) bzw. der Behindertenverand Leipzig e.V. kontaktiert werden.

Perspektive

Es existiert nun die Infrastruktur in beliebigen Abständen eine CSV-Datei aus den aktuellen Webseiten des BVL mit Gebäudeinformationen zu erzeugen. Es wurde vermieden, die generierte CSV-Datei nachträglich anzupassen, weshalb das zyklische Aktualisieren kein Problem darstellen sollte, weil keine manuellen Anpassungen nachgetragen werden müssen. Wir arbeiten zur Zeit daran, die CSV-Datei über das Open Data Portal der Stadt Leipzig zu publizieren, um sie einem größeren Personenkreis zur Verfügung zu stellen. Sollte es dazu neuere Informationen geben, so geben wir es hier bekannt.

Hauptansprechpartner

asp-f, bvl, csv, extraktion, gebäude, open data