Fachthemen
In Gesprächen über Datenqualität werden schnell die Begriffe Adressvalidierung und Dubletten- Bereinigung oder Matching genannt. Aber Datenqualität ist weit mehr als nur das Prüfen und gegebenenfalls Korrigieren von Adressen und das Zusammenfinden von ähnlichen Datensätzen.
Die folgende Grafik zeigt die vier unterschiedlichen Stufen auf, die bei der Qualität der Daten beachtet werden müssen, damit sie am Ende als echtes „Asset“ für das Unternehmen gelten.
Datenqualität setzt sehr früh an. In der ersten Stufe ergibt sich eine Unterscheidung in zwei Ebenen, der technischen und der fachlichen Ebene. Auf der technischen Ebene geht es erst einmal um die Daten selbst. Gemeint sind die technischen Objekte, ohne schon Inhalte zu zuordnen.
Ist zum Beispiel eine ID in einer bestimmten Weise aufgebaut? Etwa zwei Großbuchstaben, ein Bindestrich, drei Zahlen, ein Bindestrich und ein Kleinbuchstabe (AA-nnn-a).
Auf der fachlichen Ebene geht es um Inhalte, aber noch ohne geschäftlichen Bezug.
Auch eine Prüfung von Abhängigkeiten wird auf dieser Ebene durchgeführt. Wenn Feld A mit einem Wert gefüllt ist, dann muss auch Feld B mit einem Wert belegt sein, sonst wäre der Datensatz falsch. Es geht aber noch nicht um den inhaltlichen Bezug der Werte. Nur wenn schon hier die Qualität stimmt, dann kann auch das Datum einen Sinn ergeben und zu einem Mehrwert für ein Unternehmen beitragen.
Die Qualität wird auf dieser Stufe mit regelbasierten Prüfungen automatisiert auf Feldebene durchgeführt. Bei Fehlern können diese unter Umständen automatisch bereinigt werden. In anderen Fällen muss die Überarbeitung manuell durch einen Data Steward oder verantwortliche Personen durchgeführt werden. Auch die Ausschleusung der Daten an den Absender zur Korrektur ist ein mögliches Szenario.
In der nächsten Stufe, geht es um die Prüfung der inhaltlichen Richtigkeit, also um die Inhalte der Daten. Jetzt kommen Prüfungen wie die Adressvalidierung oder Dubletten-Bereinigung zum Einsatz, weil sie nun auch sinnvoll umgesetzt werden können. Erst wenn fest steht, dass ein Feld für eine Telefonnummer gefüllt ist und auch nur zulässige Zeichen im vorgegebenen Format enthält, ist eine Prüfung auf die Richtigkeit der Telefonnummer sinnvoll und notwendig. Ist eine Adresse korrekt? Ist das eingetragene Produkt tatsächlich definiert? Stimmt die angegebene Email-Adresse? Sind Dubletten vorhanden und wie lassen sie sich zusammenführen?
Sind die Daten auf den ersten beiden Stufen korrekt, können sie schließlich in verbundenen Prozessen genutzt werden. Ein Beispiel sind Produktnummern in einer Bestellung: sie sind nicht nur in der Bestellung enthalten (gefülltes Feld), sondern auch als Produkte definiert. Also verweist die Produktnummer auf das richtige Produkt. Nur dann kann die Bestellverarbeitung oder die Versandvorbereitung gestartet werden. Denn ohne korrekte Daten machen die damit verbundenen Prozesse keinen Sinn.
Hier kommen regelbasierte Prüfungen zum Einsatz, allerdings werden nun die Inhalte der Daten gegen ihre Referenzen geprüft wird. Die Regeln sind also mit einer fachlichen Logik versehen und deshalb sollten sie in enger Abstimmung oder direkt von den Fachabteilungen entwickelt werden. Entsprechende Rollen sind zu definieren und Zuständigkeiten zuzuweisen. Auch spezielle Prüfprozesse, wie die Adressprüfung oder die Prüfung auf Dubletten können jetzt ausgeführt werden. Fehlerhafte Datensätze, die nicht automatisiert oder manuell bereinigt werden konnten, müssen ausgeschleust werden, damit sie in den Folgeprozessen nicht zu Fehlern, Mehraufwand oder gar falschen Entscheidungen führen.
In einer dritten Stufe kann nun auf Basis der geschaffenen Datenqualität das Thema der geschäftlichen Verwendbarkeit angegangen werden. Die Verwendung der Daten kann dabei unterschiedlichster Natur sein und von Unternehmen zu Unternehmen unterschiedliche Anforderungen abdecken:
Können die Fragestellungen eines Unternehmens aus den vorhandenen Daten nicht beantwortet werden, kann dies an falschen oder fehlenden Daten liegen. Dieser Mangel muss dann in den darunter liegenden Stufen 1 und 2, den Anforderungen entsprechend, abgestellt werden.
In der vierten Stufe ist die Data Quality so hoch, dass unternehmenskritische Entscheidungen auf Basis dieser Daten getroffen werden können. Die Daten stellen sicher, dass Voraussagen genauer werden und Investitionen zur Steigerung der Wertschöpfung im Unternehmen beitragen können. Ohne die Qualität der Daten besteht das Risiko, Investitionen fehlzuleiten und damit möglicherweise Verluste für das Unternehmen in Kauf zu nehmen. Dennoch kann nicht garantiert werden, dass alle Entscheidungen zwangsläufig auch zu einer Wertsteigerung führen werden. Dennoch verringert eine hohe Datenqualität dieses Risiko signifikant.
Auch der gesamte Bereich der „predictive Analytics“ macht nur auf qualitätsgesicherten Daten Sinn. Denn nur hoch qualitative Daten können zu einem „Asset“, einem echten Mehr-Wert für das Unternehmen werden.
Bei einem Telekommunikationsunternehmen werden in den Verträgen nicht immer alle Produkte erfasst. Der Kunde hat einen Vertrag und eigentlich Telefon und Internet und TV. Im Vertrag sind aber nur Telefon und Internet angekreuzt. Der Preis im Vertrag gilt für alle drei Anschlüsse und bei der Installation schaltet der Techniker auch alle drei Anschlüsse frei als der Kunde reklamiert. In den Unterlagen wird dies dann aber nicht nachgetragen. Ein Neukunde im gleichen Haus möchte nun zu seinem Telefonanschluss auch noch TV dazu bestellen. Dies wird ihm auch bestätigt, da das System einen freien TV Anschluss ausweist. Am Tage der Installation stellt ein Techniker dann fest, kein Anschluss mehr frei. Der Neukunde ist verärgert, da er seinen Anschluss nicht am zugesagten Termin bekommt. Der Altkunde wird vielleicht verärgert, weil ihm der Anschluss abgeschaltet und dem Neukunden gegeben wird, weil er TV ja laut Vertrag nicht hat. Das Unternehmen muss neue Anschlüsse erstellen lassen, die Teile sind aber gerade nicht auf Lager und müssen bestellt werden. Also viel Ungemach.
Wären die Daten in Stufe 1 und 2 geprüft worden, wäre folgendes festgestellt worden:
Und wenn jetzt auch noch in Stufe 3 aus Analysen erkannt worden wäre, dass in den letzten zwei Monaten 30% mehr Anfragen aus diesem Straßenzug nach TV-Anschlüssen eingegangen sind, hätte in Stufe 4 eine Entscheidung für eine entsprechende Investition sich sicher gelohnt. Der Aufwand an Zeit und Geld für eine Prüfung und Korrektur der Daten ist im Vergleich zu den entstandenen Kosten oder entgangenen Einnahmen eher gering. Zumal die Prüfungen automatisiert durchgeführt werden können. Bei den Korrekturen sind manuelle Eingriffe notwendig, wenn eine automatisierte Berichtigung nicht möglich ist. Diese sollten von Fachpersonal ausgeführt und eventuell erst nach einer Gegenprüfung freigegeben werden.
Der Einwand, die Daten kommen aus Systemen, bei denen in der Eingabemaske schon geprüft wird, ob Angaben korrekt und alle Angaben vorhanden sind, ist sicher richtig und die Systeme werden immer ausgereifter. Aber Hand aufs Herz, in welchem Unternehmen werden Daten nicht doch noch in Excel-Tabellen oder per Hand gepflegten Datenbanken eingestellt und vorgehalten?
Will man Datenqualität erreichen, muss bei einer Anlieferung oder der Erzeugung von Daten darauf geachtet werden, dass die Daten vollständig, richtig und mit allen Abhängigkeiten gefüllt sind. Es sind also Prüfungen auf die Befüllung der relevanten Felder einzurichten. Außerdem sind die Syntax und Inhalte zu prüfen. Und zuletzt auch die Relationen und Plausibilitäten mit anderen Feldern. Erst wenn die Prüfungen auf der technischen und fachlichen Ebene der ersten Stufe bessere Datenqualität geliefert haben, machen weitere Prüfungen zum Inhalt und dann zum geschäftlichen Kontext Sinn. Alle diese Prüfungen lassen sich automatisiert, wiederholbar mit konfigurierbaren Regeln durchführen. Sie müssen aber mit entsprechenden Maßnahmen zur Korrektur fehlerhafter Daten begleitet werden.
Hierfür ist die Rolle des Data Quality Steward vorgesehen. Diese Rolle sollte in einem Unternehmen dann auch eingeführt und gelebt werden. Der DQ Steward muss dabei mit entsprechenden Befugnissen versehen werden, sonst sind notwendige Anpassungen nicht durchsetzbar.
Zusätzlich sollte darauf geachtet werden, dass auch bestehende Datenmengen periodisch wieder überprüft werden, da sich auch hier im Laufe der Zeit Qualitäten verändern können. Änderungen von Straßennamen, Zusammenlegungen von Firmen, Änderungen des Familienstandes sollten eventuell nachgepflegt werden. In einem Data Warehouse werden zum Beispiel Strukturen für neue Läufe zur Datenintegration geändert, aber die schon vorhandenen Daten werden nicht mit Inhalten für diese neuen Strukturen ergänzt. Es kann zu einer Verfälschung bei Analysen oder Prognosen führen, wenn diese Daten dann mit einbezogen, die Inhalte aber nicht ergänzt wären.
Die 4-stufige Pyramide und das Beispiel des Telekommunikationsunternehmens zeigen, wie wichtig eine adäquate Datenqualität ist. So stellt sich regelmäßig die Frage, wie denn die Datenqualität zu bewerten ist. Und zwar im unternehmerischen Kontext.
Es sind Kennzahlen notwendig, die es ermöglichen eine Aussage zur Datenqualität zu treffen. Mit der DQ Scorecard lassen sich Datenqualitäten, die zu bestimmten Prozessen gehören, mit verschiedensten Regeln prüfen. Der DQ Score errechnet sich dann aus den gewichteten Prüfergebnissen der einzelnen Regeln. Dabei können die Gewichtungen für den Anteil an der Berechnung konfiguriert werden, damit kann der Bedeutung eines Datums für ein Unternehmen Rechnung getragen werden.
Durch den Vergleich von DQ Scores lässt sich dann bewerten, ob eingeleitete Maßnahmen zu einer Verbesserung der Datenqualität geführt haben. Warum ist die Datenqualitäts-Kennzahl des DQ Score seit gestern schlechter geworden? Diese Frage kann dann untersucht und hoffentlich auch beantwortet werden, da die Scorecard eine mittels drill-down Analyse bis auf die unterste Regelebene zulässt.
Hilfreich bei der Darstellung der Prüfergebnisse und der ermittelten Kennzahlen sind graphische Aufbereitungen wie sie in Scorecards oder Dashboards zu finden sind. Werden die gewünschten Kennzahlen für die Datenqualität erreicht, können die Daten in der Wertschöpfungskette genutzt werden, um letztendlich daraus den viel beschworenen Mehrwert gewinnen zu können.
Erfahren Sie mehr über die DQ Scorecard in unserem Fact Sheet
Die Uniserv GmbH kann mit ihrer Produktpalette Unternehmen dabei helfen ihre Daten zu prüfen, zu bewerten, zu bereinigen und die Ergebnisse auch sichtbar zu machen. Ob die so gewonnene Datenqualität dann auch dazu führt, dass Unternehmen aus den qualitativ hochwertigen Daten einen Mehrwert gewinnen, hängt davon ab, ob diese Daten in dem richtigen Kontext benutzt werden. Was nutzt es einem Unternehmen, in seinen Daten geprüfte und qualitätsgesicherte Emailadressen von Kunden zu haben, wenn in der Wertschöpfungskette des Unternehmens Emailadressen keine Rolle spielen? Datenqualität alleine generiert aus den Daten keinen Mehrwert für ein Unternehmen. Sie macht nur dort Sinn, wo die Daten in den Prozessen auch Verwendung finden und nur dann können Sie auch den Wert Ihrer Daten durch Datenqualität steigern.
Walter Passareck
Data Quality Solution Architect
Uniserv GmbH