|
In vielen Unternehmen besteht die IT aus einer gewachsenen Struktur heterogener IT-Systeme. In einer solchen Umgebung besteht sowohl für operative Systeme als auch für analytische Anwendungen häufig der Bedarf, Daten aus unterschiedlichen Systemen in einem Zielsystem zusammenzuführen. Dies trifft beispielsweise für Data Warehouse-Systeme als Basis für Business Intelligence oder Corporate Performance Management zu; aber auch in Stammdatenmanagement-Systemen (Master Data Management) oder bei der Zusammenführung operativer Bewegungsdaten aus Kundensystemen besteht die Notwendigkeit einer Datenintegration. Auch für die Erfüllung der Anforderungen im Themenbereich Governance, Risk und Compliance (GRC) spielt die Datenintegration eine wichtige Rolle, um eine konsolidierte Sicht auf alle relevanten Dateninhalte zu bekommen.
Bei einer Datenintegration werden die Daten aus mehreren Quellsystemen in Real-Time oder auch periodisch im Batchverfahren miteinander verknüpft und konsolidiert. Kein Wunder also, dass mangelhafte Datenqualität, etwa durch Dubletten, fehlerhafte Daten oder unterschiedliche Datenstrukturen in Quell- und Zielsystemen die Datenintegration enorm erschwert – mit erheblichen Auswirkungen auf den Zeitplan und Kostenaufwand.
Datenintegration – miese Karten bei schlechter Datenqualität
Es gibt unzählige Szenarien bei allen in Datenbanken gespeicherten Geschäftsdaten, in denen mangelhafte Datenqualität die Datenintegration behindert. Anders als bei fehlerhaften Kunden- oder Lieferantenadressen existieren bei anderen Datendomänen wie Produkt- oder Materialstammdaten keine maschinell zugänglichen Referenzen oder Modelle, auf deren Basis Abweichungen automatisch erkannt und bereinigt werden können. Hier müssen die für erfolgreiche Integrationsprozesse erforderlichen Maßnahmen rechtzeitig erkannt und spezifische Übernahmeregeln und Schritte zur Sicherung der Datenqualität definiert werden.
Zugang zu Quell- und Zielsystemen bei Datenintegration nur umständlich zu realisieren
Bei der Datenintegration muss oft der Zugang zu einer Vielzahl unterschiedlicher Datenquellen hergestellt werden. Es müssen Daten aus relationalen Datenbanksystemen, aber auch aus Legacy-Systemen oder unterschiedlichen File-Systemen extrahiert werden und nach einem Transformationsprozess in ein Zielsystem geladen werden.
Daten müssen für Integration auf ein einheitliches Zielformat gebracht werden
Die Geschäftsdaten aus den Quellsystemen werden üblicherweise sowohl syntaktisch als auch semantisch nicht den Anforderungen entsprechen, welche die Applikationen von dem Zielsystem erwarten. Deshalb muss vor der Speicherung der Daten im Zielsystem ein entsprechender Transformationsprozess durchgeführt werden.
Modellierung von Daten und Metadaten
Die Gestaltung von Datenintegrationsprozessen ist eine für unterschiedliche Applikationsszenarien immer wiederkehrende Aufgabe. Um eine ständige Wiederholung gleicher Arbeitsschritte zur Vorbereitung und Durchführung von Datenintegrationen zu vermeiden und an einer zentralen Stelle einen Überblick über die Datenlandschaft zu bekommen, werden Metadaten über die Syntax und Semantik von Quell- und Zieldaten ermittelt und gemeinsam mit den Workflows der Datenintegration in einem gemeinsamen Repository gespeichert.
Daten enthalten verwaiste Datensätze
Jedes Datenobjekt steht in einer Datenbank immer in Beziehung zu einem übergeordneten Objekt. Beispielsweise ist ein Kontakt immer einer Firma zugeordnet oder eine Angebotsposition einem Angebot. Fehlen im Quellsystem diese Zuordnungen (”verwaiste Daten”), die aber vom Datenmodell des Zielsystems zwingend gefordert werden, kommt es zu Fehlern bei der Datenübernahme. Dies ist besonders problematisch bei der Zusammenführung von Daten aus verschiedenen Systemen z.B. aus ERP- und CRM-Systemen mit unterschiedlichen Datenbankschemata.
Mängel in Businessdaten und / oder unterschiedliche Formatierungen
Bevor bei einer Datenintegration bestimmte Daten miteinander verknüpft werden, kann eine umfassende Analyse und Bereinigung fehlerhafter oder veralteter Daten vor der Zusammenführung die Datenqualität deutlich steigern. Unterschiedlich formatierte Adressen gibt es vor allem dann, wenn Daten aus mehreren Quellsystemen zusammengeführt werden sollen, die Datenstrukturen dort aber unterschiedlich definiert waren. Beispielsweise wurden im Quellsystem für die Kundendaten die Straßenadresse und die Hausnummer in ein Feld eingegeben, wofür im Zielsystem getrennte Felder vorgesehen sind.
Dubletten bei Kunden- und anderen Daten
Dubletten bei jeder Form von Daten können Auswertungen verfälschen und zu überflüssigen Aufwänden und Kosten durch Mehrfachbearbeitung führen. Entstehen bereits in den Quellsystemen durch Dubletten unnötige Kosten, so vervielfacht sich das Problem durch die Integration von Daten aus mehreren Quellsystemen in ein Zielsystem.
Verknüpfung von Daten unterschiedlicher Systeme
Objekte werden in unterschiedlichen Systemen oft mit abweichenden Namen gespeichert, so dass eine automatische Zusammenführung per Vergleich von Zeichenketten nicht ausreicht. Dies kann an unterschiedlichen Normen zur Speicherung von Stammdaten liegen oder an abweichenden Datenstrukturen von Quell- und Zielsystem. Wurden etwa Kontakte in der Datenbank des Vertriebs in der Hierarchie Firma und Ansprechpartner abgelegt, in der Support-Datenbank Firma und Ansprechpartner in einem Record als eine Einheit erfasst, müssen die Supportdaten bei der Übernahme in ein CRM-System neu gruppiert und mit denen der Vertriebsdatenbank zusammengeführt werden.
Aktuellen Zustand der Datenqualität ermitteln
Weitere Szenarien des Data Managements
|
|
Data Quality Initiativen: Die Datenqualität spielt in einer Vielzahl von Anwendungen der wichtigsten Unternehmensbereiche wie Geschäftsleitung, Vertrieb, Marketing, Finance, Entwicklung oder Business Development eine Schlüsselrolle ... |
|
|
Datenmigration und -konsolidierung: In jedem Unternehmen kommt irgendwann die Zeit, dass neue Applikationen eingeführt oder Daten in andere Systeme überführt werden müssen. Beispielsweise bei der Einführung neuer ERP- und CRM-Lösungen oder bei Firmenübernahmen ... |
|
|
Datensynchronisation: Heterogene Systemlandschaften führen dazu, dass Daten vielfach von unterschiedlichen Abteilungen wie Verkauf, Marketing, Finance oder Fertigung angelegt und gepflegt werden. Im Ergebnis führt dies oft zu einem Daten-Wildwuchs … |
Abonnieren Sie die Uniserv Neuigkeiten und bleiben stets up-to-date
Diskutieren Sie mit Data Quality-Experten über aktuelle Themen