Fachthemen

Datenkonsolidierung: Daten konsolidieren und Informationen zusammenführen

Eine der wichtigsten Datenqualitätsfunktionen besteht in der Identifikation von Datensätzen, die sich auf dasselbe Geschäftsobjekt, etwa denselben Geschäftspartner oder dasselbe Produkt beziehen.

Diese Anforderung stellt sich in den unterschiedlichsten Kontexten:

Daneben gibt es aber auch Geschäftsanforderungen, die die Bildung „spezieller“ Gruppen von Geschäftsobjekten zum Ziel haben und primär der Informationsgewinnung bzw. Datenanreicherung dienen:

Darüber hinaus können durch Datenanreicherung (Data Enrichment / Data Enhancement) Daten- und Informationslücken geschlossen werden. Dabei kann es sich etwa um demografische oder geografische Daten handeln, die von Drittanbietern angeboten werden:

  • Im Rahmen von geografischen Informationssystemen können alle Einwohner eines Hauses gruppiert werden.

DQ-Funktion consolidate

In vielen Fällen ist jedoch die Identifkation ähnlicher Sätze und die darauf basierende Gruppenbildung nur die halbe Miete. Schließlich geht es häufig darum, unterschiedliche Informationen aus den Mitgliedern einer gefundenen Gruppe zu einer Gesamtinformation zu konsolidieren, d.h. beispielweise in einem Master Record zusammenzuführen, der die kombinierte Information aus allen Sätzen der Gruppe repräsentiert.

Dazu dient die Funktion consolidate. Sie erlaubt es Regeln zu definieren, die dann in einem automatisiert ablaufenden Prozess auf jede Dublettengruppe angewendet werden.

Die Funktion consolidate unterstützt dabei die beiden Modi „Anreichern“ und „Aggregieren“:

  • Anreichern bedeutet, dass Informationen aus dem als Master identifizierten Record in alle Mitglieder der Gruppe übernommen werden. Dabei kann es sich zum Beispiel um eine Referenznummer, eine E-mail Adresse oder andere Informationen handeln, mit denen die Sätze angereichert werden sollen.
  • Aggregieren bedeutet, dass Informationen aus den Gruppenmitgliedern zusammengefasst und im Masterrecord gespeichert werden. Damit ist beispielsweise möglich:

    • Umsätze, die auf mehrere Sätze verteilt gespeichert sind, zu summieren.
    • Die vollständigste Information aus mehreren Sätzen zum Beispiel den ausgeschriebenen Vornamen statt des abgekürzten auszuwählen
    • Teilinformationen zu einer Gesamtinformation zu verknüpfen.

Somit stellt consolidate eine optimale Ergänzung zu mailBatch dar. Allerdings setzt consolidate den Einsatz von mailBatch nicht voraus. In einfachen Fällen, in denen die Sätze, die sich auf dasselbe Geschäftsobjekt beziehen durch einen Schlüsselwert identifiziert werden können, kann consolidate so konfiguriert werden, dass es selbst die Gruppenbildung an Hand der Schlüsselwerte vornimmt.

Die Einsatzmöglichkeiten von consolidate sind vielfältig. Sie reichen von der Übernahme von Informationen aus einer Referenzdatenbank, wie Kommunikationsdaten oder Risikobewertungen, über die Verknüpfung von Sätzen aus unterschiedlichen Systemen durch Schlüsselbeziehungen bis zur Bildung eines Master Records aus mehreren Sätzen nach komplexen Regeln.

Das könnte Sie auch interessieren