Fragen & Antworten zum Thema Dublettenabgleich
Was ist die maximal mit mailBatch zu verarbeitende Adressmenge?
Die technisch maximale Grenze liegt jenseits aller in der Praxis vorkommenden Werte. Natürlich hängt die Menge auch von den verfügbaren Ressourcen (Platten- und Hauptspeicherkapazität) ab.
In der Praxis ist die Gesamtmenge der zu verarbeitenden Adressmengen für ein Abgleichprogramm gar nicht so wesentlich, da diese sich ja unter Umständen auf mehrere Länder verteilen können. Wichtig ist die pro Land ohne Segmentierung performant zu verarbeitende Adressmenge.
Als Anhaltspunkt kann Ihnen dienen, dass es Anwender von mailBatch gibt, die regelmäßig mehr als 100 Millionen Adressen aus einem Land ohne Segmentierung in einem Abgleichlauf verarbeiten.
Müssen in mailBatch größere Adressbestände zur Verarbeitung segmentiert werden?
Nein! Segmentierung ist eine Technik, die üblicherweise von Systemen mit einfachen Technologien angewendet werden muss, um beim Vergleich n:n auch bei großen Beständen akzeptable Performance zu erzielen. Der große Nachteil der Segmentierung ist, dass üblicherweise zwischen den Segmenten keine Dublettenerkennung erfolgt. Hier gibt es beim Abgleich sog. "blinde Flecken", in denen meist eine nicht unerhebliche Anzahl unerkannter Dubletten verbleibt.
Muss mailBatch immer kombiniert mit einer postalischen Prüfung durchgeführt werden?
Nein! Generell können Sie einen Abgleich vollkommen ohne postalische Prüfung durchführen. Selbst Datensätze ohne postalische Adressinformation können Sie abgleichen. Allerdings ist es in vielen Fällen jedoch ratsam, mit dem Abgleich auch eine postalische Prüfung und Korrektur durchzuführen
(s.a. postalische Adressprüfung). Dadurch können Dubletten gefunden werden, die durch Eingemeindung oder Straßenumbenennung entstehen und sonst nicht sicher erkannt würden.
Wie erklärt sich die außergewöhnliche Performance von mailBatch gegenüber anderen Systemen bei gleichzeitig anerkannt hoher Ergebnisqualität?
Im Gegensatz zu den marktüblichen Angeboten hat Uniserv für die beiden Aufgabenstellungen - einerseits den Massenabgleich n:n, andererseits dem Online-Einzelabgleich 1:n - zwei technologisch völlig unterschiedliche Verfahren entwickelt. Beide Verfahren verfolgen zwar die gleiche Zielsetzung (fehlertolerante Erkennung) und liefern vergleichbare Ergebnisse, sind aber speziell für das jeweilige Einsatzumfeld ausgelegt. Die meisten anderen Anbieter liefern für beide Anwendungsfelder die gleichen Verfahren, allerdings in getrennten "Verpackungen". Bei kleinen Adressmengen fällt das nicht so sehr ins Gewicht, je größer die Adressmengen sind, desto eher wird die Frage der Performance relevant.
Die Parametrierung von mailBatch erlaubt eine sehr große Flexibilität. Bringt dies nicht zwangsläufig eine gewisse Komplexität in der Anwendung mit sich?
Mit dem Produkt werden bereits Standardparameter für typische Einsatzfälle mitgeliefert. Sie können diese entweder direkt verwenden oder als Vorlage für eigene Parameter nutzen. Daneben stellen wir interaktive Tools bereit, die Sie bei der Erstellung der Vergleichsparameter unterstützen. Hier können Sie Ihre eigenen Vorstellungen zu den Vergleichsregeln entwickeln und auch sofort überprüfen, welche Adresskonstellationen als Dubletten gefunden werden, mit welcher Sicherheit, und welche nicht.
Zusätzlich bieten wir intensive Produktschulungen an und selbstverständlich beraten Sie unsere Experten auch gerne beim "Customizing" dieses Produktes an Ihre speziellen Anforderungen.
Können auch Datensätze, die nur Namen und keine Adressdaten enthalten, mit mailBatch abgeglichen werden?
Selbstverständlich. Sie selbst können ja festlegen, unter welchen Bedingungen zwei Datensätze als Dubletten gelten sollen. Allerdings sollten dann zusätzlich zum Namen weitere Informationen verfügbar sein, um zum Beispiel auf Personenebene Dubletten sicher erkennen zu können. Beispielsweise sind im Versicherungsbereich Abgleiche auf Basis von Name, Vorname und Geburtsdatum nicht unüblich.
Was ist unter der mit mailBatch möglichen Clusterung zu verstehen?
Dieses Verfahren wird häufig im Rahmen von Data-Warehouse-Projekten oder beim Aufbau von Konzern-Adressdatenbanken angewendet. Bei der Clusterung erfolgt keine Eliminierung der gefundenen Dubletten. Statt dessen werden automatisch unterschiedliche "Cluster-Sichten" auf die Adressdatenbank und "Cluster-Identifikationen" gebildet und in die Adressdatenbank eingestellt. Dabei können verschiedene Cluster sowohl unabhängig als auch hierarchisch gebildet werden.
Typische Cluster für Consumer-Adressen sind die Person, der Haushalt oder alle Adressen in einem Gebäude. Für Business-Adressen dienen häufig Abteilung/Bezugsperson einer Firma oder alle Kontakte innerhalb einer Firma zur Cluster-Bildung.
Warum ist es für eine online verwaltete Adressdatenbank empfehlenswert, diese periodisch mit mailBatch zu überprüfen, selbst dann, wenn in der Online-Anwendung ein Tool zur Dublettenerkennung eingesetzt wird?
In den meisten Online-Systemen ist es üblich, dass bei einer Adressneuanlage oder -änderung die Bedienungskraft einen Hinweis bei Dublettenverdacht erhält, der dann akzeptiert oder zurückgewiesen werden kann. Durch Fehlbedienung oder, weil die endgültige Klärung kurzfristig nicht möglich ist, kommt es auch in solchen Systemen zur unbewussten oder in Kauf genommenen, doppelten oder mehrfachen Kundenanlage. Diese Fälle können Sie mit einem periodischen mailBatch-Lauf aufspüren und asynchron klären.
Gibt es spezielle Funktionen, um den periodischen mailBatch-Abgleich einer online gepflegten Adressdatenbank effektiv durchzuführen?
Ja! Hierzu gibt es zwei wesentliche Funktionen:
Erstens, die Index-Datenbank von mailRetrieval kann direkt in mailBatch eingelesen und verarbeitet werden; ein wichtiges Argument für gesteigerte Performance und integrierte Verarbeitung.
Zweitens ist es möglich, die Dublettenerkennung nur auf die seit der letzten mailBatch-Verarbeitung in der Datenbank neu hinzugekommenen oder veränderten Adressen zu fokussieren. Damit werden Dubletten, die bereits überprüft und bewusst im Bestand belassen wurden, nicht bei jedem Abgleich erneut aufgezeigt. Das erleichtert manuelle Nachbearbeitung erheblich.