|
|
Besonders wichtige Funktionen für die Customer Data Quality (CDQ) sind optimierte Verfahren und Algorithmen zur Fehlertoleranz. Warum? Bei jeder visuellen oder akustischen Übermittlung oder bei der Erfassung von Adressdaten treten leicht Lese-, Hör- und Schreibfehler auf oder Begriffe werden in einer anderen Reihenfolge erfasst oder einfach anders abgekürzt.
Dies führt dann zum Beispiel dazu, dass:
Diese Abweichungen sind nicht die Ausnahme, sondern schon fast die Regel. Untersuchungen haben ergeben, dass 10 – 30 Prozent der Adressen bei mehrfacher visueller oder akustischer Übermittlung oder mehrfacher Erfassung von mal zu mal in irgendeiner Weise verändert sind.
Die menschliche Intelligenz, das heißt Wissen um die Bedeutung entsprechender Begriffe, gepaart mit der Fähigkeit zur Assoziation, ermöglicht es, zwei unterschiedliche Adressen, die durch entsprechende Übermittlungsfehler „verändert“ wurden, meist leicht zu erkennen und zu beurteilen, ob es sich dabei um die gleichen Personen/Firmen handelt oder nicht.
Für einen Computer ist ohne einheitliche Kunden- oder Interessenten-Nummer diese Aufgabe deutlich schwieriger zu lösen. Trotzdem gibt es hier einige Verfahren, die sehr gute Ergebnisse ermöglichen:
Mit einem fehlertoleranten Stringvergleich allein ist noch keine brauchbare Adressmanagement-Lösung möglich. Für optimierte Adressanalyse ist ein weiterer Baustein mit lexikalischem, syntaktischem und semantischem Vergleich notwendig. Denn, die Software muss ähnlich der menschlichen Reaktion entscheiden können, welche Bedeutung die Begriffe haben, die verglichen werden. Nur so kann das Programm "sinnvolle" Entscheidungen fällen.
Hierzu einige Beispiele:
Trotz hoher Übereinstimmung nur geringe Wahrscheinlichkeit, dass dies die gleiche Person ist:
Dem menschlichen Fassungsvermögen entzieht es sich in jedem Fall, die oben beschriebenen Beispiele aus einer Datensammlung von mehreren Millionen Adressen in akzeptabler Zeit herauszufinden. Genau aber an diesem Problem scheitern auch viele Adressmanagement-Programme, die bei einem geringen Adressvolumen noch durchaus akzeptable Ergebnisse liefern, aber bei großen Adressdatenbanken kläglich versagen, weil hier entweder unakzeptable Performance oder ein deutlicher Qualitätsverlust auftreten.
Uniserv hat eigene Datenzugriffsmethoden entwickelt, die fehlertolerante Vergleiche und die Adressanalyse mit Technologien, die in Datenbanksystemen eingesetzt werden, kombinieren. Für die sequentielle Massenverarbeitung (Massenabgleich n:n) einerseits und die interaktive Onlineverarbeitung (Einzelabgleich 1:n) andererseits wurden getrennte Datenzugriffstechnologien entwickelt. Diese Methoden sind für den jeweiligen Einsatzzweck optimiert und garantieren im Massenabgleich eine hohe Durchsatzleistung pro Stunde und im Einzelabgleich eine schnelle Responsezeit. Die Uniserv-Technologie für den Datenzugriff garantiert sowohl in der Massenverarbeitung als auch in der Einzelfallbearbeitung eine hohe Performance ohne die Notwendigkeit der Segmentierung.
Alle Verfahren sind aber nur so gut, wie sich diese an die jeweilige Aufgabenstellung anpassen lassen. Dies geschieht bei den Uniserv-Produkten durch entsprechende Parameter. Damit erfolgt das „customizing“ für die jeweilige Kundenanforderung. Hier kann zum Beispiel vollkommen individuell festgelegt werden, unter welchen Bedingungen zwei Adressen als ähnlich gelten sollen und in welchen Fällen nicht. Es lässt sich auch festlegen, in welchen Fällen eine sehr hohe Sicherheit besteht, dass es sich um die gleichen Adressen handelt und die Verarbeitung vollmaschinell erfolgen kann und in welchen Fällen nur ein Verdacht besteht, der unter Hinzuziehung weiterer Informationen geklärt werden muss.
Gerade in Zeiten von Globalisierung und Internationalisierung ist im Rahmen von Initiativen zur Sicherung der Qualität von Kunden- und Adressdaten bei der Übermittlung, Erfassung und Speicherung von Adressinformation die richtige Zeicheninterpretation von entscheidender Bedeutung. Um hier Probleme mit unterschiedlichen Zeichensätzen und ihrer Darstellung von vorne herein zuverlässig auszuschließen, sind die Uniserv-Produkte wie beispielsweise die postalische Prüfung sowie der Dublettenabgleich Unicode-fähig. Vor diesem Hintergrund unterstützen die Uniserv-Produkte somit auch Sprachen wie Lateinisch, Arabisch, Griechisch, Kyrillisch, Hebräisch, Katakana, Hiragana, Hangul etc.
|
Unicode selbst ist ein internationaler Standard, in dem langfristig für jedes sinntragende Zeichen bzw. Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code festgelegt wird. Er will das Problem der verschiedenen inkompatiblen Kodierungen in den unterschiedlichen Ländern beseitigen. Herkömmliche Computer-Zeichensysteme umfassen einen Zeichenvorrat von entweder 128 (7 Bit) Zeichen wie der sehr bekannte ASCII-Standard oder 256 (8 Bit) Zeichen, wie z. B. ISO Latin-1, wovon nach Abzug der Steuerzeichen 96 Elemente bei ASCII und 192-224 Elemente bei den 8-Bit ISO-Zeichensätzen als Schrift- und Sonderzeichen darstellbar sind.
Diese Zeichenkodierungen erlauben die gleichzeitige Darstellung von nur wenigen Sprachen im selben Text, wenn man sich nicht damit behilft, in einem Text verschiedene Schriften mit unterschiedlichen Zeichensätzen zu verwenden. Dies behindert den internationalen Datenaustausch erheblich. Unicode hingegen gibt jedem Zeichen seinen eigenen Code, System-unabhängig, Programm-unabhängig und Sprach-unabhängig. So werden im Unicode-System alle bekannten Zeichen einheitlich festgehalten. Verantwortlich für die Norm zeichnet sich das Unicode-Consortium (www.unicode.org).
|
|
Bei hohem Anspruch an die Qualität großer Adressdatenbanken und dem Wunsch nach hoher Performance bei geringem Verbrauch an Ressourcen führt an den Uniserv-Lösungen kein Weg vorbei! |