Fachthemen

Verfahren und Algorithmen im Adressmanagement

Uniserv legt in der Entwicklung seiner Softwarelösungen einen besonderen Schwerpunkt auf technische Aspekte und die verwendeten Technologien.

Dies entspricht unserer Absicht, Ihnen die bestmöglichen Programmlösungen für sämtliche Aufgaben des Adressmanagements verfügbar zu machen.

Fehlertoleranz

Besonders wichtige Funktionen für qualitativ hochwertige Kundenstammdaten sind optimierte Verfahren und Algorithmen zur Fehlertoleranz. Warum? Bei jeder visuellen oder akustischen Übermittlung oder bei der Erfassung von Adressdaten treten leicht Lese-, Hör- und Schreibfehler auf oder Begriffe werden in einer anderen Reihenfolge erfasst oder einfach anders abgekürzt.

Dies führt dann zum Beispiel dazu, dass:

  • Data-Entry-Fehler vorliegen -> üller statt Müller oder Wiedner statt Weidner
  • Wörter mit gleichem oder ähnlichem Lautbild unterschiedlich geschrieben werden -> Meier statt Mayer oder Stefan statt Stephan
  • Wörter vertauscht sind -> Müller Hans statt Hans Müller
  • oder Wörter nicht einheitlich abgekürzt sind -> H. Müller statt Hans Müller oder Straße statt Str.

Diese Abweichungen sind nicht die Ausnahme, sondern schon fast die Regel. Untersuchungen haben ergeben, dass 10 bis 30 Prozent der Adressen bei mehrfacher visueller oder akustischer Übermittlung oder mehrfacher Erfassung von Mal zu Mal in irgendeiner Weise verändert sind.

Die menschliche Intelligenz, das heißt Wissen um die Bedeutung entsprechender Begriffe, gepaart mit der Fähigkeit zur Assoziation, ermöglicht es, zwei unterschiedliche Adressen, die durch entsprechende Übermittlungsfehler „verändert“ wurden, meist leicht zu erkennen und zu beurteilen, ob es sich dabei um die gleichen Personen/Firmen handelt oder nicht.

Für einen Computer ist ohne einheitliche Kunden- oder Interessentennummer diese Aufgabe deutlich schwieriger zu lösen. Trotzdem gibt es hier einige Verfahren, die sehr gute Ergebnisse ermöglichen:

  • So setzt man zum Beispiel zur Erkennung von typischen Lese- oder Data-Entry-Fehlern Techniken ein, die auf Fuzzy Logic beruhen, oder nutzt spezialisierte Algorithmen, die ähnlich wie Hamming oder Levenshtein das Abstandsmaß zweier Zeichenketten berechnen.
  • Für die Fehlererkennung bei akustischer Übermittlung, beispielsweise in einem Call Center, ist die Fuzzy Logic nur bedingt geeignet. Hier werden spezielle phonetische Verfahren benötigt, die gleichklingende Buchstabenkombinationen als ähnlich bewerten. Zu beachten ist, dass je nach Sprache und Land andere phonetische Verfahren notwendig sind, um optimale Ergebnisse zu erzielen.
  • Wichtig ist, dass die beiden oben beschriebenen Verfahren auch in Kombination wirksam werden können. Denn wie leicht ist es möglich, dass ein Name am Telefon falsch verstanden und anschließend beim Data Entry noch zusätzlich mit einem Tippfehler versehen wird!

Adressanalyse / Datenanalyse

Mit einem fehlertoleranten String-Vergleich allein ist noch keine brauchbare Adressmanagement-Lösung möglich. Für optimierte Datenanalyse bzw. Adressanalyse ist ein weiterer Baustein mit lexikalischem, syntaktischem und semantischem Vergleich notwendig. Denn die Software muss ähnlich der menschlichen Reaktion entscheiden können, welche Bedeutung die Begriffe haben, die verglichen werden. Nur so kann das Programm „sinnvolle“ Entscheidungen fällen. Hierzu einige Beispiele:

Trotz hoher Übereinstimmung nur geringe Wahrscheinlichkeit, dass dies die gleiche Person ist:

  • Hans Müller jun., Hubertusallee 16, 76135 Karlsruhe
  • Hans Müller sen., Hubertusallee 16, 76135 Karlsruhe

Trotz geringer Übereinstimmung hohe Sicherheit, dass dies die gleiche Firma ist:

  • Münchener Allgemeine Brauereiversicherungsgesellschaft mbH
  • Münchner Allgemeine Brauereiversicherungen GmbH

Adressen, die aus denselben Wörtern bestehen, können trotzdem aufgrund der Syntax sehr verschieden sein:

  • Alfons Meier GmbH z. Hd. Herrn Otto Müller
  • Otto Müller GmbH z. Hd. Herrn Alfons Meier

Syntaktisch unterschiedliche Adressen können trotzdem eine hohe Übereinstimmung aufweisen:

  • ABC GmbH, z. Hd. Manfred Schwarz Abteilungsleiter EDV
  • Herrn Schwarz Abt. Datenverarbeitung, c/o ABC GmbH

Um diese Aufgabe lösen zu können, verfügen die entsprechenden Uniserv Produkte über eine interne Datenbank, die die für das jeweilige Land wichtigen Begriffe für Namen und Adressen sowie deren Bedeutungen und Häufigkeiten enthält. Außerdem impliziert sie ein mehrdeutiges, kontextsensitives Regelwerk, in dem beschrieben ist, wie Namens- und Adresselemente in dem jeweiligen Land gebildet werden.

Auf Basis dieser internen Datenbank erfolgen die lexikalischen, syntaktischen und semantischen Vergleiche mit Hilfe eines fehlertoleranten Parsers für mehrdeutige Grammatiken. Dies ist zwar ein recht aufwändiges Verfahren, aber damit lassen sich gerade in kritischen Fällen qualitativ erheblich bessere Ergebnisse erzielen als mit einfachen Stoppwortlisten.

Datenzugriffe

Dem menschlichen Fassungsvermögen entzieht es sich in jedem Fall, die oben beschriebenen Beispiele aus einer Datensammlung von mehreren Millionen Adressen in akzeptabler Zeit herauszufinden. Genau aber an diesem Problem scheitern auch viele Adressmanagement-Programme, die bei einem geringen Adressvolumen noch durchaus akzeptable Ergebnisse liefern, aber bei großen Adressdatenbanken kläglich versagen, weil hier entweder unakzeptable Performance oder ein deutlicher Qualitätsverlust auftreten.

Uniserv hat eigene Datenzugriffsmethoden entwickelt, die fehlertolerante Vergleiche und die Adressanalyse mit Technologien, die in Datenbanksystemen eingesetzt werden, kombinieren. Für die sequentielle Massenverarbeitung (Massenabgleich n:n) einerseits und die interaktive Online-Verarbeitung (Einzelabgleich 1:n) andererseits wurden getrennte Datenzugriffstechnologien entwickelt. Diese Methoden sind für den jeweiligen Einsatzzweck optimiert und garantieren im Massenabgleich eine hohe Durchsatzleistung pro Stunde und im Einzelabgleich eine schnelle Response-Zeit. Die Uniserv Technologie für den Datenzugriff garantiert sowohl in der Massenverarbeitung als auch in der Einzelfallbearbeitung eine hohe Performance ohne die Notwendigkeit der Segmentierung.

Parametrierung

Alle Verfahren sind aber nur so gut, wie sich diese an die jeweilige Aufgabenstellung anpassen lassen. Dies geschieht bei den Uniserv Produkten durch entsprechende Parameter. Damit erfolgt das Customizing für die jeweilige Kundenanforderung. Hier kann zum Beispiel vollkommen individuell festgelegt werden, unter welchen Bedingungen zwei Adressen als ähnlich gelten sollen und in welchen Fällen nicht. Es lässt sich auch festlegen, in welchen Fällen eine sehr hohe Sicherheit besteht, dass es sich um die gleichen Adressen handelt und die Verarbeitung vollmaschinell erfolgen kann, und in welchen Fällen nur ein Verdacht besteht, der unter Hinzuziehung weiterer Informationen geklärt werden muss.

Unicode

Gerade in Zeiten von Globalisierung und Internationalisierung ist im Rahmen von Initiativen zur Sicherung der Qualität von Kunden- und Adressdaten bei der Übermittlung, Erfassung und Speicherung von Adressinformation die richtige Zeicheninterpretation von entscheidender Bedeutung. Um hier Probleme mit unterschiedlichen Zeichensätzen und ihrer Darstellung von vornherein zuverlässig auszuschließen, sind die Uniserv Produkte wie beispielsweise die postalische Prüfung sowie der Dublettenabgleich Unicode-fähig. Vor diesem Hintergrund unterstützen die Uniserv Produkte somit auch Sprachen wie Lateinisch, Arabisch, Griechisch, Kyrillisch, Hebräisch, Katakana, Hiragana, Hangul etc.

The Unicode Consortium - Membership Certificate - Uniserv: