Procédures et algorithmes relatifs à la gestion d’adresses

Data Quality

Temps de lecture

verfahren-und-algorithmen-im-adressmanagement_header.jpg

Dans le développement de ses solutions logicielles pour la gestion des adresses, Uniserv accorde une importance particulière aux aspects techniques et aux technologies utilisées. En effet, Uniserv souhaite mettre à votre disposition les meilleures solutions logielles possibles pour toutes les tâches de gestion des adresses.

Tolérance aux erreurs

Les méthodes et les algorithmes optimisés d'après la tolérance aux erreurs sont les fonctions particulièrement importantes pour des données de référence clients de haute qualité. Pourquoi ? Lors de chaque transmission visuelle ou acoustique ou lors de la saisie de données d'adresses, des erreurs de lecture, d'audition ou d'écriture se produisent facilement, des termes sont saisis dans un autre ordre ou simplement abrégés différemment.

Voici quelques exemple :

il y a des erreurs d'entrée de données -> üller au lieu de Müller ou Wiedner au lieu de Weidner
des mots avec une phonétique identique ou similaire sont écrits différemment -> Meier au lieu de Mayer ou Stéfane au lieu de Stéphane
des mots sont inversés -> Müller Hans au lieu de Hans Müller
ou des mots ne sont pas abrégés de manière uniforme -> H. Müller au lieu de Hans Müller ou Straße au lieu de Str.

Ces variations ne sont pas l'exception, mais presque la règle. Des études ont montré que 10 à 30 % des adresses sont modifiées d'une manière ou d'une autre lors de transmissions visuelles ou acoustiques multiples ou de saisies multiples d'une fois à l'autre.

L'intelligence humaine, c'est-à-dire la connaissance de la signification des termes correspondants, associée à la capacité d'association, permet généralement de reconnaître facilement deux adresses différentes qui ont été "modifiées" par des erreurs de transmission correspondantes et de juger s'il s'agit ou non des mêmes personnes/entreprises.

Pour un ordinateur, sans numéro unique de client ou de prospect, cette tâche est nettement plus difficile à résoudre. Néanmoins, il existe ici quelques procédés qui permettent d'obtenir de très bons résultats :

Par exemple, pour détecter les erreurs typiques de lecture ou d'entrée de données, on utilise des techniques basées sur la logique floue ou Fuzzy, ou encore des algorithmes spécialisés qui, comme Hamming ou Levenshtein, calculent la distance entre deux chaînes de caractères.
La logique floue n'est que partiellement adaptée à la détection d'erreurs lors d'une transmission acoustique, par exemple dans un centre d'appel. Dans ce cas, des procédés phonétiques spéciaux sont nécessaires, qui évaluent les combinaisons de lettres de même sonorité comme étant similaires. Il convient de noter que, selon la langue et le pays, d'autres procédés phonétiques sont nécessaires pour obtenir des résultats optimaux.
Il est important de savoir que les deux procédures décrites ci-dessus peuvent également être combinées. En effet, il est si facile de mal comprendre un nom au téléphone et d'y ajouter ensuite une faute de frappe lors de la saisie des données !

Analyse d'adresses / Analyse de données

Une comparaison de chaînes de caractères tolérante aux erreurs ne suffit pas à elle seule à fournir une solution de gestion des adresses utilisable. Pour une analyse optimisée des données ou une analyse des adresses, il faut un autre élément avec une comparaison lexicale, syntaxique et sémantique. Car le logiciel doit pouvoir décider, à l'instar de la réaction humaine, quelle est la signification des termes qui sont comparés. Ce n'est qu'ainsi que le programme peut prendre des décisions "sensées". Voici quelques exemples à ce sujet :

Malgré une forte concordance, faible probabilité qu'il s'agisse de la même personne :

Hans Müller jun., Hubertusallee 16, 76135 Karlsruhe
Hans Müller sen., Hubertusallee 16, 76135 Karlsruhe

Malgré une faible concordance, grande certitude qu'il s'agit de la même entreprise :

Société d'assurance brasserie de Munich à resp. limitée
Assurances générales des brasseries munichoises Sarl

Des adresses composées des mêmes mots peuvent néanmoins être très différentes en raison de la syntaxe :

Jean Dupont Sarl à l'attention de Mr. Stéphane Dupuis
Stéphane Dupuis Sarl à l'attention de Mr Jean Dupont

Des adresses syntaxiquement différentes peuvent néanmoins présenter une forte concordance :

ABC Sarl, à l'att. Mr Francois Leblanc Dir. Informatique
Mr. Francois Leblanc, Serv. Informatique, c/o ABC Sarl

Pour pouvoir résoudre cette tâche, les produits Uniserv correspondants disposent d'une base de données interne qui contient les termes importants pour les noms et les adresses dans le pays concerné, ainsi que leurs significations et leurs fréquences. En outre, elle implique un ensemble de règles ambiguës et sensibles au contexte, dans lequel est décrit comment les éléments de nom et d'adresse sont formés dans le pays concerné.

Sur la base de cette banque de données interne, les comparaisons lexicales, syntaxiques et sémantiques sont effectuées à l'aide d'un analyseur syntaxique tolérant aux erreurs pour les grammaires ambiguës. Il s'agit certes d'une procédure assez complexe, mais elle permet d'obtenir des résultats de bien meilleure qualité que de simples listes de mots-clés d'arrêt, notamment dans les cas critiques.

Accès aux données

Dans tous les cas, il est impossible à l'être humain de trouver les exemples décrits ci-dessus dans un délai acceptable à partir d'une collection de données de plusieurs millions d'adresses. C'est précisément à cause de ce problème que de nombreux programmes de gestion d'adresses échouent, car ils fournissent des résultats tout à fait acceptables pour un faible volume d'adresses, mais échouent lamentablement pour les grandes bases de données d'adresses, car il en résulte soit des performances inacceptables, soit une nette perte de qualité.

Uniserv a développé ses propres méthodes d'accès aux données, qui combinent des comparaisons tolérantes aux erreurs et l'analyse d'adresses avec des technologies utilisées dans les systèmes de base de données. Des technologies d'accès aux données distinctes ont été développées pour le traitement séquentiel de masse (comparaison de masse n:n) d'une part et pour le traitement interactif en ligne (comparaison individuelle 1:n) d'autre part. Ces méthodes sont optimisées pour l'utilisation respective et garantissent un débit élevé par heure dans le cadre du rapprochement de masse et un temps de réponse rapide dans le cadre du rapprochement individuel. La technologie d'accès aux données d'Uniserv garantit, tant en traitement de masse qu'en traitement au cas par cas, des performances élevées sans qu'il soit nécessaire de segmenter.

Paramétrage

Tous les procédés ne sont toutefois bons que dans la mesure où ils peuvent être adaptés à la tâche à accomplir. Pour les produits Uniserv, cela se fait par le biais de paramètres correspondants. Le customizing s'effectue ainsi en fonction des exigences du client. Il est par exemple possible de définir de manière totalement individuelle dans quelles conditions deux adresses doivent être considérées comme similaires et dans quels cas elles ne doivent pas l'être. Il est également possible de définir dans quels cas il existe une très grande certitude qu'il s'agit des mêmes adresses et que le traitement peut être entièrement automatisé, et dans quels cas il n'existe qu'un soupçon qui doit être clarifié en faisant appel à des informations supplémentaires.

Unicode

C'est précisément à l'époque de la mondialisation et de l'internationalisation que l'interprétation correcte des caractères revêt une importance décisive dans le cadre des initiatives visant à garantir la qualité des données relatives aux clients et aux adresses lors de la transmission, de la saisie et du stockage des informations d'adresse. Afin d'exclure d'emblée et de manière fiable les problèmes liés aux différents jeux de caractères et à leur représentation, les produits Uniserv, comme par exemple la validation des adresses et la déduplication, sont compatibles Unicode. Dans ce contexte, les produits Uniserv prennent donc également en charge des langues telles que le latin, l'arabe, le grec, le cyrillique, l'hébreu, le katakana, le hiragana, le hangul, etc.