uniserv

Procédés et algorithmes en matière de gestion des adresses

 

Tolérance aux erreurs

Les processus et les algorithmes optimisés pour la tolérance aux erreurs constituent des fonctions privilégiées en matière de qualité des données clients (CDQ). La raison est très simple : Lors de chaque transmission visuelle ou acoustique ou pendant la saisie des données d’adresses, des erreurs de lecture, d’audition et de frappe surviennent facilement. Il arrive également que les termes soient soumis dans un autre ordre ou abrégés tout simplement d’une autre manière.

Ceci entraîne, par exemple :
 
  • Des erreurs de saisie des données : uchemin au lieu de Duchemin ou Dupnot au lieu de Dupont,
  • des fautes d’orthographe : Tour au lieu de Tours ou Frédérique à la place de Frédéric,
  • des inversions de termes : Dupont Jean au lieu de Jean Dupont,
  • ou des mots abrégés de manière différente : J. Dupont au lieu de Jean Dupont ou r. au lieu de rue.
 
Ces différences ne sont pas des exceptions mais plutôt la règle. Des études ont démontré que 10 à 30% des adresses changent d’une façon ou d’une autre à chaque fois qu’elles sont retransmises par voie visuelle ou acoustique ou bien en cas de saisies multiples.

L’intelligence humaine permettant de connaître la signification des termes correspondants, alliée à la capacité d’association, permet souvent d’identifier avec facilité la différence entre deux adresses différentes qui ont été « modifiées » suite à des erreurs de transmission et de juger s’il s’agit des mêmes personnes/entreprises ou non.

Cette tâche s’avère toutefois beaucoup plus difficile pour un ordinateur si celui-ci ne dispose pas de numéro de client/prospect homogène. Néanmoins, il existe certains procédés qui permettent d’obtenir de très bons résultats :
 
  • Ainsi, pour détecter les erreurs typiques de lecture ou de saisie des données, on emploie par exemple des techniques basées sur la logique floue où on utilise des algorithmes spécialisés, similaires à ceux de Hamming ou de Levenshtein, pour calculer la distance entre deux chaînes de caractères.
  • Pour détecter les erreurs lors de la transmission acoustique des informations, par exemple dans un centre d’appel, la logique floue n’est appropriée qu’à certaines conditions. Il faut ici recourir à des procédés phonétiques qui permettent d’évaluer les combinaisons de lettres ayant la même sonorité. Il convient de noter que les procédés phonétiques employés peuvent varier en fonction de la langue et du pays, afin d’obtenir des résultats optimaux.
  • L’important est que les deux procédés mentionnés ci-dessus soient également efficaces lorsqu’ils sont combinés. Car il arrive facilement que le nom soit mal compris au téléphone et qu’il soit ensuite mal écrit suite à une faute de frappe lors de la saisie des données.
 

Analyse d'adresses

 
Une comparaison de chaînes de caractères tolérante aux erreurs ne suffit pas à elle seule pour créer une solution de gestion d’adresses. En effet, pour une analyse d’adresses optimisée, on a besoin d’un composant supplémentaire qui inclut la comparaison lexicale, syntaxique et sémantique. Car le logiciel doit être capable de décider, de manière similaire à la pensée humaine, quelle signification attribuer aux termes comparés. C’est seulement ainsi que le programme pourra prendre des décisions "pertinentes". Voyons les exemples suivants :

En dépit d’une concordance élevée, il est fort improbable qu’il s’agisse de la même personne :
 
  • Charles Duchemin jun, 22 rue de la Trompette, 75012 Paris
  • Charles Duchemin sen, 22 rue de la Trompette, 75012 Paris
 
Malgré une faible concordance, il est fort probable qu’il s’agisse de la même entreprise :
 
  • Technilec SA

  • Technilec SARL
 
Des adresses comportant les mêmes mots peuvent être tout de même très différentes au niveau de leur structure syntaxique :
 
  • Gérard Dupont SARL à l’attention de M. Charles Duchemin

  • Charles Duchemin SARL à l’attention de M. Gérard Dupont
 
Les adresses syntaxiquement différentes peuvent tout de même présenter une concordance élevée :
 
  • TDE SARL à l’attention de Christian Robert chef du service informatique
  • M. Robert Service traitement des données, c/o TDE SARL


    Pour pouvoir mener à bien cette tâche, les produits Uniserv disposent d’une base de données interne qui contient les termes importants concernant les noms et les adresses dans le pays concerné ainsi que leurs significations et leur fréquence. De plus, vous y trouverez également un ensemble contextuel de règles incluant les ambiguïtés des termes où on décrit la façon dont on construit les éléments des noms et des adresses dans le pays concerné.

    Cette base de données interne sert de référence pour effectuer des comparaisons lexicales, syntaxiques et sémantiques à l’aide d’un analyseur (parser) tolérant aux erreurs pour grammaires ambiguës. Le procédé est certes assez lent, mais il permet d’obtenir de meilleurs résultats que si on utilise des listes de mots vides, surtout dans des situations critiques.

 

Accès aux données

 
Il est bien clair que pour l’esprit humain, trouver les exemples mentionnés ci-dessous dans une collection de données de plusieurs millions d’adresses dans un temps acceptable relève de l’impossible. Et c’est précisément là qu’échouent également beaucoup de programmes de gestion d’adresses. En effet, ces derniers offrent des résultats encore très acceptables pour un faible volume d’adresses, mais échouent quand il s’agit de bases de données d’adresses de grande taille, soit à cause d’une performance médiocre, soit à cause d’une perte de qualité notable.

Uniserv a développé ses propres méthodes d’accès aux données qui combinent les comparaisons tolérantes aux erreurs et l’analyse d’adresses aux technologies employées dans les systèmes de bases de données. Des technologies d’accès aux données séparées ont été développées pour le traitement séquentiel en masse (traitement de masse n:n) d’une part, et pour le traitement interactif en ligne (traitement interactif 1:n) de l’autre. Ces méthodes sont optimisées pour l’usage auquel elles sont destinées. Elles garantissent un haut débit par heure pour le traitement en masse et un temps de réponse assez rapide pour le traitement interactif. Que ce soit pour le traitement en masse ou pour le traitement interactif,la technologie Uniserv pour l’accès aux données garantit une haute performance sans la nécessité de recourir à la segmentation.
 

Paramétrage

 
Les procédés ne sont efficaces que dans la mesure où ils se laissent adapter aux différentes tâches spécifiques. Chez Uniserv, cette adaptation s’effectue à travers des paramètres correspondants intégrés dans toute la gamme de produits, ce qui permet de personnaliser les solutions pour qu’elles répondent aux exigences spécifiques de chaque client. L’on peut par exemple déterminer, de manière entièrement personnalisée, les critères nécessaires pour que deux adresses soient considérées comme identiques ou non. L’on peut également déterminer les cas où il est fort probable qu’il s’agisse d’adresses identiques et où l’on doit donc procéder à un traitement entièrement automatique et les cas où subsiste un doute qui doit être dissipé à travers des informations supplémentaires.
 

Unicode

 
Que ce soit lors de la transmission, de la saisie ou de la sauvegarde des informations d’adresses, l’interprétation correcte des caractères revêt une importance cruciale dans le cadre des initiatives prises pour garantir la qualité des données d’adresses et des données clients, surtout dans le contexte actuel de globalisation et d’internationalisation. Pour remédier efficacement et dès le départ aux problèmes associés à la différence des jeux de caractères et de leurs représentations, les produits Uniserv comme par exemple la validation postale et la déduplication sont compatibles avec la norme Unicode. Dans ce contexte, les produits Uniserv prennent en charge des langues telles que le latin, l’arabe, le grec, le cyrillique, l’hébreu, le katakana, le hiragana, le hangul, etc.
Bild

Unicode est une norme internationale dans laquelle un code numérique est attribué de manière définitive à chaque caractère et élément textuel de n’importe quel type d’écriture ou systèmes de caractères. Le but de cette norme est de résoudre le problème de l’incompatibilité des codages dans les différents pays du monde. Les systèmes de caractères classiques comprennent un jeu de caractères qui compte soit 128 caractères (7 bits), comme la célèbre norme ASCII, soit 256 caractères (8 bits), comme la norme ISO Latin-1. Après déduction des caractères de commande, on obtient 96 éléments dans ASCII et 192-224 éléments dans les jeux de caractères ISO 8 bits. Ces éléments peuvent être représentés sous forme de caractères standards et spéciaux. Si l’on n’utilise pas des jeux de caractères différents avec différentes polices, les codages de caractères ne permettront de représenter qu’un nombre assez limité de langues à la fois dans le même texte. Ceci freine de manière significative l’échange international des données. Par contre, Unicode attribue à chaque caractère son propre code, indépendamment du système, du programme et de la langue utilisés. De cette manière, Unicode arrive à définir l’ensemble des caractères connus de façon uniforme. Le consortium Unicode est l’organisme en charge de la normalisation (www.unicode.org).

 
Les solutions Uniserv s’avèrent incontournables si vous avez de hautes exigences envers la qualité des bases de données d’adresses de grande taille, ou si vous souhaitez obtenir un maximum de performances tout en maintenant une faible consommation des ressources !
 


www.uniserv.com  | 
08.02.2012