UNISERV S.A.R.L.   
Bât. Le Sisley PARIS NORD 2 
23 Allée des Impressionnistes 
BP 53421 Villepinte 
95944 ROISSY CH DE GAULLE CEDEX 
Tél. : 01 48 63 91 91 
Fax :01 48 63 91 96

Procédés et algorithmes en matière de gestion des adresses

Tolérance aux erreurs

 

L'une des fonctions les plus importantes pour beaucoup de produits en matière de gestion d'adresses est le processus optimisé et les algorithmes pour la tolérance aux erreurs. Pourquoi ? A chaque transmission visuelle ou acoustique ou lors de la saisie de données d'adresses, des erreurs de lecture, de compréhension et d'orthographe surviennent facilement ou bien les termes sont saisis dans un tout autre ordre ou abrégés tout simplement autrement.

Ceci entraîne par exemple :

 
  • Des erreurs de saisie de données   →  rgenton au lieu d'Argenton ou Duupont à la place de Dupont,
  • Des fautes d'orthographe  → Baieux au lieu de Bayeux ou Stephane à la place de Stéphane,
  • Des inversions de termes     → Argenton Jean au lieu de Jean Argenton,
  • Des mot abrégés de manière différente   → J. Argenton au lieu de Jean Argenton ou rue au lieu de r.
 

Ces divergences ne constituent pas des exceptions, mais sont au contraire presque la règle. Des études ont démontré que 10 à 30 pour cent des adresses sont modifiées d'une certaine manière d'une fois à l'autre lors d'une retransmission visuelle ou acoustique ou de saisies multiples.

L'intelligence humaine connaissant la signification des termes correspondants, alliée à la capacité d'établir des associations, permet de détecter très facilement deux adresses différentes qui ont été "modifiées" par des erreurs de transmission et de juger s'il s'agit là des mêmes personnes/entreprises ou non.

Sans numéro de client ou de prospect homogène, cette tâche est beaucoup plus difficile à résoudre pour un ordinateur. Néanmoins, il existe ici quelques procédés qui donnent de très bons résultats :

 
  • Ainsi, l'on mise par exemple sur la reconnaissance de techniques d'erreurs de lecture ou de saisie de données typiques qui reposent sur la logique floue ou bien l'on utilise les algorithmes spécialisés qui calculent de manière similaire à Hamming ou Levenshtein la distance entre deux chaînes de caractères.
  • Pour la reconnaissance d'erreurs lors d'une transmission acoustique, par exemple dans un centre d'appel, la logique floue n'est appropriée qu'à certaines conditions. Il faut ici faire appel à des procédés spéciaux phonétiques qui calculent les combinaisons de lettres ayant la même sonorité. Il convient de remarquer qu'en fonction de la langue et du pays, d'autres processus phonétiques sont nécessaires pour obtenir des résultats optimaux.
  • L'important est que les deux processus décrits ci-dessus puissent être également efficaces en combinaison. Car il n'est pas rare qu'un nom mal compris au téléphone soit ensuite doté d'une faute de frappe au stade de la saisie des données !
 

Analyse d'adresses

 

Avec une comparaison de chaîne de caractères tolérante aux fautes, aucune solution de gestion d'adresses valable n'est encore possible. Pour une analyse d'adresses optimisée, un composant supplémentaire doté d'une comparaison lexicale, syntaxique et sémantique s'impose. Car le progiciel doit être en mesure de décider de manière similaire à la réaction humaine quelle signification ont les termes qui doivent être comparés. Ce n'est que de cette manière que le programme peut prendre les décisions "judicieuses". Quelques exemples :

En dépit d'une concordance élevée, il est peu probable qu'il s'agisse de la même personne :

 
  • Jean Argenton jun,  9 rue de Bayeux, 14000 Caen
  • Jean Argenton sen, 9 rue de Bayeux, 14000 Caen
 
En dépit d'une faible concordance, il est fort probable qu'il s'agisse de la même entreprise :
 
  • Nutrimer SA
  • Nutrimer SARL
 
Les adresses qui se composent des mêmes mots peuvent être tout de même très différentes en regard de la syntaxe :
 
  • Jean Bayeux SARL à l'attention de M. Jean Argenton
  • Jean Argenton SARL à l'attention de M. Jean Bayeux
 
Les adresses syntaxiquement différentes peuvent tout de même présenter une concordance élevée :
 
  • ABCD SARL à l'attention de Marc Lenoir chef du service informatique
  • M. Lenoir Service traitement des données, c/o ABCD SARL

    Afin de pouvoir résoudre cette tâche, les produits d'Uniserv correspondants disposent d'une base de données interne comportant les termes importants des noms et des adresses pour le pays concerné ainsi que leurs significations et leurs fréquences. Ils comprennent également un ensemble de règles, intégrant les ambiguïtés de termes et la sensibilité au contexte, décrivant la manière dont les éléments des noms et des adresses sont formés dans le pays concerné.

    A l'appui de cette base de données interne, les comparaisons lexicales, syntaxiques et sémantiques sont opérées à l'aide d'un analyseur syntaxique tolérant aux erreurs pour grammaires équivoques. Certes, c'est un procédé qui prend beaucoup de temps, mais qui permet aussi des résultats de meilleure qualité dans des cas critiques que les simples listes de mots stop.
 

Accès aux données

 

Les exemples décrits ci-dessus issus d'une collection de données de plusieurs millions d'adresses se dérobent à la capacité de compréhension humaine dans un temps acceptable. Mais précisément sur ce point, beaucoup de programmes de gestion d'adresses échouent, alors qu'ils délivrent des résultats encore très acceptables pour un faible volume d'adresses. Toutefois, ils échouent lamentablement dans le cas de bases de données d'adresses importantes, parce qu'une performance inacceptable ou une perte de qualité notoire surviennent à ce stade.

Uniserv a développé ses propres méthodes d'accès aux données combinant les comparaisons tolérantes aux fautes et l'analyse d'adresses aux technologies utilisées dans les systèmes de base de données. Pour le traitement de masse (traitement séquentiel classique des doublons de type n:n) d'une part et le traitement en ligne interactif (traitement interactif 1:n), des technologies d'accès aux données séparées ont été développées. Ces méthodes sont optimisées pour leur utilisation respective et garantissent une puissance de débit par heure élevée pour le traitement séquentiel et un temps de réponse rapide pour le traitement interactif. La technologie Uniserv en matière d'accès aux données garantit, aussi bien dans le traitement séquentiel que dans le traitement interactif, une performance élevée sans la nécessité de la segmentation.

 

Paramétrage

 

Mais tous les procédés ne sont probants que dans la mesure où ils se laissent adapter aux différentes tâches spécifiques. C'est le cas des produits Uniserv à travers les paramètres correspondants. Le "customizing" est ainsi réalisé pour répondre aux exigences spécifiques de chaque client. L'on peut ici déterminer de manière entièrement personnalisée sous quelles conditions deux adresses doivent être considérées comme identiques et dans quels cas elles ne le doivent pas. L'on peut aussi déterminer dans quels cas il est très vraisemblable qu'il s'agisse des mêmes adresses et le traitement doit se faire de manière entièrement automatique et dans quels cas il subsiste un doute qui doit être éclairci en tenant compte des autres informations.

 

Unicode

 

Tout particulièrement en cette époque de mondialisation et d'internationalisation, dans le cadre des initiatives prises pour garantir la qualité des données d'adresses et les données clients, l'interprétation correcte des caractères revêt une importance cruciale dans la transmission, la saisie et la sauvegarde des informations d'adresses. Pour éviter dès le départ et de manière fiable tous les problèmes causés dans ce domaine par des jeux de caractères différents et leurs représentations différentes, les produits Uniserv – comme par exemple la vérification postale, ainsi que le dédoublonnage – sont compatibles avec Unicode. Dans ce contexte, nos produits Uniserv prennent ainsi en charge des langues telles que le latin, l'arabe, le grec, le cyrillique, l'hébreu, le katakana, le hiragana, le hangul, etc.

Bild

Unicode est elle-même une norme internationale dans laquelle on attribue de manière définitive un code numérique à chaque caractère significatif, par ex. un élément de texte, peu importe la culture de l'écriture ou le système de caractères auquel il appartient. L'objectif est de résoudre le problème des codages différents et incompatibles qui existent dans nos différents pays. Les systèmes de caractères informatiques traditionnels englobent un corpus de caractères qui compte soit 128 caractères (7 bits), comme la norme ASCII très connue, soit 256 caractères (8 bits), comme par ex. ISO Latin-1, qu'on peut représenter sous forme de caractères standards ou de caractères spéciaux (après déduction des caractères de commande) avec 96 éléments dans ASCII et 192-224 éléments dans les jeux de caractères ISO 8 bits. Ces codages de caractères permettent de représenter simultanément un nombre relativement limité de langues dans le texte lui-même, si l'on ne réussit pas à utiliser dans un même texte des polices différentes adoptant différents jeux de caractères. Ce facteur entrave considérablement l'échange international de données. Or, Unicode attribue à chaque caractère son propre code, indépendamment du système, du logiciel et de la langue adoptés. Autrement dit, le système Unicode définit uniformément tous les caractères connus. C'est le consortium Unicode qui assume la responsabilité de cette norme (www.unicode.org).

 
Si vous avez de hautes exigences en matière de qualité, si vous devez traiter des bases de données d'adresses importantes ou si vous souhaitez obtenir des performances élevées pour une faible consommation de ressources, les solutions Uniserv sont alors incontournables !
 
 

Quick Links

Actualités

Uniserv est listé dans le carré magique des outils de qualité des données de Gartner (« Magic Quadrant for Data Quality Tools ») suite ...
________________________

Validation postale:
3 nouveaux pays experts sont à votre disposition : la Hongrie, la Slovaquie et la Rép. Tchèque. Testez en direct !


UNISERV S.A.R.L.   
Bât. Le Sisley PARIS NORD 2 
23 Allée des Impressionnistes 
BP 53421 Villepinte 
95944 ROISSY CH DE GAULLE CEDEX 
Tél. : 01 48 63 91 91 
Fax :01 48 63 91 96

www.uniserv.com  | 
07.08.2008