Articles

Procédures et algorithmes relatifs à la gestion d’adresses

Il va de soi qu’Uniserv prête une attention toute particulière aux aspects techniques et aux technologies à utiliser lors du développement de ses solutions logicielles.

Ceci reflète notre volonté de vous offrir les meilleures solutions logicielles pour mener à bien vos opérations de gestion des adresses.

Tolérance aux erreurs

Pour garantir la haute qualité des données de référence client, il est particulièrement important de se baser sur des procédures et algorithmes optimisés pour une tolérance aux erreurs. Pourquoi ? La transmission visuelle ou sonore et la saisie des données d’adresse sont source d’erreurs de lecture, de compréhension ou d’orthographe. De plus, les termes peuvent être saisis dans le désordre ou abrégés différemment.

Cela peut par exemple mener aux erreurs suivantes :

  • Erreur de saisie des données ? upont au lieu de Dupont ou Druand au lieu de Durand
  • Mots de même sonorité mais écrits différemment ? Durand au lieu de Durant ou Stéfane au lieu de Stéphane
  • Mots inversés ? Noël Jean au lieu de Jean Noël
  • Mots abrégés de façon non harmonisée ? J. Dupont au lieu de Jean Dupont ou boulevard plutôt que bd

Loin de faire exception, ces écarts sont pratiquement devenus la règle. Des études ont montré que dans 10 à 30 % des cas, la transmission visuelle ou sonore répétée des adresses ou leur saisie multiple entraîne des altérations d’une fois sur l’autre.

En présence de deux adresses différentes modifiées par des erreurs de transmission, l’intelligence humaine, c’est-à-dire la connaissance du sens des notions, conjuguée à la capacité d’association, permet le plus souvent de juger aisément s’il s’agit ou non des mêmes personnes/entreprises.

Pour un ordinateur, cette tâche est nettement plus difficile à résoudre s’il ne dispose pas d’un numéro univoque de client ou prospect. Néanmoins, certaines procédures donnent de très bons résultats :

  • Ainsi, par exemple, pour détecter les erreurs typiques de lecture ou de saisie de données, on utilise des techniques qui reposent sur la logique de concordance partielle ou sur des algorithmes spécialisés, comme Hamming ou Levenshtein, qui mesurent la similarité entre deux chaînes de caractères.
  • Pour la détection d’erreurs lors de la transmission sonore, dans un centre d’appels par exemple, le recours à la logique de concordance partielle est moins approprié. Dans ce cas, des méthodes phonétiques spécifiques sont employées afin de faire le rapprochement entre des combinaisons de lettres aux sonorités similaires. Il est à noter que selon la langue et le pays, des méthodes phonétiques différentes sont nécessaires pour assurer le meilleur résultat possible.
  • Les deux méthodes décrites ci-dessus doivent également être efficaces lorsqu’elles sont associées. Il est tellement courant de mal comprendre un nom au téléphone puis de le saisir dans le système en y ajoutant une faute de frappe !

Analyse des adresses

À elle seule, la comparaison des chaînes en tenant compte d’une marge de tolérance ne suffit pas à constituer une bonne solution de gestion d’adresses. Pour optimiser l’analyse des adresses, un module de comparaison lexicale, syntaxique et sémantique est également nécessaire. En effet, le logiciel doit pouvoir déterminer la signification des termes à comparer, à l’image de la réaction humaine. C’est uniquement de cette manière que le programme peut prendre des décisions « intelligentes ». En voici des exemples :

Malgré la forte similarité des enregistrements, la probabilité est faible qu’il s’agisse de la même personne :

  • Jean Dupont fils, 50 allée des peupliers, 76000 Rouen 
  • Jean Dupont père, 50 allée des peupliers, 76000 Rouen 

Malgré la faible similarité des enregistrements, la probabilité est forte qu’il s’agisse de la même raison sociale : 

  • Compagnie d’assurances générales Bonus SARL 
  • Cie d’assurances générales Bonus 

Des adresses comportant les mêmes mots peuvent néanmoins être très différentes du point de vue de la syntaxe : 

  • Albert Meunier SARL, à l’attention de M. Olivier Deschamps 
  • Olivier Deschamps SARL, à l’attention de M. Albert Meunier 

Des adresses différentes du point de vue de la syntaxe peuvent néanmoins présenter une forte concordance : 

  • ABC SARL, à l’attention de Manuel Noiret, responsable informatique 
  • M. Noiret, service informatique, c/o ABC SARL 

Pour résoudre ce problème, les produits d’Uniserv disposent d’une base de données interne contenant les termes importants relatifs aux noms et adresses pour le pays concerné, ainsi que leur signification. Elle tient compte également de règles contextuelles et polysémiques dans lesquelles est décrite la structure des éléments de nom et d’adresse pour ce pays.

À partir de cette base de données interne, des comparaisons lexicales, syntaxiques et sémantiques sont effectuées à l’aide d’un analyseur admettant une marge de tolérance pour les cas de grammaire ambiguë. Il s’agit là d’un procédé assez lourd, mais qui présente l’avantage de donner de biens meilleurs résultats dans les cas critiques que de simples listes de mots vides. 

Accès aux données

Une chose est sûre : un être humain n’aurait pas la capacité, dans un délai raisonnable, de détecter les exemples ci-dessus parmi plusieurs millions d’adresses. C’est précisément à ce problème que se heurtent un grand nombre de programmes de gestion d’adresses : s’ils produisent des résultats tout à fait acceptables lorsqu’ils traitent un petit nombre d’adresses, ils échouent la plupart du temps  en présence de grandes bases de données d’adresses, ce qui se traduit soit par des performances insuffisantes, soit par une perte de qualité significative.

Uniserv a développé ses propres méthodes d’accès aux données, qui allient recoupements avec marge de tolérance, analyse des adresses et technologies utilisées dans les systèmes de bases de données. Des technologies distinctes d’accès aux données ont été conçues pour le traitement séquentiel en masse (comparaison en masse n:n), d’une part, et le traitement interactif en ligne (comparaison individuelle 1:n), d’autre part. Ces méthodes sont optimisées pour chaque usage : dans le cadre du traitement en masse, le niveau de productivité à l’heure est élevé, tandis que lors de la comparaison individuelle, les temps de réponse sont rapides. Autrement dit, qu’il s’agisse d’un traitement en masse ou individuel, la technologie Uniserv d’accès aux données garantit d’excellentes performances, sans recourir à la segmentation.

Paramétrage

Toutes ces procédures ne sont vraiment efficaces que si elles peuvent être adaptées à chaque tâche. C’est pourquoi les produits d’Uniserv contiennent des paramètres qui permettent de personnaliser le produit selon les exigences spécifiques des clients. Par exemple, il est possible de définir individuellement les conditions dans lesquelles deux adresses sont considérées comme semblables, et celles dans lesquelles elles ne le sont pas. On peut aussi préciser les cas où la probabilité est forte qu’il s’agisse des mêmes adresses, si bien que le traitement peut être entièrement automatisé, et ceux dans lesquels un doute subsiste, qui doit être éclairci grâce à des informations complémentaires.

Unicode

À l’ère de la mondialisation, l’interprétation des signes lors de la transmission, la saisie et le stockage des données d’adresses s’avère d’une importance capitale dans le cadre d’initiatives visant à garantir la qualité des données client. Afin d’exclure d’emblée les problèmes liés aux différents caractères nationaux et à leur représentation, les produits Uniserv comme la validation postale et la déduplication, par exemple, prennent en charge le standard Unicode ainsi que les langues suivantes : latin, arabe, grec, cyrillique, hébreu, katakana, hiragana, hangeul, etc.

The Unicode Consortium - Membership Certificate - Uniserv: