L'une des fonctions les plus importantes pour beaucoup de produits en matière de gestion d'adresses est le processus optimisé et les algorithmes pour la tolérance aux erreurs. Pourquoi ? A chaque transmission visuelle ou acoustique ou lors de la saisie de données d'adresses, des erreurs de lecture, de compréhension et d'orthographe surviennent facilement ou bien les termes sont saisis dans un tout autre ordre ou abrégés tout simplement autrement.
Ceci entraîne par exemple :
Ces divergences ne constituent pas des exceptions, mais sont au contraire presque la règle. Des études ont démontré que 10 à 30 pour cent des adresses sont modifiées d'une certaine manière d'une fois à l'autre lors d'une retransmission visuelle ou acoustique ou de saisies multiples.
L'intelligence humaine connaissant la signification des termes correspondants, alliée à la capacité d'établir des associations, permet de détecter très facilement deux adresses différentes qui ont été "modifiées" par des erreurs de transmission et de juger s'il s'agit là des mêmes personnes/entreprises ou non.
Sans numéro de client ou de prospect homogène, cette tâche est beaucoup plus difficile à résoudre pour un ordinateur. Néanmoins, il existe ici quelques procédés qui donnent de très bons résultats :
Avec une comparaison de chaîne de caractères tolérante aux fautes, aucune solution de gestion d'adresses valable n'est encore possible. Pour une analyse d'adresses optimisée, un composant supplémentaire doté d'une comparaison lexicale, syntaxique et sémantique s'impose. Car le progiciel doit être en mesure de décider de manière similaire à la réaction humaine quelle signification ont les termes qui doivent être comparés. Ce n'est que de cette manière que le programme peut prendre les décisions "judicieuses". Quelques exemples :
En dépit d'une concordance élevée, il est peu probable qu'il s'agisse de la même personne :
Les exemples décrits ci-dessus issus d'une collection de données de plusieurs millions d'adresses se dérobent à la capacité de compréhension humaine dans un temps acceptable. Mais précisément sur ce point, beaucoup de programmes de gestion d'adresses échouent, alors qu'ils délivrent des résultats encore très acceptables pour un faible volume d'adresses. Toutefois, ils échouent lamentablement dans le cas de bases de données d'adresses importantes, parce qu'une performance inacceptable ou une perte de qualité notoire surviennent à ce stade.
Uniserv a développé ses propres méthodes d'accès aux données combinant les comparaisons tolérantes aux fautes et l'analyse d'adresses aux technologies utilisées dans les systèmes de base de données. Pour le traitement de masse (traitement séquentiel classique des doublons de type n:n) d'une part et le traitement en ligne interactif (traitement interactif 1:n), des technologies d'accès aux données séparées ont été développées. Ces méthodes sont optimisées pour leur utilisation respective et garantissent une puissance de débit par heure élevée pour le traitement séquentiel et un temps de réponse rapide pour le traitement interactif. La technologie Uniserv en matière d'accès aux données garantit, aussi bien dans le traitement séquentiel que dans le traitement interactif, une performance élevée sans la nécessité de la segmentation.
Mais tous les procédés ne sont probants que dans la mesure où ils se laissent adapter aux différentes tâches spécifiques. C'est le cas des produits Uniserv à travers les paramètres correspondants. Le "customizing" est ainsi réalisé pour répondre aux exigences spécifiques de chaque client. L'on peut ici déterminer de manière entièrement personnalisée sous quelles conditions deux adresses doivent être considérées comme identiques et dans quels cas elles ne le doivent pas. L'on peut aussi déterminer dans quels cas il est très vraisemblable qu'il s'agisse des mêmes adresses et le traitement doit se faire de manière entièrement automatique et dans quels cas il subsiste un doute qui doit être éclairci en tenant compte des autres informations.
Tout particulièrement en cette époque de mondialisation et d'internationalisation, dans le cadre des initiatives prises pour garantir la qualité des données d'adresses et les données clients, l'interprétation correcte des caractères revêt une importance cruciale dans la transmission, la saisie et la sauvegarde des informations d'adresses. Pour éviter dès le départ et de manière fiable tous les problèmes causés dans ce domaine par des jeux de caractères différents et leurs représentations différentes, les produits Uniserv – comme par exemple la vérification postale, ainsi que le dédoublonnage – sont compatibles avec Unicode. Dans ce contexte, nos produits Uniserv prennent ainsi en charge des langues telles que le latin, l'arabe, le grec, le cyrillique, l'hébreu, le katakana, le hiragana, le hangul, etc.
|
Unicode est elle-même une norme internationale dans laquelle on attribue de manière définitive un code numérique à chaque caractère significatif, par ex. un élément de texte, peu importe la culture de l'écriture ou le système de caractères auquel il appartient. L'objectif est de résoudre le problème des codages différents et incompatibles qui existent dans nos différents pays. Les systèmes de caractères informatiques traditionnels englobent un corpus de caractères qui compte soit 128 caractères (7 bits), comme la norme ASCII très connue, soit 256 caractères (8 bits), comme par ex. ISO Latin-1, qu'on peut représenter sous forme de caractères standards ou de caractères spéciaux (après déduction des caractères de commande) avec 96 éléments dans ASCII et 192-224 éléments dans les jeux de caractères ISO 8 bits. Ces codages de caractères permettent de représenter simultanément un nombre relativement limité de langues dans le texte lui-même, si l'on ne réussit pas à utiliser dans un même texte des polices différentes adoptant différents jeux de caractères. Ce facteur entrave considérablement l'échange international de données. Or, Unicode attribue à chaque caractère son propre code, indépendamment du système, du logiciel et de la langue adoptés. Autrement dit, le système Unicode définit uniformément tous les caractères connus. C'est le consortium Unicode qui assume la responsabilité de cette norme (www.unicode.org).
|
|
Si vous avez de hautes exigences en matière de qualité, si vous devez traiter des bases de données d'adresses importantes ou si vous souhaitez obtenir des performances élevées pour une faible consommation de ressources, les solutions Uniserv sont alors incontournables ! |
Uniserv est listé dans le carré magique des outils de qualité des données de Gartner (« Magic Quadrant for Data Quality Tools ») suite ...
________________________
Validation postale:
3 nouveaux pays experts sont à votre disposition : la Hongrie, la Slovaquie et la Rép. Tchèque. Testez en direct !