UNISERV Sàrl

   
Bât. Le Sisley PARIS NORD 2 
23 Allée des Impressionnistes 
BP 53421 Villepinte 
95944 ROISSY CH DE GAULLE CEDEX 
Tél. : 01 48 63 91 91 
Fax : 01 48 63 91 96

Questions & réponses sur la recherche de préexistence et l'identification des clients

 

A partir de quelle quantité d'adresses est-il intéressant d'utiliser un outil pour identifier les adresses ?

Dès que l'on perd la vue d'ensemble manuelle par simple comparaison, des doublons apparaissent. L'on perd déjà la vue d'ensemble à partir d'env. 500 adresses. En effectuant un tri, les doublons peuvent être éventuellement détectés jusqu'à 10 000 adresses environ. Au-delà, un outil est indispensable pour éviter les doublons.
 

Quelle est la différence entre le système mailRetrieval et la fonction de recherche standard de toutes les bases de données au moyen de "caractères joker"?

  • Les résultats sont délivrés nettement plus rapidement. Même pour des fichiers contenant plusieurs millions d'adresses, le temps de réponse se situe généralement en dessous d'une seconde.
  • Même sans caractères joker, la recherche avec mailRetrieval est tolérante aux erreurs. Ceci n'est pas sans importance, car l'utilisation de caractères joker implique la connaissance exacte de l'endroit d'une erreur éventuelle !
  • Le contrôle de doublons peut être effectué automatiquement, c'est-à-dire sans devoir être lancé par l'utilisateur, pour chaque nouvelle adresse ou pour toute mise à jour. Ceci permet d'éviter presque automatiquement la création de doublons sans que l'utilisateur ait besoin d'effectuer des recherches fastidieuses.
  • Une identification fiable a alors lieu si par exemple
    • des noms sont permutés : Argenton Jean au lieu de Jean Argenton
    • des noms sont abrégés : J. Argenton au lieu de Jean Argenton
    • des noms ne se prononcent pas comme ils s'écrivent : Baieux au lieu de Bayeux
    • il y a une erreur de saisie : rgenton au lieu d'Argenton
  • Les résultats sont fournis dans l'ordre décroissant de leur degré de concordance. Ceci facilite considérablement les opérations et évite de passer un temps infini à feuilleter les listes de résultats.
 

Quelle est la quantité d'adresses maximale à traiter via mailRetrieval ?

La limite technique maximale se situe au-dessus de toutes les valeurs rencontrées dans la pratique. Naturellement, le volume de la base de données d'adresses à gérer de manière performante dépend des ressources disponibles (CPU ainsi que capacité du disque et de la mémoire principale). En pratique, la quantité des adresses à sauvegarder dans la base de données n'est pas si importante pour une identification d'adresses en temps réel, étant donné que celles-ci peuvent se répartir dans certaines conditions sur plusieurs pays. L'important est la quantité d'adresses à gérer de manière performante par pays sans segmentation.

Un exemple tiré de la pratique : certains utilisateurs de mailRetrieval gèrent des bases de données d'adresses comportant plus de 60 millions d'adresses de particuliers sans redondance par pays.
 

Est-ce que les bases de données plus importantes doivent être segmentées pour le traitement dans mailRetrieval ?

Non ! La segmentation est une technique qui doit en général être appliquée par des systèmes dotés de technologies simples, afin d'obtenir une performance acceptable même dans de très grandes bases de données d'adresses. Le grand inconvénient de la segmentation est qu'aucune détection de doublons ne se fait entre les segments. On peut ici rencontrer des "points dits aveugles" pendant la comparaison, où peuvent se cacher un nombre non négligeable de doublons non détectés. Pour des raisons d'organisation, seule une répartition en fonction des pays peut être conseillée sous certaines conditions pour des applications internationales très importantes.
 

Quelle performance offre mailRetrieval ?

La performance concrète dépend naturellement en grande partie des ressources (CPU ainsi que capacité du disque dur et de la mémoire principale). Etant donné qu'Uniserv a développé des procédés de recherche tolérants aux erreurs spéciaux pour l'identification d'adresses en temps réel, ceux-ci offrent une performance élevée pour des exigences en ressources moindres. Un exemple tiré de la pratique :

La gestion de 10 millions d'adresses sans segmentation sur un serveur Intel relativement petit avec 1 GHz et 500Mo de RAM entraîne un temps de réponse moyen inférieur à 0,5 seconde pour une recherche tolérante aux erreurs sur tous les champs de noms et d'adresses !
 

Est-ce que, pour la mise à jour, mailRetrieval assure que l'intégrité des données et la sécurité de transaction sont garanties entre la base de données et la structure d'index mailRetrieval ?

Oui. En fonction du champ d'application, différents procédés sont utilisés. En guise de solution générale dans l'environnement client/serveur, mailRetrieval soutient le protocole de validation à deux phases.
 

Est-ce que mailRetrieval peut être également utilisé dans des applications batch à côté d'applications interactives ?

Oui. En particulier lorsqu'il s'agit seulement d'intégrer des petites quantités d'adresses en comparaison de la taille de la base de données et que des temps de réaction brefs sont nécessaires, la détection automatique de doublons et l'assemblage dynamique par grappes des adresses sont aussi utilisés en batch.
 

Est-ce que le contrôle automatique de doublons doit être effectué uniquement pour les créations de nouvelles adresses ou aussi pour les modifications d'adresses ?

Il est important qu'outre les nouvelles créations, les modifications d'adresses soient également contrôlées en ce qui concerne les doublons. L'expérience a montré que dans les entreprises qui ne contrôlent que les nouvelles créations, un nombre non négligeable de doublons peut parvenir dans la base de données d'adresses via la fonction de modification. Votre interlocuteur chez Uniserv vous donnera volontiers toute information supplémentaire à ce sujet.
 

Est-ce que mailRetrieval requiert des progiciels Connectivy supplémentaires en matière d'exploitation client / serveur ?

Non. Tous les composants requis sont contenus dans le serveur mailRetrieval et le kit client correspondant. La technologie client/serveur UNISERV mise directement sur le progiciel Système TCP/IP existant dans chaque système d'exploitation. Un progiciel Connectivy supplémentaire est superflu.
 

Est-ce que mailRetrieval est aussi en mesure d'identifier les adresses susceptibles de contenir des doublons, si ces dernières sont indiquées avec des adresses respectivement valables, mais différentes ou similaires ? (par exemple chiffre inversé dans le numéro de rue ou tout fait semblable, mais rues respectivement valables).

Bien entendu. Etant donné que mailRetrieval n'a pas besoin de segmentation, le progiciel n'a aucun problème avec ceci. Cette situation survient pour les systèmes qui doivent effectuer des segmentations pour de grandes bases de données - allant même jusqu'au niveau de la maison - pour obtenir une performance acceptable.
 

Est-ce que la mise à jour via mailRetrieval doit toujours être effectuée de manière combinée avec un contrôle postal ?

Non, mais il est recommandé d'utiliser ces systèmes ensemble. En général, vous pouvez utiliser mailRetrieval sans vérification postale. Toutefois, il est recommandé de contrôler l'adresse aussi sous un plan postal avant toute nouvelle création ou modification d'adresses, pour garantir qu'aucun doublon ni adresse incorrecte d'un point de vue postal ne soient sauvegardés dans la base de données.
 

Est-ce que des adresses peuvent être recherchées avec mailRetrieval de manière tolérante aux erreurs via des informations autres que les éléments du nom et de l'adresse ?

Bien entendu ! La recherche tolérante aux erreurs est par exemple possible via le numéro de téléphone, l'adresse e-mail ou WEB, la date de naissance ou d'autres champs quelconques, tels que le numéro de TVA, le numéro de client ou de carte de crédit ou tout élément semblable.
 

Pourquoi est-il recommandé de contrôler une base de données d'adresses périodiquement avec mailBatch si celle-ci est gérée en temps réel avec mailRetrieval ?

Dans la plupart des applications, il est courant que l'opérateur reçoive un avertissement lors de la création ou de la modification d'une nouvelle adresse en cas de doublon potentiel, lequel peut être accepté ou rejeté. Par le biais d'une commande erronée ou parce que l'éclaircissement définitif s'avère impossible à court terme, une entrée de doublon provoquée par inadvertance ou acceptée de force peut survenir plusieurs fois dans ces systèmes.

Vous pouvez déceler ces cas à l'aide d'un processus de déroulement périodique mailBatch et les résoudre de manière asynchrone.
 

Quick Links

Actualités

Uniserv est listé dans le carré magic des outils de qualité des données 2007 de Gartner (« Magic Quadrant for Data Quality Tools 2007 ») suite ...
________________________

Validation postale:
3 nouveaux pays experts sont à votre disposition : la Hongrie, la Slovaquie et la Rép. Tchèque. Testez en direct !

Recherche en temps reel


Recherche interactive des doublons et recherche avec tolérance aux erreurs

Feuilleter
Page 9 / 9

UNISERV Sàrl

   
Bât. Le Sisley PARIS NORD 2 
23 Allée des Impressionnistes 
BP 53421 Villepinte 
95944 ROISSY CH DE GAULLE CEDEX 
Tél. : 01 48 63 91 91 
Fax : 01 48 63 91 96

www.uniserv.com  | 
16.05.2008