Questions & réponses portant sur le thème de la déduplication - dédoublonnage
Quelle est la quantité d'adresses maximale pouvant être traitée via mailBatch ?
La limite technique maximale se situe au-delà de toutes les valeurs survenant dans la pratique. Il va de soi que la quantité dépend aussi des ressources disponibles (capacité de disque et de mémoire vive).
En pratique, la quantité totale d'adresses à traiter n'a pas tant d'importance pour un programme de déduplication, étant donné que celles-ci peuvent se répartir, dans certaines conditions, sur plusieurs pays. L'important c'est la quantité d'adresses traitées de manière performante par pays sans segmentation.
En guise de point de repère, vous devez savoir qu'il existe des utilisateurs de mailBatch qui traitent régulièrement plus de 100 millions d'adresses en provenance d'un pays sans segmentation dans une séquence de déduplication.
Est-ce que les stocks de données relativement importants doivent être segmentés pour le traitement dans mailBatch ?
Non ! La segmentation est une technique qui est généralement appliquée par les systèmes à technologies simples pour obtenir une performance acceptable de comparaison de type n:n même dans des stocks de données importants. Le gros inconvénient de la segmentation est qu'aucune détection de doublons ne peut être effectuée entre les segments. Il y a ici des "points dits aveugles" pendant la comparaison, où peuvent se cacher un nombre non négligeable de doublons non détectés.
Est-ce que mailBatch doit toujours être effectué avec un contrôle postal ?
Non ! En général, vous pouvez parfaitement effectuer une déduplication sans contrôle postal. Vous pouvez même dédupliquer les lots de données sans informations d'adresses postales. Toutefois, dans nombre de cas, il est pourtant conseillé d'effectuer un contrôle et une correction postales en même temps que la comparaison
(voir également Validation postale d'adresses). Ceci permet de trouver des doublons qui apparaissent à travers un rattachement à une autre commune ou une nouvelle appellation de rue et qui, sinon, ne pourraient pas être détectés de manière fiable.
Comment s'explique la performance extraordinaire de mailBatch par rapport aux autres systèmes pour une grande qualité de résultats reconnue ?
A l'inverse des offres disponibles sur le marché, Uniserv a développé deux procédés entièrement différents sur un plan technologique - d'une part le traitement séquentiel classique des doublons de type n:n, d'autre part le traitement interactif en ligne 1:n. Les deux procédés poursuivent certes le même objectif (détection tolérante aux fautes) et délivrent des résultats comparables, mais sont conçus spécialement pour chaque environnement d'utilisation. La plupart des autres fournisseurs délivrent les mêmes procédés pour les deux champs d'application, toutefois dans des "emballages" séparés. Ceci n'a pas énormément d'importance pour de petites quantités d'adresses. Plus les quantités d'adresses sont importantes, plus la question de la performance est importante.
Le paramétrage de mailBatch permet une très grande flexibilité. Ceci n'entraîne-t-il pas obligatoirement une certaine complexité dans l'application ?
Des paramètres standard sont livrés avec le produit pour les cas d'utilisation typiques. Vous pouvez utiliser ceux-ci soit directement, soit en tant que modèle pour définir vos propres paramètres. Par ailleurs, nous mettons à disposition des outils interactifs qui vous assistent lors de la création des paramètres de comparaison. Vous pouvez ici développer vos propres idées de règles de comparaison et contrôler immédiatement quelles constellations d'adresses sont trouvées en tant que doublons et avec quelle fiabilité.
Par ailleurs, nous proposons des formations intensives sur nos produits et, bien entendu, nos experts vous conseillent aussi volontiers lors du "customizing" de ce produit en fonction de vos exigences personnelles.
Est-ce que les lots de données qui ne contiennent que des noms et aucune donnée d'adresses peuvent être dédupliqués avec mailBatch ?
Bien entendu. Vous-même pouvez déterminer sous quelles conditions deux lots de données peuvent faire figure de doublons. Toutefois en plus du nom, d'autres informations devraient être disponibles afin de pouvoir détecter de manière fiable par exemple les doublons au niveau des personnes. Par exemple, les comparaisons sur la base du nom, du prénom et de la date de naissance ne sont pas inhabituelles dans le domaine des assurances.
Que doit-on entendre par grappage potentiel avec mailBatch ?
Ce processus est appliqué fréquemment dans le cadre de projets Data-Warehouse ou lors de l'élaboration de bases de données d'adresses de groupements d'entreprises. Le grappage ne procède pas à une élimination des doublons repérés. Au lieu de cela, cette application crée automatiquement différents "tris par grappes" sur la base de données des adresses et intègre les "identifications par grappes" ainsi créées dans la base de données des adresses. Là, différents grappages peuvent être créés aussi bien indépendamment que de manière hiérarchique.
Des grappages typiques pour les adresses de consommateurs sont par exemple la personne, le ménage ou toutes les adresses à l'intérieur d'un même bâtiment. Pour des adresses d'entreprises, un service/interlocuteur d'une société ou tous les contacts au sein d'une entreprise forment souvent un groupement.
Pourquoi est-il recommandé pour cette base de données d'adresses gérée en ligne de contrôler celle-ci périodiquement via mailBatch , même si un outil destiné à la détection des doublons peut être utilisé dans l'application en ligne ?
Dans la plupart des systèmes en ligne, il est courant que, lors de la création ou de la modification d'une adresse, l'opérateur reçoive un avertissement en cas de doublon suspecté, qu'il peut accepter ou rejeter. A travers une commande erronée ou parce que la clarification définitive s'avère impossible à court terme, il est possible dans ces systèmes d'entrer par inadvertance ou par force les données d'un client en double ou multiples exemplaires. Vous pouvez déceler ces cas à l'aide d'une routine périodique mailBatch et les résoudre de manière asynchrone.
Y a-t-il des fonctions spéciales pour effectuer de manière efficace la comparaison périodique mailBatch d'un suivi de base de données d'adresses en ligne ?
Oui ! Il existe pour cela deux fonctions principales :
Premièrement, la base de données Index de mailRetrieval peut être lue et traitée directement dans mailBatch; un argument important pour une performance élevée et un traitement intégré.
Deuxièmement, il est possible d'axer la reconnaissance de doublons uniquement sur les nouvelles adresses entrées ou les adresses modifiées dans la base de données depuis le dernier traitement mailBatch. Ainsi, les doublons qui ont déjà été contrôlés et qui ont été laissés en connaissance de cause dans le stock ne sont pas détectés à nouveau à chaque comparaison. Cela facilite considérablement le traitement manuel ultérieur.