Communiqués de presse
Le nettoyage automatisé des doublons devrait être encore plus efficace et plus rapide.

Uniserv et DZ Bank étudient l'utilisation de l'intelligence artificielle pour éradiquer les doublons des bases données de référence

  • Le nettoyage automatisé des doublons devrait être encore plus efficace et plus rapide

  • Les tâches manuelles devraient baisser considérablement lors des contrôles des doublons

  • IA devrait soutenir la formation de Golden Records

 

Pforzheim, 26 novembre 2019 - Dans quelle mesure les doublons de données de référence des partenaires commerciaux peuvent-ils être nettoyés entièrement automatiquement et sans l'intervention de gestionnaires de données à l'aide de procédures d'intelligence artificielle (IA) ? Le projet commun d'Uniserv, un fournisseur spécialisé de solutions pour la gestion des données des partenaires commerciaux, avec la Startup Recognai et la banque DZ Bank, répondra à cette question. De plus, la collaboration examinera quel modèle d'intelligence artificielle peut donner les meilleurs résultats dans les recherches de doublons, que ce soit par un apprentissage supervisé ou non supervisé.

IA pour automatiser l’éradication des doublons

Le projet en est actuellement à la phase de validation de principe et s'est fixé pour objectif de rendre le nettoyage automatisé des doublons encore plus efficace et rapide. La solution de gestion des données de base, le Customer Data Hub (CDH) d'Uniserv, entre ici en action. Le CDH identifie et nettoie les doublons des données de base des partenaires commerciaux de la DZ Bank, c'est-à-dire que des enregistrements de données similaires sont combinés. Malgré cette utilisation du système, les doublons ambigus (Possible Data Matches) doivent encore être vérifiés manuellement par les Data Stewards. Ils contrôlent s'il s'agit d'un véritable doublon ou non. À travers les changements de données et les nouveaux enregistrements, de nouveaux doublons possibles apparaissent aussi régulièrement et doivent être traité manuellement. Les composantes de l'IA, qui complètent le CDH dans le cadre du projet, devraient maintenant réduire considérablement, voire éliminer, ces efforts manuels.

Les systèmes d'IA doivent d'abord être formés

Tout d'abord, il est important que l'IA apprenne à faire la distinction entre un doublon potentiel et un non-doublon et à comprendre et appliquer le processus humain de prise de décision. À cette fin, une base de données correspondante contenant les décisions antérieures des responsables de la gestion des données est disponible. « Avant de pouvoir les utiliser, les systèmes d'IA doivent naturellement être formés. Ils apprennent à partir d'exemples et sont ainsi capables de reconnaître des modèles et des lois. Dans la pratique, cela se fait à l'aide de divers algorithmes. Une fois la phase d'apprentissage terminée, le système d'IA peut généraliser et évaluer des données inconnues. » C’est ainsi que Dr Simone Braun, responsable du développement commercial chez Uniserv, explique la procédure.

Le travail du Data Stewards se transforme en formateur de l'IA.

Dans l'étape suivante, l'IA devrait reconnaître les doublons des données de base selon le modèle appris et prendre des décisions de façon autonome, sans l'intervention d'un gestionnaire de données. Si l'IA n'est pas en mesure de décider avec certitude s'il s'agit réellement d'un doublon ou non, ces cas sont finalement évalués par les responsables de la gestion des données et rediffusés au système en retour. De cette manière, les activités routinières de traitement des doublons doivent être automatisées et les responsables du traitement des données doivent en être dispensés, afin de pouvoir traiter les cas plus complexes, c'est-à-dire les cas particuliers qui s'écartent de la norme. Ils se transforment ainsi de nettoyeur de doublons en formateurs d'intelligence artificielle.

D'autres initiatives d'Uniserv examinent l'utilisation de l'intelligence artificielle dans la gestion des données des partenaires commerciaux

Uniserv étudie déjà l'utilisation de l’IA dans les domaines de la qualité des données et de la gestion des données de base dans d'autres projets. Dans le cadre de l'initiative européenne Data-Pitch, Uniserv a développé des solutions logicielles innovantes basées sur des processus d'apprentissage en profondeur, Deep-Learning, en collaboration avec les start-up frosha et Recognai. L'objectif était d'obtenir des informations commerciales pertinentes à partir de données partenaires non structurées et semi-structurées. Dans le cadre du projet de recherche KOBRA, Uniserv, en collaboration avec l'Institut d'informatique appliquée de l'Université de Leipzig, étudie les processus d'apprentissage machine pour la reconnaissance automatique et tolérante aux erreurs de l'identité. Le projet de recherche DE4L (Data Economy 4 Advanced Logistics), lancé récemment, porte sur l'échange sécurisé de données dans les services logistiques.