Interview Data Pitch: Geschäftspartnerdaten intelligent zusammenführen
Interviews

Interview Data Pitch: Geschäftspartnerdaten intelligent zusammenführen

Wie können Geschäftspartnerdaten aus verschiedenen Quellen zusammengeführt werden – und welcher Mehrwert kann aus unstrukturierten Daten gezogen werden? Diese Aufgabe stellte Uniserv verschiedenen europäischen Startups im Herbst 2017 im Rahmen der sogenannten Data-Pitch-Initiative. Data Pitch ist ein von der Europäischen Union gefördertes Inkubatoren-Programm, das Unternehmen und öffentliche Einrichtungen mit Startups aus ganz Europa vernetzt. Das spanische Startup recogn.ai überzeugte Uniserv aus 142 Bewerbern durch den Ansatz, Wissensgrafen und Deep Learning für die maschinelle Verarbeitung natürlicher Sprache (Natural Language Processing) zu kombinieren. Unter Verwendung der neuronalen Netze des Deep Learnings versetzt sich eine Maschine selbst in die Lage, Strukturen zu erkennen, zu evaluieren und sich in mehreren Durchläufen selbständig zu verbessern. Auf diese Weise gelingt es der Technologie, selbst unstrukturierte Kundendatensätze unter anderem für Marketingmaßnahmen nutzbar zu machen. Uniserv unterstützte recogn.ai als Kooperationspartner mittels Expertise sowie mit Datensätzen, anhand derer das Machine-Learning-System lernen konnte.

Daniel Vila Suero
CEO & Mitbegründer
recogn.ai

Uniserv sprach mit Daniel Vila Suero, CEO & Mitbegründer von recogn.ai, über das gemeinsame Projekt. Herr Vila Suero, Ihnen blieben im letzten Jahr sechs Monate Zeit, Ihre Lösungsidee, die Sie im Rahmen des Data-Pitch-Wettbewerbs präsentiert haben, in die Praxis umzusetzen. Worin liegt der innovative Ansatz der Lösung, die gefunden wurde?

Wir haben auf eine Kombination aus verschiedenen neuronalen Netzwerken gesetzt, die darauf spezialisiert sind, Text und semi-strukturierte Daten zu verarbeiten – und zudem Cloud- und Such-Technologien für maschinelles Lernen sowie Datenerfassung (Data Ingestion) und Datenexploration einsetzen. 

Im Gegensatz zu unserem Ansatz, basieren die meisten Lösungen im Bereich Datenqualität und -management auf hochgradig individuellen Regeln und Wissensdatenbanken. Diese sind schwer zu erstellen, zu pflegen und zu entwickeln. So stellt sich in diesem Zusammenhang beispielsweise die Frage, was passiert eigentlich, wenn Unternehmen einen neuen Kunden mit Daten in einer neuen Sprache gewinnen?

Auf der anderen Seite sind Lösungen, die neuronale Netze für den Einsatz im Bereich Datenmanagement und Textprobleme trainieren, auch oft Frameworks. Das bedeutet wiederum, dass man Data Scientists beauftragen müsste, um maßgeschneiderte Lösungen zu entwickeln. Oder es sind stark geschlossene und sehr allgemeine Lösungen, die nicht einfach auf heterogene Unternehmensdaten angewendet werden können. 

Unsere Lösung bietet hingegen genügend Flexibilität, um neuronale Netze für das Datenmanagement auf Basis von Unternehmensdaten zu trainieren. Die Lösung kann auch durch das Feedback von Mitarbeitern lernen, die keine Datenexperten sind. Dies bietet vor allem den Vorteil, dass Unternehmen nicht erst ein Team von Data Scientists mit einbeziehen müssen. 

Ihr Claim ist „Plug and play models for your processes anywhere“ – und Sie stellen verschiedene Modelle wie LSTMs (Long/Short Term Memory), GRUs (Gated Recurrent Units) oder CNNs (Convolutional Neural Networks) zur Verfügung. Was können wir uns vereinfacht ausgedrückt darunter vorstellen?

Gemeinsam mit Uniserv stellen wir Anwendern ein einfach zu bedienendes Werkzeug zur Verfügung. Damit können sie sich wiederholende Daten- und Dokumentenverwaltungsaufgaben, wie die Klassifizierung oder Deduplizierung von Kundendatensätzen, automatisieren. Dahinter steht wiederum ein skalierbares Cloud-Angebot. Auf diesem können Lösungen entwickelt werden, die aus Daten lernen – und in jede bestehende IT-Anwendung, etwa SAP, exportiert und eingesetzt werden können.

Ihr System wird auch trainiert, Felder automatisch und eigenständig zu erkennen und zuzuordnen oder aus falsch- beziehungsweise semi-strukturierten Daten wieder zu verarbeitende Daten zu machen. Wie funktioniert das? 

Unser System wird erstens mit bestehenden Kundendaten versorgt, die zuvor korrekt klassifiziert oder strukturiert wurden, beispielsweise 1.000 Kundendatensätze. Anschließend wird dem System gesagt, welche Aufgabe man ihm stellt. Zum Beispiel soll es ungesehene Datensätze (50.000 Kundendatensätze) überprüfen oder klassifizieren. Danach lernt das System aus den vorhandenen 1.000 Datensätzen, indem es Muster identifiziert – und auf diese Weise auch, wie es die Aufgabenstellung lösen kann. Das System zeigt dann an, wie gut oder schlecht es bei der Lösung der Aufgabe ist. Zudem ist es möglich, dem System optional noch Feedback zu geben, um es zu verbessern. Ist man zufrieden, kann man den Lernvorgang speichern und auf die genannten 50.000 Kundendatensätze anwenden, exportieren und live in anderen Systemen einsetzen, etwa im eigenen CRM-System.

Wie gestaltete sich aus Ihrer Sicht die Zusammenarbeit mit Uniserv. Was waren die Haupthindernisse im Projekt? 

Die Datenerfassung und Vorverarbeitung ist normalerweise eine der kostspieligsten Aufgaben in jedem maschinellen Lernprojekt. In diesem Fall konnten wir uns jedoch mit der Hilfe von Uniserv darauf konzentrieren, mit vielen verschiedenen Ansätzen und Modellen des maschinellen Lernens zu experimentieren. Somit war es eine großartige Erfahrung, mit Uniserv zusammenzuarbeiten. Wir freuen uns, das fortzusetzen, was wir gemeinsam begonnen haben, mit dem Ziel, diese Technologien neuen Kunden zugänglich zu machen.

Welche weiteren Zukunftspläne haben Sie?

Wir wollen unsere Lösung erweitern, um auch unstrukturiertere Unternehmensinformationen zu verarbeiten, wie Berichte und Verträge. So können auch Informationen, die über verschiedene Datensilos verteilt sind, verbunden und sich wiederholende Aufgaben automatisiert werden. Außerdem freuen wir uns darauf, unsere Technologie mit bestehenden Datenmanagement-Lösungen und Expertenwissen wie dem von Uniserv zum Nutzen unserer Kunden zu kombinieren.

Wie werden aus Ihrer Sicht KI und ML künftig bei der Verbesserung von Datenqualität eingesetzt, was wird sich verbessern, welche Anwendungsszenarien sind denkbar?

Wir haben gemerkt, dass schon einfache neuronale Netze überraschend gut mit der Menge der vorhandenen Daten arbeiten können. Somit können unserer Meinung nach viele der langweiligen Datenverarbeitungsaufgaben, mit denen wir uns im Arbeitsleben befassen, automatisiert werden. Menschen können sich also künftig eher auf kreative und soziale Aufgaben konzentrieren.

Vielen Dank für das Gespräch!