Interviews

Ground Truth: ohne Datenqualität kein Machine Learning

Erfolgsfaktoren für Predictive Analytics, Business Intelligence und Data Mining

Prof. Dr.-Ing. Peter Lehmann, Hochschule der Medien Stuttgart und Direktor Institut für Business Intelligence (IBI)

Interview - Prof. Dr. Peter Lehmann

Kurzbiografie:
Prof. Dr.-Ing. Peter Lehmann lehrt Business Intelligence im Studiengang Wirtschaftsinformatik und digitale Medien an der Hochschule der Medien Stuttgart und ist Direktor des Instituts für Business Intelligence (IBI). Nach dem Studium der Informatik und Informationswissenschaft sowie der Promotion in Wirtschaftsinformatik an den Universitäten Konstanz und Magdeburg war er 15 Jahre in der Industrie als Entwickler, Projektleiter und Berater im Bereich analytischer Informationssysteme tätig, u. a. bei ALCAN und SAP. Seine Spezialgebiete sind heterogene Architekturen im Umfeld Data Warehouse und Big Data sowie die Aufbereitung von Daten für Predictive Analytics und Data-Mining-Verfahren.

Prof. Lehmann Ihr Vortrag trägt den Titel „Ground Truth – Ohne Datenqualität kein Machine Learning. Erfolgsfaktoren für Predictive Analytics, BI und Data Mining“. Können Sie uns in fünf Sätzen erklären, warum Datenqualität so wichtig ist?

Maschine Learning oder maschinelles Lernen heißt, dass ein künstliches System aus Beispielen lernt und diese nach Beendigung der Lernphase verallgemeinern kann. Das heißt, es erkennt Muster und Gesetzmäßigkeiten in den Lerndaten. So kann das System nach der Lernphase auch unbekannte Daten beurteilen. Die praktische Umsetzung erfolgt mittels Algorithmen.

Maschinelles Lernen bringt aber nur dann den besten Nutzen und die beste Erfolgsquote, wenn die Datenbasis, die man ihr zum Lernen zur Verfügung stellt, auch gut, also qualitativ hochwertig ist. Eine Datenbasis, die schlecht ist, wird auch schlechte Ergebnisse erzeugen. Je besser, also korrekter eine Datenbasis ist, umso besser wird ein Algorithmus daraus seine Schlüsse ziehen. Je schlechter die Qualität der Daten, umso einfacher und fataler wird ein Algorithmus daraus Schlüsse ziehen. Diese können uns dann in eine völlig andere Richtung leiten. Wenn wir also den Ergebnissen eines Algorithmus blind vertrauen und eine Datenbasis mit schlechter Datenqualität einsetzen, dann haben wir unter Umständen schnell ein riesiges Problem.

Unternehmen verstehen zunehmend, dass Big Data kein Hype ist, der vorbeigehen wird. Vor welchen Herausforderungen stehen Unternehmen aktuell noch, wenn sie Big-Data-Projekte umsetzen wollen?

Bei Big Data geht es primär nicht darum, viele Daten zu verarbeiten. Das können die traditionellen und etablierten Datenbanken inzwischen auch. Bei Big Data geht es darum, Daten mit unterschiedlichen Formaten, wie Bilder, Videos, Texte, Audio, auswertbar und somit nutzbar zu machen. Beispielsweise hat der Kunde, der sich gerade stimmlich durch das Call-Center-Menü gemüht hat, gute oder schlechte Laune? Um den Kunden zu halten, wäre es jetzt vielleicht besser, eine männliche oder weibliche und geschulte Stimme zu nutzen, um den Anruf entgegen zu nehmen. Wenn man sich also mit Big Data beschäftigt, dann muss auch klar sein, welchen Nutzen man damit bezwecken will.

Können Sie uns Beispiele skizzieren, wie Predictive Analytics heute bereits von Unternehmen genutzt wird?

Predictive Analytics wird in Deutschland zurzeit meist nur experimentell genutzt, da wir innovativ nicht wirklich eine Vorreiterrolle einnehmen. Andere Länder, wie die USA oder in Asien, sind viel weiter, weil das Thema Datenschutz dort eine weniger wichtige Rolle spielt. Sobald ich einen Vorteil durch die Abgabe von Daten habe, werde ich diesen Vorteil auch nutzen. Etwa wenn es um das Thema Versicherung geht. Warum sollte ich meine Daten verweigern, wenn ich dafür meine Kraftfahrzeug-Versicherung von 800 auf 400 Euro halbiere? Oder eine Fluglinie weiß, dass ich gerne sonnenverwöhnt bin. Da kommende Woche ein Regengebiet angesagt ist, freue ich mich über ein Flugangebot nach Barcelona inklusive Vier-Sterne-Hotel für 299 Euro. Warum sollte ich das nicht wollen?

Wie wird sich das Thema Big Data aus Ihrer Sicht in Unternehmen mittelfristig entwickeln?

Ich glaube, dass der Zug rollt. Wir werden es nicht mehr verhindern können, dass Daten stetig über uns gesammelt und ausgewertet werden können. Wir werden es auch nicht mehr verhindern können, dass man mit unseren Spuren, die wir im Internet hinterlassen, Geschäfte macht. Ich glaube auch, dass Google mehr über uns weiß, als wir wissen wollen. Ich bin auch sicher: Big Data wird dafür sorgen, dass unsere Welt ein Stück besser wird. Wir werden zwar nicht unbedingt länger leben, aber wir werden umsorgter, informierter und damit auch länger gesund leben.

Vielen Dank für das Gespräch – Wir freuen uns auf Ihren Vortrag!