Veröffentlichungen
Datenqualität bedeutsam für KI-Projekte

Optimale KI mit hochwertigen Daten

Daten mit Hilfe Künstlicher Intelligenz (KI) zu analysieren, stellt eines der vielversprechendsten Szenarien für die Einsatz von KI dar. Doch so attraktiv und verlockend ein solches Szenario erscheint, so komplex sind die Herausforderungen, die sich in der praktischen Umsetzung ergeben. Ein zentraler Aspekt, den es im Blick zu halten gilt, ist Datenqualität. Ist ein Datenbestand, auf dessen Grundlage eine KI trainiert wird, mangelhaft, lernt die KI unter Umständen falsche Informationen.

Vier zentrale Erkenntnisse aus einem gemeinsamen Forschungsprojekt von Uniserv und dem spanischen KI-Startup recogn.ai geben wichtige Hinweise für erfolgreiche KI-Projekte. Zuallererst muss das KI-Modell zur Problemstellung passen. Dazu muss die Problemstellung, die eine Künstliche Intelligenz lösen soll, sehr präzise definiert sein.

Dann kommt es neben der Modellauswahl zweitens auf die Trainingsdaten an; sie brauchen höchste Aufmerksamkeit. Entsprechen die Trainingsdaten nicht möglichst genau den späteren Echtdaten, kommt es zu Schwierigkeiten.

Drittens sind synthetische Daten mit Vorsicht zu genießen. Synthetische Daten müssen entsprechend der Fragestellung korrekt verteilt sein und einen repräsentativen Querschnitt der im Realbetrieb zu erwartenden Daten abbilden. Schlussendlich gilt es viertens, Vorsicht beim Thema ‚Overfitting‘ walten zu lassen. Hier gilt, dass viel nicht immer viel hilft. Gerade bei sehr großen Datenmengen kann das Problem der Überanpassung (Overfitting) auftreten und die KI verlernt einmal Gelerntes wieder.

Prof. Dr. Simone Braun
Professorin für E-Commerce
Hochschule Offenburg

Dan Follwarczny
Business Development Manager
Uniserv GmbH

Quelle: bigdata-insider.de, 13. Januar 2021, Autoren Prof. Dr. Simone Braun, Dan Follwarczny, © bigdata insider / Vogel IT-Medien GmbH, Augsburg, Alle Rechte vorbehalten