KI-Labs zu Datenqualität und Datenreinigung für KI-Anwendungen

KI in der Verwaltung

KI-Labs zu Datenqualität und Datenreinigung für KI-Anwendungen

Veröffentlicht am 01. Dez 2021

00:00:00 Einführung
00:00:52 Datenintensive Wissenschaften
00:03:47 Data Science Pipeline
00:04:36 Dimensionen von Datenqualität
00:06:52 Unbrauchbare Dateien (bad files)
00:12:04 Fehlerhafte Datensätze (bad data)
00:15:07 Von Datenqualität zu Informationsqualität
00:17:46 KI-spezifische Datenqualitätsdimensionen
00:20:38 Offene Forschungsfragen

Daten sind die Grundlage für das Training von KI-Systemen. Dabei kommt es aber nicht nur auf die Menge, sondern vor allem auch auf die Qualität der Daten an. Aber was heißt eigentlich Qualität und wann kann man von hochwertigen Daten sprechen?

Dass Datenqualität eine ganze Bandbreite verschiedener Dimensionen umfasst, erläutert Prof.Dr. Felix Naumann an vielen Beispielen in seinem Vortrag „Datenqualität und Datenreinigung für KI-Anwendungen“. Für schlecht funktionierende KI-Anwendungen müssen nicht immer unvollständige, veraltete oder verzerrte Datensets verantwortlich sein. Häufig genug stellt schon die Formatierung oder Strukturierung verfügbarer Daten eine wesentliche Hürde dar. Und das ist keineswegs banal: Data Scientists verbringen bis zu 60% ihrer Arbeitszeit allein mit der Organisation und Bereinigung von Daten. Insbesondere mit den KI-spezifischen Datenqualitätsdimensionen - wie etwa Diversität, Bias und Erklärbarkeit - wird sich das Netzwerk „KI in der Arbeits- und Sozialverwaltung“ nun bei der Erarbeitung der selbstverpflichtenden Leitlinien für den KI-Einsatz in der behördlichen Praxis beschäftigen.

Professor Dr. Felix Naumann leitet das Fachgebiet Informationssysteme am Hasso-Plattner-Institut (HPI) in Potsdam. In unserem KI-Lab 5 am 25. Oktober 2021 hielt er den Vortrag „Datenqualität und Datenreinigung für KI-Anwendungen“.