KI in der Verwaltung
KI-Labs zu Datenqualität und Datenreinigung für KI-Anwendungen
Veröffentlicht am 01. Dez 2021
- 00:00:00 Einführung
- 00:00:52 Datenintensive Wissenschaften
- 00:03:47 Data Science Pipeline
- 00:04:36 Dimensionen von Datenqualität
- 00:06:52 Unbrauchbare Dateien (bad files)
- 00:12:04 Fehlerhafte Datensätze (bad data)
- 00:15:07 Von Datenqualität zu Informationsqualität
- 00:17:46 KI-spezifische Datenqualitätsdimensionen
- 00:20:38 Offene Forschungsfragen
Daten sind die Grundlage für das Training von KI-Systemen. Dabei kommt es aber nicht nur auf die Menge, sondern vor allem auch auf die Qualität der Daten an. Aber was heißt eigentlich Qualität und wann kann man von hochwertigen Daten sprechen?
Dass Datenqualität eine ganze Bandbreite verschiedener Dimensionen umfasst, erläutert Prof.Dr. Felix Naumann an vielen Beispielen in seinem Vortrag „Datenqualität und Datenreinigung für KI-Anwendungen“. Für schlecht funktionierende KI-Anwendungen müssen nicht immer unvollständige, veraltete oder verzerrte Datensets verantwortlich sein. Häufig genug stellt schon die Formatierung oder Strukturierung verfügbarer Daten eine wesentliche Hürde dar. Und das ist keineswegs banal: Data Scientists verbringen bis zu 60% ihrer Arbeitszeit allein mit der Organisation und Bereinigung von Daten. Insbesondere mit den KI-spezifischen Datenqualitätsdimensionen - wie etwa Diversität, Bias und Erklärbarkeit - wird sich das Netzwerk „KI in der Arbeits- und Sozialverwaltung“ nun bei der Erarbeitung der selbstverpflichtenden Leitlinien für den KI-Einsatz in der behördlichen Praxis beschäftigen.
Professor Dr. Felix Naumann leitet das Fachgebiet Informationssysteme am Hasso-Plattner-Institut (HPI) in Potsdam. In unserem KI-Lab 5 am 25. Oktober 2021 hielt er den Vortrag „Datenqualität und Datenreinigung für KI-Anwendungen“.