Data Poisoning
Data Poisoning ist ein Cyberangriff auf die Integrität von Machine-Learning-Modellen. Dabei schleusen Angreifer manipulierte Informationen in den Datensatz ein, mit dem eine KI trainiert oder feinjustiert wird. Ziel ist es meist nicht, das System komplett lahmzulegen, sondern dessen Vorhersagen subtil zu verfälschen oder spezifische Fehlentscheidungen zu provozieren. Solche Angriffe können bereits in der Phase der Datenerhebung stattfinden, etwa durch das Platzieren falscher Informationen im Web, oder direkt durch den unbefugten Zugriff auf interne Datenbanken. Das Modell lernt durch diese Vergiftung falsche Korrelationen, die im regulären Betrieb später als Schwachstelle oder Trigger ausgenutzt werden können.
Für den deutschen Mittelstand ist dieses Risiko besonders kritisch, da viele Unternehmen auf vortrainierte Open-Source-Modelle oder externe Datensätze setzen, um eigene KI-Lösungen effizient zu entwickeln. Eine kompromittierte KI gefährdet nicht nur die Prozesssicherheit, sondern kollidiert auch direkt mit den Anforderungen der DSGVO an die Richtigkeit und Transparenz der Datenverarbeitung. Wenn ein Modell aufgrund von Data Poisoning diskriminierende Entscheidungen trifft oder Sicherheitsmechanismen umgeht, drohen neben massiven Reputationsschäden auch rechtliche Konsequenzen und Bußgelder. Da die Identifikation vergifteter Daten nach dem Training technisch extrem anspruchsvoll und kostspielig ist, stellt die Integrität der Datenlieferkette einen zentralen Pfeiler der modernen IT-Security dar.
Ein praxisnahes Szenario ist die automatisierte Rechnungsverarbeitung oder eine automatisierte Kreditwürdigkeitsprüfung. Ein Angreifer könnte gezielt manipulierte Belege oder Kundenprofile in die Trainingsphase einschleusen, die bestimmte, eigentlich unzulässige Muster mit einer positiven Freigabe verknüpfen. Im späteren Live-Betrieb erkennt das System diese Trigger wieder und genehmigt beispielsweise betrügerische Transaktionen oder Kreditanfragen, die normalerweise abgelehnt würden. Ein solcher Vorfall bleibt oft über Monate unentdeckt, da das Modell bei allen regulären Standardfällen weiterhin wie erwartet funktioniert und nur bei den spezifisch präparierten Eingaben des Angreifers das gewünschte Fehlverhalten zeigt.
Aktuell rückt die Absicherung der gesamten KI-Supply-Chain in den Fokus der IT-Sicherheit. Unternehmen sollten verstärkt auf Data Sanitization und robuste Validierungsprozesse setzen, bevor Daten in den Trainingsprozess fließen. Mit dem EU AI Act steigen zudem die Dokumentations- und Sorgfaltspflichten für Hochrisiko-KI-Systeme, was eine lückenlose Überprüfung der Trainingsdaten zur regulatorischen Notwendigkeit macht. Wer heute in KI-Anwendungen investiert, muss zwangsläufig auch in Monitoring-Tools investieren, die Anomalien in den Trainingsdaten erkennen, bevor diese das neuronale Netz dauerhaft verzerren können. Die Sicherheit der KI beginnt somit bereits bei der Auswahl und Filterung der Rohdaten.