Prompt Injection
Technisch betrachtet nutzt Prompt Injection die fundamentale Eigenschaft großer Sprachmodelle (LLMs) aus, nicht strikt zwischen Steuerungsbefehlen des Entwicklers und variablen Benutzereingaben unterscheiden zu können. Ein Angreifer schleust dabei gezielte Befehle in den Eingabetext ein, die das Modell anweisen, seine eigentliche Programmierung oder hinterlegte Sicherheitsrichtlinien zu ignorieren. Dies geschieht häufig durch Anweisungen wie "Ignoriere alle vorherigen Instruktionen" oder durch das Einbetten von Befehlen in andere Datenquellen. Das Ziel solcher Angriffe ist meist die Extraktion interner System-Prompts, der unautorisierte Zugriff auf angebundene Datenbanken oder die Manipulation der Modellausgabe für betrügerische Zwecke.
Für deutsche Unternehmen ist diese Sicherheitslücke besonders kritisch, da sie direkt die Compliance-Anforderungen der DSGVO sowie den Schutz von Geschäftsgeheimnissen berührt. Sobald KI-Systeme auf interne Kundendaten oder sensible Firmendokumente zugreifen, könnten Angreifer durch gezielte Injections Informationen absaugen, die eigentlich geschützt sein sollten. Neben dem reinen Datenabfluss drohen erhebliche Haftungsrisiken und Reputationsschäden, falls Unternehmenschatbots zu diskriminierenden Aussagen oder der Preisgabe interner Strategien verleitet werden. Mit der zunehmenden Vernetzung von KI-Agenten über APIs steigt zudem das Risiko, dass manipulierte Prompts automatisierte Prozesse in anderen Systemen auslösen, was über den rein informativen Schaden hinausgeht.
Ein praxisnahes Beispiel ist ein Kundensupport-Chatbot eines deutschen Mittelständlers, der Zugriff auf eine Wissensdatenbank hat. Ein Angreifer könnte den Bot über das Chatfenster anweisen, die interne Systemanweisung im Wortlaut auszugeben oder nach Informationen über andere Kunden zu suchen, indem er den Kontext des Gesprächs durch geschickte Formulierung kapert. Ebenso gefährlich ist die indirekte Prompt Injection: Hierbei liest eine KI beispielsweise eine eingehende E-Mail oder eine externe Webseite, in der versteckte Befehle platziert wurden. Wenn das System diese Daten analysiert, führt es die darin enthaltenen bösartigen Befehle im Firmenkontext aus, ohne dass der eigentliche Nutzer direkt eingegriffen hat.
Da klassische IT-Sicherheitskonzepte wie Firewalls bei der semantischen Natur von KI-Angriffen oft versagen, müssen Unternehmen auf neue Verteidigungsstrategien setzen. Aktuelle Ansätze umfassen die Implementierung von Filter-Layern, die Eingaben vorab auf bösartige Muster scannen, sowie eine strikte Begrenzung der Berechtigungen (Principle of Least Privilege) für KI-Agenten. Da es nach aktuellem Forschungsstand keinen hundertprozentigen Schutz gegen Prompt Injection gibt, wird die Absicherung von LLM-Anwendungen zu einer kontinuierlichen Aufgabe für die IT-Security, die bereits bei der Architektur der Anwendung ansetzen muss.