Retrieval (RAG)
Retrieval-Augmented Generation (RAG) bezeichnet eine Architektur, die Large Language Models (LLMs) mit einer externen Wissensdatenbank verbindet. Anstatt sich ausschließlich auf das statische Wissen zu verlassen, das während des Trainings erworben wurde, fungiert das LLM bei RAG als Verarbeitungsmechanismus für aktuell bereitgestellte Informationen. Bei einer Benutzeranfrage sucht das System zunächst in einem spezifischen Datenbestand nach relevanten Inhalten. Diese Treffer werden als Kontext zusammen mit der Frage an das Modell übermittelt, welches daraus eine Antwort formuliert. Dieser Ansatz minimiert Halluzinationen drastisch, da die KI auf Fakten innerhalb eines definierten Rahmens begrenzt wird und Quellen direkt referenzieren kann.
Für den deutschen Mittelstand ist RAG der entscheidende Hebel für den produktiven KI-Einsatz unter Einhaltung strenger Datenschutzvorgaben. Da die Daten nicht zum Training des Modells verwendet, sondern nur als Kontext beigemischt werden, bleibt die Datenhoheit gewahrt. Unternehmen können ihre sensiblen Informationen in einer kontrollierten Vektordatenbank auf europäischen Servern vorhalten, während das LLM lediglich als Recheninstanz fungiert. Zudem entfällt das kostspielige Fine-Tuning von Modellen, da neue Informationen durch einfaches Hinzufügen von Dokumenten in den Index sofort verfügbar sind. Das macht KI-Anwendungen nicht nur sicherer, sondern auch wartungsfreundlich und kosteneffizient.
Ein Praxisbeispiel findet sich im technischen Kundendienst eines Maschinenbauers. Ein Servicetechniker benötigt Informationen zu einem spezifischen Wartungsintervall oder einem seltenen Fehlercode aus einem Handbuch von 2012. Ein herkömmliches Sprachmodell kennt diese internen Details nicht. Ein RAG-basiertes System hingegen durchsucht in Sekundenbruchteilen zehntausende PDF-Dokumente, Schaltpläne und Wartungsprotokolle des Unternehmens. Es extrahiert die exakt passende Passage und formuliert eine Anleitung für den Techniker inklusive Verweis auf die Originalquelle. So wird jahrzehntelanges Expertenwissen sofort für alle Mitarbeiter nutzbar gemacht, ohne dass diese manuell in Archivordnern suchen müssen.
Aktuell entwickelt sich der Trend hin zu Agentic RAG, bei dem die KI selbstständig entscheidet, welche Datenquellen sie wann anzapft. Dennoch bleibt die Datenqualität die wichtigste Voraussetzung für den Erfolg. Entscheider müssen verstehen, dass RAG kein Allheilmittel für unstrukturierte Datenfriedhöfe ist. Nur wer seine Dokumente sauber digitalisiert vorhält, erzielt eine hohe Antwortgüte. Die Implementierung erfordert zudem eine sorgfältige Auswahl der Embedding-Modelle und Vektordatenbanken, um die Performance bei wachsenden Datenmengen stabil und die Latenzzeiten für Endnutzer gering zu halten.