Retrieval-Augmented Generation (RAG) ist die Architektur, die LLMs unternehmensspezifisches Wissen verleiht — ohne Fine-Tuning. Vor jeder Antwort durchsucht das System eine Wissensbasis (Dokumente, FAQ, Wiki), zieht die relevantesten Passagen und übergibt sie dem LLM als Kontext.
Eine RAG-Pipeline besteht aus vier Schritten: (1) Dokumente werden in Chunks geteilt und als Vektoren in eine Vektordatenbank geschrieben; (2) die Anfrage des Anrufers wird ebenfalls als Vektor kodiert; (3) Top-k ähnliche Chunks werden retourniert; (4) das LLM generiert die Antwort auf Basis dieser Chunks.
Der entscheidende Hebel liegt selten im Modell, sondern in der Datenqualität: Chunk-Größe, Dublettenfreiheit, Aktualität der Quellen, Hierarchie zwischen verbindlichen und informativen Dokumenten. Ein gutes RAG-Setup ist 80 % Datenpflege und 20 % Modellauswahl.