Zum Hauptinhalt springen
Glossar

RAG (Retrieval-Augmented Generation)

Architektur, bei der ein LLM vor der Antwort relevante Dokumente aus einer Wissensbasis abruft. Ermöglicht aktuelle, unternehmensspezifische Antworten ohne Modell-Fine-Tuning.

Retrieval-Augmented Generation (RAG) ist die Architektur, die LLMs unternehmensspezifisches Wissen verleiht — ohne Fine-Tuning. Vor jeder Antwort durchsucht das System eine Wissensbasis (Dokumente, FAQ, Wiki), zieht die relevantesten Passagen und übergibt sie dem LLM als Kontext.

Eine RAG-Pipeline besteht aus vier Schritten: (1) Dokumente werden in Chunks geteilt und als Vektoren in eine Vektordatenbank geschrieben; (2) die Anfrage des Anrufers wird ebenfalls als Vektor kodiert; (3) Top-k ähnliche Chunks werden retourniert; (4) das LLM generiert die Antwort auf Basis dieser Chunks.

Der entscheidende Hebel liegt selten im Modell, sondern in der Datenqualität: Chunk-Größe, Dublettenfreiheit, Aktualität der Quellen, Hierarchie zwischen verbindlichen und informativen Dokumenten. Ein gutes RAG-Setup ist 80 % Datenpflege und 20 % Modellauswahl.

Anwendung im Produkt

Nächster Schritt

Sehen Sie BHOMY in einer 15-minütigen Demo am echten Anrufbeispiel.

🍪

Cookies & Datenschutz

Wir verwenden Cookies, um Ihnen die bestmögliche Nutzung unserer Website zu ermöglichen. Einige davon sind technisch notwendig, andere helfen uns, die Website zu verbessern.