RAG - genaue Bedeutung
Was RAG wirklich bedeutet
RAG („Retrieval-Augmented Generation“) heißt, dass ein Modell gezielt externe Informationen abruft, bevor es antwortet.
Diese Informationen kommen aus einem vordefinierten Dokumenten- oder Datenindex, z. B.:
PDFs
Wissensdatenbanken
Webseiten, die vorher gecrawlt und in einen Vektor-Store gelegt wurden
interne Datenbanken
strukturierte Daten (z. B. SQL, CSV)
Holt RAG Daten aus dem „Internet“?
Nur dann, wenn du aktiv eine eigene Pipeline baust, die:
Websites crawlt,
den Inhalt extrahiert,
ihn vektorisiert,
in den Index speichert,
und dein RAG-System diesen Index durchsucht.
Ein klassisches RAG-System ruft NICHT spontan das Internet auf.
Es benutzt nur die Quellen, die du explizit bereitgestellt und indiziert hast.
Praxisvergleich
Szenario | Gehört zu RAG? | Erklärung |
|---|---|---|
PDF hochladen → Fragen dazu stellen | ✔️ Ja | Modell sucht im vektorisierten PDF |
Firmeninterne Wissensdatenbank durchsuchen | ✔️ Ja | Index = interne Daten |
„Schau bitte live auf Webseite X“ | ❌ Nein | Das ist Web-Browsing, kein RAG |
Eigenen Webcrawler bauen und Inhalte in RAG-Index legen | ✔️ Ja | Website wird erst zum Index, dann RAG |
Quintessenz
RAG = Antworten aus deinen bereitgestellten oder indizierten Quellen
Nicht aus dem offenen Internet – außer du machst das Internet zuerst zu deinen Quellen.