Was ist RAG und warum ist es genial?

Stell dir vor: Du hast 500 Seiten Firmenhandbuch, 200 E-Mails vom Kunden und 50 Support-Tickets. Du willst eine specific Frage beantworten – aber ChatGPT kennt nur sein Training bis 2024.

RAG (Retrieval-Augmented Generation) löst dieses Problem. Anstatt ChatGPT alles beizubringen, holst du die relevanten Informationen dort ab, wo sie sind – und gibst sie ChatGPT als Kontext.

Das Ergebnis: Präzise Antworten, die auf deinen echten Daten basieren.


Wie funktioniert RAG?

RAG hat drei Schritte:

1. Retrieval (Abrufen)

Deine Dokumente werden durchsucht und die passendsten Textstellen gefunden. Das funktioniert über Embeddings – numerische Repräsentationen von Text, die ähnliche Inhalte mathematisch vergleichbar machen.

2. Augmentation (Erweitern)

Die gefundenen Textstellen werden als Kontext an ChatGPT übergeben – zusammen mit der Frage.

3. Generation (Generieren)

ChatGPT generiert eine Antwort basierend auf dem originalen Prompt UND dem abgerufenen Kontext.

Vergleich:

Ohne RAGMit RAG
Generische AntwortAntwort auf deine echten Daten
Veraltetes WissenAktuelle Informationen
“Ich weiß es nicht”Präzise, zitierte Antworten

RAG mit ChatGPT (Eigene Dateien)

Seit Mitte 2024 kannst du in ChatGPT direkt Dateien hochladen. Das nutzt RAG unter der Haube:

So geht’s:

  1. ChatGPT Plus/Pro öffnen
  2. Oben links “Dateien anhängen” klicken
  3. PDF, Word, Text oder andere Dokumente auswählen
  4. Stelle deine Frage

ChatGPT analysiert automatisch die relevanten Textstellen und generiert eine Antwort.

Beispiele für sinnvolle Nutzung:

  • Juristische Verträge prüfen lassen
  • Technische Dokumentation durchsuchen
  • E-Mails oder Slack-Nachrichten auswerten
  • Research Papers zusammenfassen

RAG-Tools für Fortgeschrittene

Für größere Dokumentenmengen oder firmeninternes Wissen gibt es spezialisierte Tools:

Für Entwickler

ToolBeschreibungSchwierigkeit
LangChainFramework für RAG-PipelinesMittel
LlamaIndexDaten-Indexierung für LLMsMittel
Ollama + EmbeddingsLokale RAG-AlternativeHoch
pineconeVector-Datenbank für EmbeddingsNiedrig (Cloud)

No-Code/Low-Code

ToolBeschreibungFür wen
ChatGPT (Dateien)Direkter Datei-UploadEinsteiger
Notion AIFragen an Notion-DatenbankenNotion-Nutzer
AskYourPDFPDF-Analyse mit ChatGPTGelegentliche Nutzung
BlobrRAG ohne Code bauenBusiness-Nutzer

Ein eigenes RAG-System bauen (Kurzübersicht)

Für Entwickler, die RAG selbst implementieren wollen:

# Grundprinzip mit LangChain
from langchain.document_loaders import PDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA

# 1. Dokument laden
loader = PDFLoader("mein-dokument.pdf")
documents = loader.load()

# 2. In Chunks aufteilen
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texts = text_splitter.split_documents(documents)

# 3. Embeddings erstellen und speichern
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(texts, embeddings)

# 4. RAG-Chain erstellen
llm = OpenAI(temperature=0)
chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=vectorstore.as_retriever())

# 5. Frage stellen
antwort = chain.run("Was steht im Kapitel 3 über Sicherheit?")

Best Practices für gutes RAG

Dokumentenvorbereitung

  • Strukturierte Dokumente sind besser als lange Fließtexte
  • Entferne irrelevante Informationen vorher
  • Nutze klare Überschriften und Absätze

Chunking (Teilen)

  • Zu klein: Kontext geht verloren
  • Zu groß: Rauschen, langsam, teuer
  • Optimal: 500-1000 Tokens pro Chunk mit 10-20% Overlap

Retrieval verbessern

  • Nutze Semantic Search statt Keyword Search
  • Hybride Suche (Keywords + Semantik) liefert bessere Ergebnisse
  • Experimentiere mit verschiedenen Embedding-Modellen

Häufige Fehler bei RAG

❌ “Mein Dokument wurde nicht gefunden”

→ Prüfe das Dateiformat. PDF mit gescannten Bildern braucht OCR.

❌ “Die Antwort ist falsch”

→ RAG kann halluzinieren. Immer Fakten gegenprüfen!

❌ “Nur ein Teil der Antwort ist richtig”

→ Chunk-Overlapping erhöhen oder andere Retrieval-Methode wählen.

❌ “Es ist zu langsam”

→ Embeddings vorberechnen und cachen. Kleinere Chunks verwenden.


Meta Description

RAG (Retrieval-Augmented Generation) erklärt: So nutzt du ChatGPT mit eigenen Dokumenten. Tutorial für Einsteiger und Fortgeschrittene.

FAQ

Brauche ich ChatGPT Plus für RAG? Ja, für den direkten Datei-Upload in ChatGPT. RAG-Tools für Entwickler gibt es aber auch kostenlos.

Welche Dateiformate werden unterstützt? PDF, Word (.docx), Text (.txt), Markdown, CSV, Excel. Scans brauchen OCR (Texte aus Bildern).

Ist RAG sicher für sensible Daten? Bei Cloud-Tools wie ChatGPT werden Daten verarbeitet. Für Vertrauliches: lokale LLMs mit Ollama nutzen.

Was kostet RAG? Embedding-APIs kosten wenig (~$0.0001 pro 1000 Tokens). ChatGPT-Nutzung nach Token-Verbrauch.

Kann RAG halluzinieren? Ja. RAG reduziert Halluzinationen, eliminiert sie aber nicht. Immer gegenprüfen!


External Resources


Dieser Beitrag wurde mit KI-Unterstützung erstellt und vor der Veröffentlichung redaktionell geprüft.