Was ist RAG (Retrieval Augmented Generation)?

RAG ist eine KI-Architektur, bei der ein Sprachmodell nicht aus dem eigenen Training antwortet, sondern zunächst relevante Dokumente aus einer eigenen Wissensbasis sucht und dann auf Basis dieser Dokumente antwortet. Das Ergebnis: keine Halluzinationen, stets aktuelle und belegbare Antworten aus Ihren eigenen Unternehmensdokumenten.

Welche Vorteile hat RAG gegenüber einem normalen KI-Chatbot?

Ein normaler Chatbot antwortet aus seinem Training — er kennt weder Ihre Produkte, Ihre Prozesse noch Ihre aktuellen Dokumente. RAG durchsucht Ihre eigene Wissensbasis (Handbücher, Verträge, FAQs, Protokolle) und antwortet präzise und belegbar. Fehlinformationen werden drastisch reduziert, weil die Antwort direkt aus Ihren Dokumenten kommt.

Kann RAG lokal ohne Cloud betrieben werden?

Ja, und für sensible Branchen ist das Pflicht. Ein lokales RAG-System nutzt ein lokal laufendes Sprachmodell (z. B. Mistral oder Llama) und eine lokale Vektordatenbank (z. B. ChromaDB, Qdrant). Keine Daten verlassen das Unternehmensnetzwerk. Das ist die einzig vertretbare Architektur für Kanzleien, Arztpraxen und KRITIS-Betreiber.

Was kostet ein RAG-System für ein KMU?

Abhängig von Datenmenge und Qualitätsanforderungen: Einfaches internes Auskunftssystem (bis 5.000 Dokumente) in 3–5 Wochen und ca. 5.000–12.000 €. Inklusive Hardware ca. 3.000–5.000 € extra, wenn noch keine GPU-Workstation vorhanden ist. Laufende Kosten: Wartung und Dokumentenpflege, keine API-Gebühren.

RAG erklärt: KI mit eigenem Wissen

Inhaltsverzeichnis

Was RAG ist — ohne Fachwortavalanche
Wie RAG technisch funktioniert (verständlich)
Was ein RAG-System für ein KMU können sollte
Warum lokales RAG für sensible Branchen Pflicht ist
Was ein RAG-Projekt bei Koreva in 4 Wochen umfasst
Was ein RAG-System braucht — und was nicht
- Was Sie brauchen
- Was Sie nicht brauchen
Was RAG nicht leistet

Was RAG ist — ohne Fachwortavalanche

RAG steht für Retrieval Augmented Generation: Suchen, Ergänzen, Generieren. Das Grundprinzip ist verblüffend simpel, obwohl der technische Aufwand dahinter nicht zu unterschätzen ist.

Stellen Sie sich vor, Sie bitten jemanden, eine Frage zu beantworten. Die Person hat zwei Optionen: Entweder sie antwortet aus dem Gedächtnis — oder sie schaut kurz in den richtigen Ordner, liest die relevante Seite und gibt Ihnen dann eine fundierte Antwort. RAG ist Option zwei. Das Sprachmodell schaut nach, bevor es antwortet.

Ein reines Sprachmodell (Pure LLM) antwortet nur aus seinem Training heraus. Das Training endet irgendwann — und es enthält nie Ihre internen Dokumente. RAG behebt dieses strukturelle Problem, ohne das Modell neu trainieren zu müssen:

Aktualität: Neue Dokumente werden in die Wissensdatenbank eingepflegt — kein Modell-Retraining nötig.
Unternehmensspezifität: Das Modell antwortet auf Basis Ihrer echten Handbücher, Verträge und Prozesse.
Weniger Halluzinationen: Wenn die Antwort aus einem konkreten Dokument stammt, erfindet das Modell keine internen Fakten.
Keine Datenlecks ins Training: Ihre Dokumente werden nicht in ein Cloud-Modell eingespeist und landen nicht im Training Dritter.

RAG ist derzeit die kosteneffizienteste Art, ein Sprachmodell für unternehmensspezifische Anwendungen nützlich zu machen. Ohne Fine-Tuning, ohne Cloud, ohne Datentransfer.

Wie RAG technisch funktioniert (verständlich)

Hinter RAG stecken fünf klar abgegrenzte Schritte. Wer verstehen möchte, wie das System Entscheidungen trifft, sollte diese Schritte kennen.

Schritt 1: Dokumente werden zu Vektoren

Alle Ihre Dokumente — PDFs, Word-Dateien, Wiki-Seiten, E-Mails, Handbücher — werden durch ein sogenanntes Embedding-Modell in numerische Vektoren umgewandelt. Ein Vektor ist eine Liste von Zahlen, die den semantischen Inhalt eines Textstücks repräsentiert. Ähnliche Inhalte erzeugen ähnliche Vektoren — mathematisch nah beieinander. Diese Vektoren werden in einer Vektordatenbank gespeichert.

Schritt 2: Die Frage wird ebenfalls vektorisiert

Wenn ein Mitarbeiter eine Frage stellt — "Wie viele Urlaubstage habe ich im ersten Jahr?" — wird diese Frage durch dasselbe Embedding-Modell in einen Vektor umgewandelt. Der Frage-Vektor beschreibt, was der Nutzer semantisch wissen möchte.

Schritt 3: Semantische Suche findet die relevanten Abschnitte

Die Vektordatenbank sucht nun nach den Dokumenten-Abschnitten, die dem Frage-Vektor am ähnlichsten sind — nicht nach exakten Schlüsselwörtern, sondern nach Bedeutung. Eine Frage nach "Urlaubstagen" findet auch Abschnitte, die "Jahresurlaub", "Erholungsurlaub" oder "Urlaubsanspruch" enthalten, auch wenn das genaue Wort nie auftaucht. Das ist der Unterschied zur klassischen Volltextsuche.

Schritt 4: Die gefundenen Abschnitte werden dem Modell als Kontext übergeben

Die drei bis fünf relevantesten Abschnitte werden dem Sprachmodell zusammen mit der Frage übergeben. Der Prompt lautet sinngemäß: "Basierend auf den folgenden Dokumenten beantworte die Frage des Nutzers. Dokument 1: [...] Dokument 2: [...] Frage: Wie viele Urlaubstage habe ich im ersten Jahr?"

Schritt 5: Das Modell antwortet auf Basis der Dokumente

Das Sprachmodell formuliert eine Antwort — ausschließlich aus dem übergebenen Kontext heraus, nicht aus seinem allgemeinen Training. Ein gut konfiguriertes RAG-System gibt dabei auch die Quelle an: "Laut Personalhandbuch, Abschnitt 4.2, haben Mitarbeiter im ersten Jahr Anspruch auf 24 Urlaubstage."

Was ein RAG-System für ein KMU können sollte

Die technische Basis ist schnell erklärt. Interessanter ist die Frage: Für welche konkreten Aufgaben lohnt sich RAG im Unternehmensalltag?

Mitarbeiter-FAQ und HR-Dokumentation

Fragen wie "Wie beantrage ich Urlaub?", "Was steht zur Homeoffice-Regelung im Arbeitsvertrag?" oder "Wer ist zuständig für IT-Störungen?" landen täglich in Postfächern von HR, Sekretariat und Führungskräften. Ein RAG-System beantwortet diese Fragen direkt aus dem Personalhandbuch — ohne dass jemand nachschlagen oder antworten muss.

Vertragssuche und -analyse

"Welche Kündigungsfrist steht im Wartungsvertrag mit Anbieter X?" oder "Gibt es in unseren Lieferverträgen Klauseln zur Höheren Gewalt?" sind Fragen, für die heute jemand Dutzende PDFs öffnen muss. RAG findet die relevanten Stellen sekundengenau — und zitiert die Quelle.

Interner Produkt- und Kundendienst-Assistent

Ihr Kundendienst-Team muss nicht jede technische Spezifikation auswendig kennen. Ein RAG-System, das auf Produktdatenblättern, Handbüchern und FAQ-Dokumenten basiert, beantwortet Kundenfragen präzise — ohne dass ein Mitarbeiter erst recherchieren muss.

Compliance-Prüfung

"Deckt unsere Datenschutzrichtlinie das folgende Szenario ab?" oder "Sind wir nach unserer ISO-27001-Dokumentation für diesen Prozess zertifiziert?" — RAG kann Compliance-Fragen auf Basis Ihrer eigenen Richtlinien beantworten und die relevanten Abschnitte direkt zitieren. Das ersetzt keine Rechtsberatung, beschleunigt aber die interne Vorprüfung erheblich.

Wissenstransfer und Onboarding

Neue Mitarbeiter stellen in den ersten Wochen dieselben Fragen immer wieder. Ein RAG-System, das auf Ihrer internen Dokumentation basiert, beantwortet Fragen zu Prozessen, Tools, Ansprechpartnern und Strukturen — rund um die Uhr, ohne einen erfahrenen Kollegen zu blockieren.

Warum lokales RAG für sensible Branchen Pflicht ist

Cloud-RAG-Dienste — etwa Azure OpenAI mit eigenem Kontext oder vergleichbare SaaS-Lösungen — klingen praktisch. Der Haken: Wenn Sie Ihre Dokumente hochladen und Fragen stellen, gehen sowohl die Dokumente als auch die Fragen an externe Server, oft in den USA.

Für bestimmte Berufsgruppen und Branchen ist das nicht verhandelbar:

Rechtsanwälte (§ 43a BRAO): Das anwaltliche Berufsgeheimnis verbietet die Weitergabe mandantenbezogener Daten an Dritte. Jeder Upload von Mandantenakten in einen Cloud-RAG-Dienst ist ein potentieller Verstoß.
Ärzte und medizinische Einrichtungen (§ 203 StGB): Patientendaten fallen unter die ärztliche Schweigepflicht. Eine Verarbeitung durch US-Cloud-Anbieter ist unter geltendem deutschen und europäischen Datenschutzrecht in der Regel nicht zulässig.
Steuerberater (§ 57 StBerG): Mandatsdaten sind genauso schützenswert wie Anwaltsakten. Berufspflichten schließen unkontrollierte Datenweitergabe aus.
KRITIS-Betreiber: Betriebliche Dokumentation und interne Prozesse kritischer Infrastrukturen gehören nicht in externe Cloud-Dienste.

Bei einem lokalen RAG-System laufen alle Komponenten auf Ihrer eigenen Hardware: das Embedding-Modell, die Vektordatenbank, das Sprachmodell. Keine Anfrage, kein Dokument, kein Ergebnis verlässt Ihr Netzwerk. Das ist kein Versprechen eines Anbieters — es ist eine technische Tatsache.

Was ein RAG-Projekt bei Koreva in 4 Wochen umfasst

Vier Wochen klingen knapp. Für einen produktionsreifen internen KI-Assistenten — mit sauberer Quellenangabe, Zugriffskontrollen und dokumentiertem Betrieb — ist das für KMU mit einem klar definierten Anwendungsfall realistisch.

Woche 1: Datenquellen definieren und bereinigen

Vor dem technischen Setup steht die Frage: Welche Dokumente soll das System kennen? Wir helfen Ihnen, die relevante Dokumentenlandschaft zu kartieren — PDFs, Word-Dateien, interne Wikis, E-Mail-Archive, Handbücher. Genauso wichtig ist das Bereinigen: Veraltete Dokumente, Duplikate und schlecht strukturierte Scans sabotieren die Antwortqualität. Qualität der Eingabe bestimmt Qualität der Ausgabe.

Woche 2: Infrastruktur aufsetzen

Wir installieren und konfigurieren alle Komponenten auf Ihrer Hardware: das Embedding-Modell für die Vektorisierung, die Vektordatenbank, das Sprachmodell für die Antwortgenerierung. Dazu kommen Zugriffskontrollen (wer darf welche Dokumente abfragen?), Protokollierung und die Integration in eine Nutzerschnittstelle — entweder als Chat-Interface oder als API für bestehende Systeme.

Woche 3: Pilotbetrieb mit 3–5 Testnutzern

Das System geht mit echten Dokumenten und echten Nutzern in den Testbetrieb. Wir definieren gemeinsam Testfragen — Fragen, auf die Sie die Antworten kennen — und prüfen systematisch: Findet das System die richtigen Abschnitte? Sind die Antworten präzise? Wo gibt es Lücken in der Wissensdatenbank?

Woche 4: Feintuning, Dokumentation, Übergabe

Auf Basis des Pilotfeedbacks werden Retrieval-Parameter angepasst — wie viele Abschnitte werden zur Antwortgenerierung herangezogen, wie groß sind die Abschnitte, wie werden Quellen zitiert. Abschliessend erstellen wir eine technische Dokumentation und schulen Ihre Administratoren in Pflege und Erweiterung des Systems. Das Ergebnis: Ein interner KI-Assistent, den Ihr Team eigenständig betreiben und erweitern kann.

Was ein RAG-System braucht — und was nicht

Bevor ein Projekt beginnt, sollten Erwartungen und Voraussetzungen klar sein.

Was Sie brauchen

Saubere, strukturierte Dokumente. Schlecht gescannte PDFs ohne OCR, handgeschriebene Notizen und chaotisch benannte Dateien erschweren die Qualität erheblich. Mindestens 50–200 relevante, gut strukturierte Dokumente sind für sinnvolle Ergebnisse notwendig.
Ausreichend Hardware. Für ein produktionstaugliches RAG-System empfehlen wir einen Server mit mindestens 32 GB RAM. Für schnelle Antwortzeiten bei mehreren gleichzeitigen Nutzern ist eine GPU mit 16–24 GB VRAM sinnvoll.
Einen definierten Anwendungsfall. "Die KI soll alles wissen" ist kein Projekt. "Die KI soll Fragen zu Personalhandbuch und Wartungsverträgen beantworten" ist eines.

Was Sie nicht brauchen

Tausende Dokumente. Qualität schlägt Quantität. 100 präzise, aktuelle Dokumente liefern bessere Ergebnisse als 5.000 unstrukturierte Dateien.
Fine-Tuning des Modells. Fine-Tuning bedeutet, das Sprachmodell selbst mit Ihren Daten weiterzutrainieren. Das ist teurer, komplexer und für die meisten KMU-Anwendungsfälle nicht notwendig. RAG erreicht bei unternehmensspezifischen Wissensabfragen vergleichbare oder bessere Ergebnisse bei deutlich geringerem Aufwand.
Cloud-Dienste. Weder für die Vektordatenbank noch für das Sprachmodell noch für das Embedding-Modell sind Cloud-Dienste nötig. Alles läuft on-premise.

Was RAG nicht leistet

Ehrlichkeit gehört zur seriösen Beratung. RAG ist kein Allheilmittel.

RAG halluziniert weniger — aber nicht null

Weil das Modell konkrete Dokumentenabschnitte als Kontext erhält, erfindet es weniger. Aber Sprachmodelle können immer noch fehlerhafte Schlussfolgerungen ziehen oder Abschnitte falsch interpretieren. Bei kritischen Entscheidungen — rechtlich, medizinisch, finanziell — gilt immer: Quelldokument prüfen, nicht blind der KI-Antwort vertrauen. Ein gutes RAG-System macht das leicht, indem es die Quelle immer mitliefert.

RAG findet nur, was in der Wissensdatenbank steht

Wenn ein Prozess nirgendwo dokumentiert ist, kann RAG ihn nicht beantworten. Lücken in der Dokumentation werden durch RAG sichtbar — und bleiben Lücken, solange sie nicht gefüllt werden. Das ist keine Schwäche des Systems, sondern ein ehrlicher Spiegel des eigenen Wissensstands.

Schlechte Dokumente ergeben schlechte Antworten

Widersprüchliche Richtlinien, veraltete Handbücher, schlecht strukturierte Texte — RAG verstärkt die Qualität Ihrer Dokumentation, es repariert sie nicht. Die Bereinigung der Datenbasis ist deswegen der wichtigste, oft unterschätzte Schritt im Projekt.

Weiterführende Artikel: Lesen Sie auch Lokales LLM für Anwälte, Ärzte & KRITIS, KI-Agenten im Unternehmen und KI-Strategie für KMU.

RAG für KMU: Wie Ihr Unternehmen in 4 Wochen einen KI-Assistenten mit eigenem Wissen bekommt