Lokales LLM für Anwälte, Ärzte & KRITIS:
KI ohne Cloud-Risiko

Sprachmodelle auf eigener Hardware, DSGVO-konform und ohne Internet­abhängigkeit — für Berufsgeheimnisträger, Kritische Infrastrukturen und KMU mit vertraulichen Daten die einzig sinnvolle KI-Option.

Inhaltsverzeichnis

Was ist ein lokales LLM?

Ein Large Language Model (LLM) ist ein KI-Sprachmodell, das Text versteht und generiert. Cloud-Dienste wie ChatGPT, Copilot oder Gemini laufen auf den Servern ihrer US-amerikanischen Anbieter — Ihre Eingaben verlassen Ihr Netzwerk und werden dort verarbeitet.

Ein lokales LLM läuft auf Ihrer eigenen Hardware: Ihr Server im Keller, in Ihrem Rechenzentrum oder in einer privaten Hosting-Umgebung. Das Modell wird einmalig heruntergeladen und danach vollständig offline betrieben. Keine Datenweitergabe, keine Drittland-Übertragung, keine Logging-Risiken.

Was ein lokales LLM nicht bedeutet: eine schlechtere Alternative. Für viele Unternehmensanwendungen sind aktuelle Open-Source-Modelle — richtig konfiguriert und auf Ihre Daten abgestimmt — leistungsfähiger als allgemeine Cloud-Modelle.


Für wen ist ein lokales LLM unverzichtbar?

Nicht jedes Unternehmen braucht zwingend eine lokale KI-Lösung. Aber für bestimmte Branchen und Berufe ist sie die einzig vertretbare Option.

Anwaltskanzleien & Notare

Das anwaltliche Berufsgeheimnis (§ 43a BRAO) verbietet die Weitergabe mandantenbezogener Daten an Dritte. Jeder Prompt, der Aktenstücke, Namen oder Falldetails enthält und an einen US-Cloud-Dienst gesendet wird, ist ein potentieller Geheimnisverrat — unabhängig von AGB-Klauseln der Anbieter.

Lokale LLMs ermöglichen Kanzleien:

  • Schriftsätze und Verträge auf Basis eigener Akten zusammenfassen
  • Mandantenanfragen vorbereiten und intern kategorisieren
  • Rechtsdokumente auf Klauseln und Risiken analysieren (kein abschließendes Rechtsgutachten)
  • Interne Wissensdatenbank — Urteile und Kommentare in natürlicher Sprache durchsuchen

Arztpraxen, Zahnarztpraxen & medizinische Einrichtungen

Patientendaten unterliegen der ärztlichen Schweigepflicht (§ 203 StGB) und den strengsten Kategorien der DSGVO (Art. 9 — besondere Kategorien personenbezogener Daten). Eine Verarbeitung durch US-Cloud-Anbieter ist in der Regel nicht vereinbar.

Konkrete Anwendungsfälle für Praxen und Kliniken:

  • Arztbriefe aus Stichpunkten generieren (lokal, patientenbezogen)
  • Anamnesebögen und Befunde zusammenfassen
  • Kodierungsunterstützung (ICD-10, OPS) aus Befundtexten
  • Interne Suche in Leitlinien, Fachliteratur und Praxishandbüchern

KRITIS-Betreiber (Kritische Infrastrukturen)

Betreiber kritischer Infrastrukturen — Energieversorger, Wasserwerke, Kliniken, Finanzdienstleister, Transportunternehmen — sind nach dem IT-Sicherheitsgesetz 2.0 und NIS2 zu besonderem Schutz ihrer IT-Systeme verpflichtet. Cloud-Abhängigkeiten für kritische Prozesse gelten regulatorisch als Risiko.

KRITIS-Betreiber nutzen lokale LLMs für:

  • Incident-Reports und Sicherheitsprotokolle automatisch erstellen
  • Technische Dokumentation aus Betriebsdaten generieren
  • Interne Wissensdatenbanken für Schichtpersonal (24/7-Betrieb ohne Cloud)
  • Auswertung von Log-Dateien und Anomalien in Echtzeit

Steuerberater, Wirtschaftsprüfer & Unternehmensberater

Steuerliche und wirtschaftliche Mandatsdaten sind genauso schützenswert wie Anwaltsakten. Die Berufspflichten (§ 57 StBerG) schließen unkontrollierte Datenweitergabe aus. Lokale LLMs ermöglichen hier die Automatisierung von Routineauswertungen ohne Datenschutzrisiko.

KMU mit Geschäftsgeheimnissen

Auch ohne berufsrechtliche Verpflichtung haben viele mittelständische Unternehmen berechtigte Gründe, Entwicklungsdaten, Kundenlisten, Preiskalkulation oder strategische Pläne nicht in Cloud-Modelle einzuspeisen. Das Gesetz zum Schutz von Geschäftsgeheimnissen (GeschGehG) bietet keinen automatischen Schutz bei leichtfertiger Datenweitergabe.

Fazit zur Zielgruppe: Wenn Ihr Unternehmen mit personenbezogenen Daten Dritter, Betriebsgeheimnissen oder Daten aus regulierten Branchen arbeitet, ist ein lokales LLM keine Option unter vielen — es ist die einzig vertretbare Wahl.

Wann ein lokales LLM konkret hilft

Interne Wissensdatenbank (RAG)

Retrieval Augmented Generation (RAG) verbindet ein Sprachmodell mit Ihren internen Dokumenten. Mitarbeiter können in natürlicher Sprache fragen — das Modell sucht in Handbüchern, Prozessdokumenten, E-Mail-Archiven und Vertragsordnern und antwortet präzise. Ohne Cloud. Mit vollem Datenschutz.

Automatisierte Textverarbeitung

E-Mails kategorisieren und beantworten, Tickets zusammenfassen, Protokolle aus Gesprächsnotizen erstellen, PDFs und Scans auslesen und strukturieren — für diese Aufgaben sind kleinere lokale Modelle ausreichend leistungsfähig und deutlich günstiger als dauerhafter API-Zugriff auf Cloud-Dienste.

Offline-Nutzung & Notfallbetrieb

Produktionsnetzwerke, isolierte Umgebungen, Krankenhäuser mit Netzwerktrennung, Produktionsanlagen ohne stabiles Internet: Lokale LLMs funktionieren ohne Verbindung nach außen — und fallen nicht aus, wenn der Cloud-Anbieter Wartung hat oder überlastet ist.


Hardware: CPU vs. GPU — der Unterschied in der Praxis

Lokale LLMs laufen prinzipiell auf jeder modernen Hardware. Aber die Wahl zwischen CPU und GPU entscheidet über Antwortzeiten, Nutzerzahl und Modellgröße erheblich.

CPU-Betrieb: Einstieg, Tests, geringe Last

  • Hardware: Server mit 32–64 GB RAM, moderne CPU (8+ Kerne)
  • Antwortzeiten: 5–20 Sekunden pro Antwort (abhängig vom Modell)
  • Gleichzeitige Nutzer: 1–3 bei akzeptabler Performance
  • Geeignet für: Evaluation, Einzelnutzung, Nachtverarbeitung großer Dokumentenmengen
  • Kosten: Nutzung vorhandener Server-Hardware möglich

GPU-Betrieb: Produktionseinsatz, mehrere Nutzer gleichzeitig

Für einen produktionstauglichen Betrieb mit mehreren parallelen Nutzern ist eine GPU (Grafikkarte) mit ausreichend VRAM entscheidend. Das gesamte Modell wird in den GPU-Speicher geladen — die Inferenz (Verarbeitung einer Anfrage) ist dann 10–50× schneller als auf CPU.

  • Einsteiger-GPU (16–24 GB VRAM): Modelle bis ~13B Parameter, 2–5 Nutzer gleichzeitig, Antwortzeiten <3 Sekunden
  • Mid-Range-GPU (24–48 GB VRAM): Modelle bis ~34B Parameter, 5–10 Nutzer, Antwortzeiten <2 Sekunden — für die meisten KMU ideal
  • Professional-GPU (48–80 GB VRAM): Große Modelle, 20+ Nutzer parallel — für Kliniken, KRITIS-Betreiber mit hohem Volumen
Faustformel GPU: Für eine Praxis, Kanzlei oder ein KMU mit 5–15 gleichzeitigen Nutzern ist eine GPU mit 24 GB VRAM und ein Server mit 64 GB RAM eine praxiserprobte Einstiegskonfiguration. Die Investition amortisiert sich gegenüber monatlichen Cloud-API-Kosten in der Regel innerhalb von 12–18 Monaten.

Kein GPU verfügbar? Hybridlösung

Wer aktuell keine GPU-Infrastruktur hat, kann für rechenintensive Aufgaben (wie RAG-Abfragen) auch eine CPU-Lösung mit sehr guten Ergebnissen betreiben — wenn die Aufgaben asynchron ausgeführt werden (z. B. Nachtverarbeitung von Dokumenten, geplante Zusammenfassungen). Für Echtzeit-Chat mit mehreren Nutzern ist eine GPU-Investition jedoch empfehlenswert.


Wann ein lokales LLM keine gute Idee ist

Komplexes juristisches oder medizinisches Reasoning

Lokale Modelle sind Hilfsmittel, keine Experten. Rechtsgutachten, Diagnosen oder Therapieentscheidungen dürfen nicht auf LLM-Ausgaben basieren. Der Mehrwert liegt in der Vorverarbeitung, Strukturierung und Zusammenfassung — die fachliche Verantwortung bleibt beim Menschen.

Ohne Use-Case-Analyse und technische Begleitung

Ein lokales LLM einfach zu installieren ist möglich. Es produktionsreif zu betreiben, sicher zu konfigurieren, in Bestandssysteme zu integrieren und langfristig zu warten — das erfordert Erfahrung. Ohne technische Begleitung entstehen häufig Sicherheitslücken (offene Ports, fehlende Zugriffskontrollen) oder schlicht Systeme, die nach zwei Wochen niemand mehr nutzt.


Häufige Fragen zu lokalen LLMs

KI ist der Oberbegriff für maschinelles Lernen insgesamt. Ein LLM (Large Language Model) ist ein bestimmter Typ KI-Modell, das für Textverarbeitung optimiert ist. ChatGPT ist ein spezifisches LLM-Produkt von OpenAI. Wenn wir von lokalen LLMs sprechen, meinen wir Open-Source-Modelle wie Llama, Mistral oder Qwen, die Sie selbst hosten.
Ja — sofern es korrekt konfiguriert ist. Da keine Daten das eigene Netzwerk verlassen, entfällt das Drittland-Übertragungsrisiko (Art. 44 ff. DSGVO) vollständig. Wichtig: Auch lokale Systeme müssen mit Zugriffskontrolle, Protokollierung und sicherer Konfiguration betrieben werden. Das ist Teil einer ordnungsgemäßen KI-Implementierung.
Wir sind bewusst herstellerunabhängig und nennen keine spezifischen Produktnamen in der Außenkommunikation. Im Beratungsgespräch zeigen wir Ihnen Live-Demos verschiedener Open-Source-Ökosysteme und erläutern, welche Modellgröße und -architektur für Ihre konkreten Anforderungen geeignet ist.
Modell-Software ist Open Source — kostenlos. Hardware: je nach Anforderungen 2.000–15.000 € (CPU-Server bis GPU-Workstation). Implementierung durch Koreva: stundenbasiert ab 100 €/h, typischer Projektrahmen 15–40 Stunden inklusive Integration, Sicherheitskonfiguration und Mitarbeiterschulung. Im Erstgespräch erhalten Sie eine realistische Einschätzung für Ihren Bedarf.

Häufige Fragen

Ein lokales Large Language Model (LLM) läuft vollständig auf Ihrer eigenen Hardware — ohne Verbindung zu externen Servern. Im Gegensatz zu ChatGPT oder Claude verlassen Ihre Daten das Unternehmens­netzwerk nie. Das ist entscheidend für Branchen mit Verschwiegenheitspflicht (Kanzleien, Arztpraxen) oder mit schützenswertem Betriebswissen.
Für einfache Aufgaben mit kleineren Modellen (7B Parameter): Moderner Workstation-PC mit 32 GB RAM reicht aus. Für produktionsreife Qualität vergleichbar mit GPT-4: Workstation mit einer NVIDIA-GPU (RTX 4090 oder A-Serie), Investition ca. 3.000–8.000 €. GPU-Inferenz ist 5–20× schneller als CPU-Betrieb.
Mit einem lokalen LLM entfallen die datenschutzrechtlichen Probleme, die US-Cloud-Dienste mitbringen: kein CLOUD Act, keine Datenübertragung in Drittländer, keine AVV-Vereinbarung mit einem US-Konzern notwendig. Sie haben vollständige Kontrolle über Daten, Modell und Logging. Das ist besonders relevant für Anwälte, Ärzte und KRITIS-Betreiber.
Einmalige Kosten: Hardware 3.000–8.000 €, Einrichtung und Integration 1.500–5.000 €. Laufende Kosten: Strom ca. 50–150 €/Monat, kein API-Abo. Ein Vergleich: GPT-4-API bei intensiver Nutzung kostet 500–2.000 €/Monat. Die Hardware amortisiert sich typischerweise in 12–24 Monaten.
Für Kanzleien, Praxen & KRITIS

KI datenschutzkonform einsetzen — wir zeigen wie.

Im kostenlosen Erstgespräch demonstrieren wir lokale LLMs live und klären, ob und wie KI für Ihr Unternehmen sinnvoll ist. Auch wenn die Antwort lautet: aktuell noch nicht.