Inhaltsverzeichnis
Was ist ein lokales LLM?
Ein Large Language Model (LLM) ist ein KI-Sprachmodell, das Text versteht und generiert. Cloud-Dienste wie ChatGPT, Copilot oder Gemini laufen auf den Servern ihrer US-amerikanischen Anbieter — Ihre Eingaben verlassen Ihr Netzwerk und werden dort verarbeitet.
Ein lokales LLM läuft auf Ihrer eigenen Hardware: Ihr Server im Keller, in Ihrem Rechenzentrum oder in einer privaten Hosting-Umgebung. Das Modell wird einmalig heruntergeladen und danach vollständig offline betrieben. Keine Datenweitergabe, keine Drittland-Übertragung, keine Logging-Risiken.
Was ein lokales LLM nicht bedeutet: eine schlechtere Alternative. Für viele Unternehmensanwendungen sind aktuelle Open-Source-Modelle — richtig konfiguriert und auf Ihre Daten abgestimmt — leistungsfähiger als allgemeine Cloud-Modelle.
Für wen ist ein lokales LLM unverzichtbar?
Nicht jedes Unternehmen braucht zwingend eine lokale KI-Lösung. Aber für bestimmte Branchen und Berufe ist sie die einzig vertretbare Option.
Anwaltskanzleien & Notare
Das anwaltliche Berufsgeheimnis (§ 43a BRAO) verbietet die Weitergabe mandantenbezogener Daten an Dritte. Jeder Prompt, der Aktenstücke, Namen oder Falldetails enthält und an einen US-Cloud-Dienst gesendet wird, ist ein potentieller Geheimnisverrat — unabhängig von AGB-Klauseln der Anbieter.
Lokale LLMs ermöglichen Kanzleien:
- Schriftsätze und Verträge auf Basis eigener Akten zusammenfassen
- Mandantenanfragen vorbereiten und intern kategorisieren
- Rechtsdokumente auf Klauseln und Risiken analysieren (kein abschließendes Rechtsgutachten)
- Interne Wissensdatenbank — Urteile und Kommentare in natürlicher Sprache durchsuchen
Arztpraxen, Zahnarztpraxen & medizinische Einrichtungen
Patientendaten unterliegen der ärztlichen Schweigepflicht (§ 203 StGB) und den strengsten Kategorien der DSGVO (Art. 9 — besondere Kategorien personenbezogener Daten). Eine Verarbeitung durch US-Cloud-Anbieter ist in der Regel nicht vereinbar.
Konkrete Anwendungsfälle für Praxen und Kliniken:
- Arztbriefe aus Stichpunkten generieren (lokal, patientenbezogen)
- Anamnesebögen und Befunde zusammenfassen
- Kodierungsunterstützung (ICD-10, OPS) aus Befundtexten
- Interne Suche in Leitlinien, Fachliteratur und Praxishandbüchern
KRITIS-Betreiber (Kritische Infrastrukturen)
Betreiber kritischer Infrastrukturen — Energieversorger, Wasserwerke, Kliniken, Finanzdienstleister, Transportunternehmen — sind nach dem IT-Sicherheitsgesetz 2.0 und NIS2 zu besonderem Schutz ihrer IT-Systeme verpflichtet. Cloud-Abhängigkeiten für kritische Prozesse gelten regulatorisch als Risiko.
KRITIS-Betreiber nutzen lokale LLMs für:
- Incident-Reports und Sicherheitsprotokolle automatisch erstellen
- Technische Dokumentation aus Betriebsdaten generieren
- Interne Wissensdatenbanken für Schichtpersonal (24/7-Betrieb ohne Cloud)
- Auswertung von Log-Dateien und Anomalien in Echtzeit
Steuerberater, Wirtschaftsprüfer & Unternehmensberater
Steuerliche und wirtschaftliche Mandatsdaten sind genauso schützenswert wie Anwaltsakten. Die Berufspflichten (§ 57 StBerG) schließen unkontrollierte Datenweitergabe aus. Lokale LLMs ermöglichen hier die Automatisierung von Routineauswertungen ohne Datenschutzrisiko.
KMU mit Geschäftsgeheimnissen
Auch ohne berufsrechtliche Verpflichtung haben viele mittelständische Unternehmen berechtigte Gründe, Entwicklungsdaten, Kundenlisten, Preiskalkulation oder strategische Pläne nicht in Cloud-Modelle einzuspeisen. Das Gesetz zum Schutz von Geschäftsgeheimnissen (GeschGehG) bietet keinen automatischen Schutz bei leichtfertiger Datenweitergabe.
Wann ein lokales LLM konkret hilft
Interne Wissensdatenbank (RAG)
Retrieval Augmented Generation (RAG) verbindet ein Sprachmodell mit Ihren internen Dokumenten. Mitarbeiter können in natürlicher Sprache fragen — das Modell sucht in Handbüchern, Prozessdokumenten, E-Mail-Archiven und Vertragsordnern und antwortet präzise. Ohne Cloud. Mit vollem Datenschutz.
Automatisierte Textverarbeitung
E-Mails kategorisieren und beantworten, Tickets zusammenfassen, Protokolle aus Gesprächsnotizen erstellen, PDFs und Scans auslesen und strukturieren — für diese Aufgaben sind kleinere lokale Modelle ausreichend leistungsfähig und deutlich günstiger als dauerhafter API-Zugriff auf Cloud-Dienste.
Offline-Nutzung & Notfallbetrieb
Produktionsnetzwerke, isolierte Umgebungen, Krankenhäuser mit Netzwerktrennung, Produktionsanlagen ohne stabiles Internet: Lokale LLMs funktionieren ohne Verbindung nach außen — und fallen nicht aus, wenn der Cloud-Anbieter Wartung hat oder überlastet ist.
Hardware: CPU vs. GPU — der Unterschied in der Praxis
Lokale LLMs laufen prinzipiell auf jeder modernen Hardware. Aber die Wahl zwischen CPU und GPU entscheidet über Antwortzeiten, Nutzerzahl und Modellgröße erheblich.
CPU-Betrieb: Einstieg, Tests, geringe Last
- Hardware: Server mit 32–64 GB RAM, moderne CPU (8+ Kerne)
- Antwortzeiten: 5–20 Sekunden pro Antwort (abhängig vom Modell)
- Gleichzeitige Nutzer: 1–3 bei akzeptabler Performance
- Geeignet für: Evaluation, Einzelnutzung, Nachtverarbeitung großer Dokumentenmengen
- Kosten: Nutzung vorhandener Server-Hardware möglich
GPU-Betrieb: Produktionseinsatz, mehrere Nutzer gleichzeitig
Für einen produktionstauglichen Betrieb mit mehreren parallelen Nutzern ist eine GPU (Grafikkarte) mit ausreichend VRAM entscheidend. Das gesamte Modell wird in den GPU-Speicher geladen — die Inferenz (Verarbeitung einer Anfrage) ist dann 10–50× schneller als auf CPU.
- Einsteiger-GPU (16–24 GB VRAM): Modelle bis ~13B Parameter, 2–5 Nutzer gleichzeitig, Antwortzeiten <3 Sekunden
- Mid-Range-GPU (24–48 GB VRAM): Modelle bis ~34B Parameter, 5–10 Nutzer, Antwortzeiten <2 Sekunden — für die meisten KMU ideal
- Professional-GPU (48–80 GB VRAM): Große Modelle, 20+ Nutzer parallel — für Kliniken, KRITIS-Betreiber mit hohem Volumen
Kein GPU verfügbar? Hybridlösung
Wer aktuell keine GPU-Infrastruktur hat, kann für rechenintensive Aufgaben (wie RAG-Abfragen) auch eine CPU-Lösung mit sehr guten Ergebnissen betreiben — wenn die Aufgaben asynchron ausgeführt werden (z. B. Nachtverarbeitung von Dokumenten, geplante Zusammenfassungen). Für Echtzeit-Chat mit mehreren Nutzern ist eine GPU-Investition jedoch empfehlenswert.
Wann ein lokales LLM keine gute Idee ist
Komplexes juristisches oder medizinisches Reasoning
Lokale Modelle sind Hilfsmittel, keine Experten. Rechtsgutachten, Diagnosen oder Therapieentscheidungen dürfen nicht auf LLM-Ausgaben basieren. Der Mehrwert liegt in der Vorverarbeitung, Strukturierung und Zusammenfassung — die fachliche Verantwortung bleibt beim Menschen.
Ohne Use-Case-Analyse und technische Begleitung
Ein lokales LLM einfach zu installieren ist möglich. Es produktionsreif zu betreiben, sicher zu konfigurieren, in Bestandssysteme zu integrieren und langfristig zu warten — das erfordert Erfahrung. Ohne technische Begleitung entstehen häufig Sicherheitslücken (offene Ports, fehlende Zugriffskontrollen) oder schlicht Systeme, die nach zwei Wochen niemand mehr nutzt.