IAPMESuisse
|Von Laurent Duplat, KI & KMU-Berater

Ollama und lokale LLM für Schweizer KMU: KI ohne Cloud, ohne Kosten (2026)

LLM lokal mit Ollama in einem Schweizer KMU betreiben: verfügbare Modelle, Anwendungsfälle, Performance, maximale Datensouveränität. Praxisleitfaden 2026.

Ollama und lokale LLM für Schweizer KMU: KI ohne Cloud, ohne Kosten

Ollama ist ein Open-Source-Tool, mit dem Sprachmodelle (LLM) direkt auf Ihrem Computer oder Server ausgeführt werden können – ohne Cloud-API, ohne monatliches Abonnement und ohne dass Ihre Daten Ihre Infrastruktur verlassen. Im Jahr 2026 ist dieser Ansatz für Schweizer KMU dank erschwinglicher GPU-Hardware und leistungsfähiger kompakter Modelle zugänglich geworden.

Dies ist die endgültige Antwort auf die strengsten nDSG-Anforderungen: null Datentransfer, null Anbieterabhängigkeit, null Grenzkosten im Betrieb.

Für den allgemeinen Kontext siehe den Pilotleitfaden zur KI-Automatisierung für Schweizer KMU.

1. Was Ollama konkret ermöglicht

Ollama vereinfacht die Installation und Nutzung von Open-Source-LLM auf einen einzigen Befehl. Nach der Installation können Sie:

  • Einen lokalen Chat über die Kommandozeile starten: ollama run mistral.
  • Eine OpenAI-kompatible REST-API auf localhost:11434 bereitstellen – integrierbar in n8n, LangChain, Ihre Python-Skripte.
  • Mehrere Modelle gleichzeitig verwalten und in Sekundenschnelle wechseln.
  • Das Modell als Systemdienst im Hintergrund betreiben.

2. Die besten Modelle für ein Schweizer KMU im Jahr 2026

Mistral 7B (3,8 GB)

Hervorragend für: Texterstellung auf Französisch, Zusammenfassungen, Q&A zu Dokumenten. Sehr gutes Mehrsprachigkeit FR/DE. Läuft auf einem aktuellen Laptop mit 8 GB RAM.

LLaMA 3.1 8B (4,7 GB)

Hervorragend für: Code, Analyse, strukturiertes Schlussfolgern. Besser auf Englisch als auf Französisch. Ideal für die Automatisierung von Workflows.

Qwen 2.5 7B (4,7 GB)

Hervorragendes Mehrsprachigkeit einschliesslich Chinesisch – nützlich für Schweizer KMU mit asiatischen Handelsbeziehungen.

LLaMA 3.1 70B (40 GB, GPU erforderlich)

Leistung nahe an GPT-4 auf einem Server mit dedizierter GPU (RTX 4090 oder A100). Für Aufgaben, die das höchste Niveau an Schlussfolgerung erfordern.

Mistral Large 2 (quantisiert, 23 GB)

Das beste lokal verfügbare französische Modell. Vergleichbar mit Claude Sonnet für professionelles Schreiben auf Französisch.

3. Erforderliche Infrastruktur für ein KMU

Mindestkonfiguration (Büro oder Homeoffice)

  • MacBook Pro M3/M4 (Unified Memory 16 oder 32 GB): ausgezeichnet für Mistral 7B und LLaMA 8B.
  • PC mit 16 GB RAM, ohne dedizierte GPU: läuft, aber langsam (10 bis 30 Tokens/s).

Empfohlene KMU-Konfiguration (dedizierter Server)

  • Mini-PC mit RTX 3080/4070 (10–12 GB VRAM): ideal für 7B–13B-Modelle mit hoher Geschwindigkeit.
  • Server mit GPU RTX 4090: betreibt Modelle mit 30–70B.
  • On-Premise-Hosting oder dedizierter VPS Infomaniak mit GPU: vollständige Datensouveränität.

4. Integration in die KMU-Workflows

Ollama stellt eine OpenAI-kompatible API bereit. Zur Integration in n8n:

  • HTTP-Request-Node an http://localhost:11434/api/generate.
  • Oder n8n-OpenAI-Node, indem die Basis-URL auf http://localhost:11434/v1 geändert wird.

Ergebnis: Ihre Automatisierungs-Workflows (Kundenreminder, Content-Generierung, Dokumentenanalyse) laufen vollständig lokal, ohne API-Kosten und ohne Datentransfer.

Siehe selbst gehostetes n8n für Schweizer KMU und Make vs. n8n vs. Zapier.

5. Lokale Hochwertige Anwendungsfälle für Schweizer KMU

Lokale Vertragsanalyse

Eine Anwaltskanzlei oder Treuhandgesellschaft verarbeitet ihre Kundenverträge mit lokalem Mistral Large. Keine Kundendaten verlassen das Büro. Leistung gleichwertig mit einem Cloud-LLM für diesen Anwendungsfall. Grenzkosten = 0.

Mehrsprachige Content-Generierung ohne API

Ein Westschweizer KMU generiert seine Blog-Artikel auf FR/DE/IT mit lokalem Mistral 7B. Kein Mammouth- oder OpenAI-Abonnement erforderlich.

Interner Chatbot auf Wissensdatenbank

Ollama + LangChain + Ihre internen PDF-Dokumentationen = HR-Chatbot, Qualitäts-Chatbot, Produkt-Chatbot – 100 % intern, 0 Datenleck.

6. Grenzen von Ollama für ein KMU

  1. Keine Leistungsgarantie bei leichten Modellen: Mistral 7B macht faktische Fehler, die Claude 4 vermeidet. Bei kritischen Entscheidungen menschliche Validierung beibehalten.
  2. Stromverbrauch: Ein 24/7-GPU-Server verbraucht 200 bis 500 W. In die TCO-Berechnung einbeziehen.
  3. Manuelle Modellaktualisierung: Keine automatischen Updates wie bei einer Cloud-API.
  4. Eingeschränkte Multimodalität: Vision und Audio sind lokal weniger zugänglich als in der Cloud.

7. Kostenvergleich: Lokales Ollama vs. Cloud-API

Für 1 Million verarbeitete Tokens pro Monat:

  • Mistral API (Cloud): etwa CHF 3 bis CHF 10 je nach Modell.
  • Ollama lokal (amortisierter Server): Stromkosten ≈ CHF 0,20 bis CHF 1.

Für KMU mit hohem Volumen (Analyse grosser Dateien, tägliche Content-Generierung) wird die Hardware-Amortisation nach 6 bis 18 Monaten erreicht.


Weiterführende Links