Ollama e LLM locali per le PMI svizzere: IA senza cloud, senza costi (2026)
Eseguire LLM in locale con Ollama per una PMI svizzera: modelli disponibili, casi d'uso, performance, massima sovranità dei dati. Guida pratica 2026.
Ollama e LLM locali per le PMI svizzere: IA senza cloud, senza costi
Ollama è uno strumento open-source che permette di eseguire modelli linguistici (LLM) direttamente sul proprio computer o server, senza API cloud, senza abbonamento mensile e senza che i propri dati escano dall'infrastruttura aziendale. Nel 2026, questo approccio è diventato accessibile alle PMI svizzere grazie alla democratizzazione delle GPU economiche e all'emergere di modelli compatti ad alte prestazioni.
È la risposta definitiva ai vincoli più severi della nLPD: zero trasferimento di dati, zero dipendenza dal fornitore, costo marginale nullo in fase operativa.
Per il contesto generale, vedere la guida pilastro sull'automazione IA per le PMI svizzere.
1. Cosa permette concretamente Ollama
Ollama semplifica l'installazione e l'utilizzo di LLM open-source in un unico comando. Una volta installato, è possibile:
- Avviare una chat locale da riga di comando:
ollama run mistral. - Esporre un'API REST compatibile OpenAI su
localhost:11434— integrabile in n8n, LangChain, i propri script Python. - Gestire più modelli contemporaneamente e passare dall'uno all'altro in pochi secondi.
- Eseguire il modello in background come servizio di sistema.
2. I migliori modelli per una PMI svizzera nel 2026
Mistral 7B (3,8 GB)
Eccellente per: scrittura in francese, riepiloghi, Q&A su documenti. Ottimo multilingue FR/DE. Gira su un laptop recente con 8 GB di RAM.
LLaMA 3.1 8B (4,7 GB)
Eccellente per: codice, analisi, ragionamento strutturato. Migliore in inglese che in francese. Ideale per l'automazione dei workflow.
Qwen 2.5 7B (4,7 GB)
Eccellente multilingue, incluso il cinese — utile per le PMI svizzere con relazioni commerciali asiatiche.
LLaMA 3.1 70B (40 GB, GPU necessaria)
Prestazioni vicine a GPT-4 su un server con GPU dedicata (RTX 4090 o A100). Per le attività che richiedono il massimo livello di ragionamento.
Mistral Large 2 (quantizzato, 23 GB)
Il miglior modello in lingua francese disponibile localmente. Paragonabile a Claude Sonnet per la scrittura professionale in francese.
3. Infrastruttura necessaria per una PMI
Configurazione minima (ufficio o telelavoro)
- MacBook Pro M3/M4 (memoria unificata 16 o 32 GB): eccellente per Mistral 7B e LLaMA 8B.
- PC con 16 GB di RAM, senza GPU dedicata: funziona ma lento (10–30 token/s).
Configurazione raccomandata per PMI (server dedicato)
- Mini-PC con RTX 3080/4070 (10–12 GB VRAM): perfetto per i modelli 7B–13B ad alta velocità.
- Server con GPU RTX 4090: esegue modelli da 30–70B.
- Hosting on-premise o VPS dedicato Infomaniak con GPU: sovranità totale dei dati.
4. Integrazione nei workflow della PMI
Ollama espone un'API compatibile OpenAI. Per integrarla in n8n:
- Nodo HTTP Request verso
http://localhost:11434/api/generate. - Oppure nodo OpenAI di n8n, modificando il base URL in
http://localhost:11434/v1.
Risultato: i workflow di automazione (promemoria clienti, generazione di contenuti, analisi di documenti) girano interamente in locale, senza costi API e senza trasferimento di dati.
Vedere n8n self-hosted per le PMI svizzere e Make vs. n8n vs. Zapier.
5. Casi d'uso locali ad alto valore per le PMI svizzere
Analisi di contratti in locale
Uno studio legale o una fiduciaria elabora i contratti dei propri clienti con Mistral Large locale. Nessun dato del cliente esce dallo studio. Prestazioni equivalenti a un LLM cloud per questo caso d'uso. Costo marginale = 0.
Generazione di contenuti multilingue senza API
Una PMI della Svizzera romanda genera i propri articoli del blog in FR/DE/IT con Mistral 7B locale. Nessun abbonamento a Mammouth o OpenAI necessario.
Chatbot interno su base di conoscenza
Ollama + LangChain + la propria documentazione PDF interna = chatbot HR, chatbot qualità, chatbot prodotto — 100% interno, zero fuga di dati.
6. Limiti di Ollama per una PMI
- Nessuna garanzia di prestazioni sui modelli leggeri: Mistral 7B commette errori fattuali che Claude 4 evita. Per le decisioni critiche, mantenere la validazione umana.
- Consumo energetico: un server GPU attivo 24/7 consuma dai 200 ai 500 W. Da includere nel calcolo del TCO.
- Aggiornamento manuale dei modelli: nessun aggiornamento automatico come con un'API cloud.
- Multimodalità limitata: visione e audio sono meno accessibili in locale rispetto al cloud.
7. Confronto costi: Ollama locale vs. API cloud
Per 1 milione di token elaborati al mese:
- API Mistral (cloud): circa CHF 3–CHF 10 a seconda del modello.
- Ollama locale (server ammortizzato): costo elettrico ≈ CHF 0,20–CHF 1.
Per le PMI che generano volumi elevati (analisi di file di grandi dimensioni, generazione quotidiana di contenuti), l'ammortamento dell'hardware viene raggiunto in 6–18 mesi.