Sommaire
1. Le problème : vos données partent aux USA
Quand un employé de votre PME colle un email client, un devis ou un contrat dans ChatGPT, les données transitent par des serveurs d’OpenAI aux États-Unis. Idem avec Claude (Anthropic), Gemini (Google), ou Mistral (France, mais serveurs US pour les APIs).
La nLPD, nouvelle Loi sur la Protection des Données, en vigueur depuis septembre 2023, impose que tout transfert de données personnelles vers l’étranger soit encadré par des garanties adéquates. En pratique : la plupart des PME suisses qui utilisent des LLMs cloud le font sans contrat de traitement de données complet, ce qui constitue une non-conformité.
Un LLM local ne résout pas tous les problèmes juridiques, mais il élimine le vecteur principal de fuite de données : le transfert réseau vers un tiers étranger. Vos données ne quittent jamais votre machine.
2. Pourquoi Gemma 4 ?
Gemma 4 est la quatrième génération de modèles open source de Google. Lancé en mars 2026 sous licence Apache 2.0, il est utilisable commercialement sans redevance.
Positionnement benchmarks (avril 2026)
| Modèle | Arena IA (ELO) | Licence | Hardware minimum |
|---|---|---|---|
| Gemma 4 E4B | #3 mondial | Apache 2.0 | Mac mini M4 16 GB / 8 GB VRAM GPU |
| Llama 4 Scout | #4 | Llama 4 Community | 16 GB VRAM GPU (MoE 17B actifs) |
| Qwen3 32B | #5 | Apache 2.0 | 24 GB VRAM GPU |
| GPT-4o (réf. cloud) | #1 | Propriétaire | SaaS uniquement |
E4B signifie « Efficient 4 Billion ». C’est un modèle à mélange d’experts (MoE) : 26 milliards de paramètres au total, seulement 4 milliards activés par token. Résultat : performances proches d’un 27B dense pour un coût de calcul équivalent à un 4B.
En pratique sur un Mac mini M4 Pro 24 GB : 25–35 tokens/seconde. Pour de la rédaction, synthèse ou support interne, c’est largement suffisant.
- Apache 2.0 : usage commercial libre, zéro redevance
- #3 Arena IA en avril 2026 (source : lmarena.ai)
- Mac mini M4 16 GB : 15–22 tok/s sur E4B (quantizé Q4)
- Mac mini M4 Pro 24 GB : 25–35 tok/s sur E4B
- Fenêtre de contexte : 128 000 tokens via Ollama
- Taille fichier modèle : ~3.5 GB (Q4_K_M)
3. 3 options de déploiement selon votre cas
Le bon choix dépend de votre nombre d’utilisateurs simultanés et de votre volume mensuel de tokens.
Pour 80 % des PME suisses de 10–50 personnes : le Mac mini M4 est le bon choix. Simple, silencieux, conforme, rentable en 6 mois.
4. Installation : 3 commandes
On utilise Ollama comme runtime. C’est l’outil standard pour faire tourner des modèles GGUF localement : API OpenAI-compatible, gestion des modèles, interface CLI, démon système.
Prérequis système
Linux : Ubuntu 22.04+, Debian 12+. GPU NVIDIA : CUDA 12.x, drivers 525+. CPU uniquement si pas de GPU (fonctionnel, plus lent).
Windows : Windows 10/11. GPU NVIDIA CUDA supporté (driver 537+). CPU fallback disponible.
Étape 1. Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
Étape 2. Télécharger Gemma 4 E4B
ollama pull gemma4:e4b
Ollama télécharge le modèle depuis son registry et le stocke dans ~/.ollama/models/. Opération unique : le modèle reste sur disque, plus besoin d’internet ensuite.
Étape 3. Lancer le modèle
ollama run gemma4:e4b
Vous obtenez un prompt interactif dans le terminal. Si vous voyez une réponse en quelques secondes, l’installation est opérationnelle.
ollama list
# NAME ID SIZE MODIFIED
# gemma4:e4b e8db66a15f30 3.5 GB il y a 2 minutes
5. Configuration et premier test
Ollama démarre un serveur HTTP local sur localhost:11434 automatiquement. Vous pouvez l’interroger sans ouvrir de session interactive.
Test via curl
curl http://localhost:11434/api/generate \
-d '{
"model": "gemma4:e4b",
"prompt": "Résume en 3 points ce qu'\''est la nLPD.",
"stream": false
}'
Démarrage automatique au boot (Linux)
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama
6. Exposer l’API pour vos outils internes
Ollama expose une API OpenAI-compatible. Tous les outils qui supportent une base URL personnalisée (n8n, LangChain, Open WebUI, Continue.dev…) fonctionnent sans modification de code.
Python : exemple de base
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="sk-no-key-required" # Ollama n'utilise pas de clé
)
response = client.chat.completions.create(
model="gemma4:e4b",
messages=[
{"role": "user", "content": "Rédige un mail de relance professionnel."}
]
)
print(response.choices[0].message.content)
Accès réseau local (LAN)
Par défaut Ollama écoute sur 127.0.0.1 uniquement. Pour accéder depuis d’autres machines sur votre réseau interne :
# macOS / Linux : ajouter dans ~/.zshrc ou ~/.bashrc
export OLLAMA_HOST="0.0.0.0:11434"
# Puis redémarrer Ollama
# macOS : quitter l'app depuis la barre de menu, relancer
# Linux : sudo systemctl restart ollama
Open WebUI : interface chat pour votre équipe
Pour donner à votre équipe une interface similaire à ChatGPT, Open WebUI (MIT) se branche directement sur Ollama :
docker run -d \
-p 3000:8080 \
-v open-webui:/app/backend/data \
-e OLLAMA_API_BASE_URL=http://host.docker.internal:11434/api \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
7. Les limites à connaître
Performances vs cloud
Gemma 4 E4B sur Mac mini M4 est excellent pour son hardware. Il n’atteint pas GPT-4o ou Claude 3.7 Sonnet sur les tâches de raisonnement multi-étapes complexes. Pour de la génération, résumé, classification, extraction d’information, la différence est marginale dans l’usage quotidien.
Concurrent users
Ollama gère la concurrence mais un seul modèle tourne par défaut. Sur Mac mini M4 16 GB, au-delà de 3–4 requêtes simultanées la latence augmente. Pour 10+ utilisateurs simultanés, passez au Mac mini Pro 24 GB ou à un GPU dédié.
Mise à jour manuelle
Contrairement aux SaaS, vous gérez les mises à jour vous-même. Quand Gemma 5 sortira : ollama pull gemma5:xxx. Pas complexe, mais à planifier.
| Aspect | Ollama + Gemma 4 local | ChatGPT cloud |
|---|---|---|
| Données client | Reste sur votre machine | Serveurs US, rétention variable |
| Conformité nLPD | Oui, sans contrat supplémentaire | Contrat DPA requis, transfert international |
| Coût mensuel | ~CHF 3 (électricité) | CHF 20–30 /utilisateur/mois |
| Qualité | Excellent pour usage PME courant | Légèrement supérieur sur tâches complexes |
| Maintenance | Mise à jour manuelle | Automatique |
| Disponibilité | Fonctionne hors connexion | Nécessite Internet |
| Personnalisation | System prompts, fine-tuning possible | Limité (pas de fine-tuning GPT-4o) |
8. Verdict
Pour une PME suisse de 5 à 50 personnes : installez Gemma 4 sur un Mac mini M4. C’est la combinaison la plus simple, la plus conforme et la plus rentable disponible aujourd’hui.
Le ROI est rapide. Un abonnement ChatGPT Team coûte CHF 25 par utilisateur par mois. Cinq utilisateurs = CHF 125/mois = CHF 1 500/an. Le Mac mini M4 à CHF 700 est amorti en moins de 6 mois, avec une meilleure confidentialité des données.
Ce tuto est notre pratique réelle : Gemma 4 E4B tourne sur un Mac mini M4 Pro 24 GB dans notre stack depuis mars 2026. Il traite synthèse de sources, rédaction de brouillons et analyse de documents. Pour les tâches nécessitant le niveau GPT-4o (raisonnement complexe, code avancé), on garde une API cloud avec données anonymisées. Architecture hybride : local pour les données sensibles, cloud quand la qualité prime.
Ollama : Runtime LLM local, API OpenAI-compatible
Google Gemma : Documentation officielle
Gemma 4 E4B sur HuggingFace : Poids et benchmarks
Open WebUI : Interface web open source pour Ollama
Infomaniak GPU VPS : Hébergement cloud suisse
nLPD / PFPDT : Loi fédérale sur la protection des données (Suisse)