GUIDE DE DÉPLOIEMENT · ÉDITION 2026
Déployez votre LLM chez vous !
Le guide pas-à-pas pour installer votre IA locale — privée, performante et sans abonnement.
RÉDIGÉ PAR
Hassine Achour
Founder · artikle.io
Avril 2026 · v1.0
SOMMAIRE
POURQUOI UN LLM SOUVERAIN ?
Pourquoi un LLM souverain ?
Vos données restent chez vous. Zéro abonnement. Zéro dépendance cloud.
L'IA générative est incontournable. Mais envoyer vos données à des serveurs tiers pose un vrai problème. Chaque requête envoyée à ChatGPT, Claude ou Gemini transite par des serveurs américains, hors de votre contrôle. Un LLM souverain déployé chez soi répond à ce problème à la racine.
Confidentialité totale
Aucune donnée client, RH ou stratégique n'est exposée à un tiers. Conformité RGPD native.
Coût maîtrisé
Un investissement matériel unique vs. des abonnements SaaS à vie. ROI positif en 6–18 mois.
Disponibilité 24/7
Pas de panne externe, pas de latence réseau, pas de quota d'API à gérer.
Personnalisation
Fine-tuning sur vos données métier, intégration à vos outils internes.
Comparaison rapide : Cloud vs. Souverain
| Critère | API Cloud | LLM Souverain |
|---|---|---|
| Confidentialité | Risque élevé | Garanti ✓ |
| Coût mensuel | 500–5 000 €/mois | 0 € (après achat) |
| Mise en place | Immédiate | 1–3 jours |
| Qualité modèle (2026) | Excellent | Très bon (95% des cas) |
| Conformité RGPD / NIS2 | Complexe | Simplifiée |
| Dépendance | Totale | Aucune |
BENCHMARK
Benchmark des configurations
Données réelles collectées auprès de la communauté r/LocalLLaMA — matériel testé, pas de théorie.
| Modèle | Matériel | Quant. | Gen (t/s) | Prix |
|---|---|---|---|---|
| Qwen3.6-35B-A3B | RTX 5070 Ti 16 Go | UD-Q4_K_M | 79–96 | ~1 200 € |
| Qwen3.6-35B-A3B | RTX 5080 16 Go | Q4_K_M | ~74 | ~1 800 € |
| Qwen3.6-35B-A3B | Mac M5 Pro 64 Go | Q4 | 55–70 | ~2 500 € |
| Qwen3.6-27B | RTX 4080 16 Go | Q8_0 | 60 | ~1 200 € |
| Qwen3.6-35B-A3B | RTX 4070S 12 Go + iGPU | UD-IQ3_XXS | 50–55 | ~800 € |
| Qwen3.5-35B-A3B | RTX 4090 24 Go | FP8 | 45–100 | ~1 600 € |
| Qwen3.6-35B-A3B | ThinkPad T14 | Q6_K | 20 | ~1 200 € |
| Qwen3.6-35B-A3B | RTX 3070 8 Go + DDR4 | IQ4_XS | 25–32 | ~500 € |
| Gemma 4 26B-A4B | RTX 5070 12 Go | IQ4_XS | 22 | ~800 € |
| DeepSeek-R1 671B | 96 Go RAM + NVMe ×4 | UD-Q2_K_XL | ~2 | ~1 500 € |
GUIDE D'ACHAT
Guide d'achat matériel
Trois tiers de budget, avec les prix réels du marché occasion français (LeBonCoin, -40 à -60%).
Tier 1 — Budget Entrée (500–1 000 €)
Idéal pour une PME de 2 à 5 utilisateurs, modèles 7B–14B, usage conversationnel léger.
RTT 3070 8 Go
~180 €
LBC: 140–200 €
VRAM: 8 Go
Modèles: jusqu'à 14B Q4
TPS: 25–35 t/s
RTX 3080 10 Go
~280 €
LBC: 250–350 €
VRAM: 10 Go
Modèles: 14B confortable
TPS: 35–50 t/s
RAM + Stockage
~100 €
LBC: 70–120 €
64 Go DDR4 3200
NVMe 1 To
Total: ~500–700 €
⭐ Tier 2 — Budget Intermédiaire (1 000–2 500 €)
Recommandé pour 5 à 15 utilisateurs, modèles 27B–35B, usage professionnel intensif.
⭐ RTX 3090 24 Go
~700 €
LBC: 600–900 €
VRAM: 24 Go
Modèles: 35B en Q4
TPS: 20–35 t/s
⭐ RTX 4090 24 Go
~950 €
LBC: 900–1 100 €
VRAM: 24 Go
Modèles: 35B en FP8
TPS: 45–100 t/s
Config complète
~150 €
LBC: 120–180 €
64–128 Go DDR5
Ryzen 7 7700X
Total: ~1 300–2 000 €
Tier 3 — Budget Élevé (2 500–7 000 €)
Pour 15 à 50 utilisateurs, multi-GPU, modèles 70B+, infrastructure production.
2× RTX 3090 NVLink
~1 400 €
LBC: 1 200–1 800 €
VRAM: 48 Go total
TPS: ~100 t/s
Tesla P40 24 Go × 2
~300 €
LBC: 200–400 €
VRAM: 24 Go ECC
Silencieux
4× RTX 3090
~2 800 €
LBC: 2 400–3 500 €
VRAM: 96 Go total
TPS: 85–348 t/s
COMPARATIF
Comparatif des modèles
Quel modèle choisir selon votre usage, votre VRAM et votre budget.
| Modèle | Taille | VRAM min. | Points forts | Niveau |
|---|---|---|---|---|
| Qwen3.6-35B-A3B | 35B MoE | 12 Go | Très rapide, multilingue, code | ⭐ Recommandé |
| Qwen3.6-27B | 27B dense | 16 Go | Qualité élevée, raisonnement | ⭐ Recommandé |
| Gemma 4 26B-A4B | 26B MoE | 12 Go | Multimodal, vision | Bon |
| Qwen3-30B-A3B | 30B MoE | 8 Go | 100+ t/s, très léger | Bon |
| Qwen3.5-4B / 9B | 4B/9B | 4–6 Go | Léger, embarquable | Budget |
Matrice de décision rapide
| VRAM disponible | Modèle recommandé | Quantisation | TPS attendu |
|---|---|---|---|
| 4–8 Go | Qwen3-30B-A3B / Qwen3.5-9B | Q4_K_M | 25–50 t/s |
| 10–12 Go | Qwen3.6-35B-A3B | IQ4_XS / Q4_K_M | 30–55 t/s |
| 16 Go | Qwen3.6-35B-A3B / Qwen3.6-27B | Q5_K_M à Q8_0 | 44–96 t/s |
| 24 Go | Qwen3.6-27B Q8 / 35B FP8 | Q8_0 / FP8 | 45–100 t/s |
| 48 Go (2× RTX 3090) | Qwen3.5-27B / 35B Q8 | INT8 / Q8 | 85–133 t/s |
ARCHITECTURE
Architecture : Proxmox + Ollama
Un hyperviseur pour isoler, Ollama pour servir les modèles. Simple, robuste, maintenable.
Vue d'ensemble
Pourquoi Proxmox plutôt que bare-metal direct ?
| Avantage | Bare-metal direct | Proxmox + VM |
|---|---|---|
| Isolation | Non | Oui (VMs séparées) ✓ |
| Snapshots | Non | Oui (ZFS/Ceph) ✓ |
| Migration à chaud | Non | Oui ✓ |
| Installation | Simple | Moyen (1–2 h) |
| Overhead GPU | Aucun | < 2% |
INSTALLATION
Installation pas à pas
De zéro à votre premier modèle opérationnel en moins de 3 heures.
Étape 1 — Installer Proxmox VE
- Télécharger l'ISO Proxmox VE 8.x — Rendez-vous sur proxmox.com/downloads
- Booter et installer — Suivez l'assistant graphique. Attribuez une IP statique (ex. 192.168.1.10). ~10 min.
- Accéder à l'interface web — Ouvrez
https://192.168.1.10:8006depuis n'importe quel PC du réseau.
Étape 2 — Configurer le PCIe Passthrough GPU
- Activer IOMMU dans le BIOS — Activez VT-d (Intel) ou AMD-Vi (AMD).
- Activer IOMMU dans GRUB — Éditez /etc/default/grub :
# Pour Intel :
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt"
# Pour AMD :
GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"
update-grub && reboot- Blacklister les drivers Nvidia sur l'hôte Proxmox
echo "blacklist nouveau" >> /etc/modprobe.d/blacklist.conf
echo "blacklist nvidia" >> /etc/modprobe.d/blacklist.conf
# Trouvez l'ID PCI de votre GPU :
lspci -nn | grep -i nvidia
# Puis ajoutez l'ID (ex: 10de:2204) :
echo "options vfio-pci ids=10de:XXXX" >> /etc/modprobe.d/vfio.conf
update-initramfs -u && rebootÉtape 3 — Créer la VM Ubuntu pour Ollama
Proxmox → "Create VM". Paramètres : Ubuntu 24.04 LTS, 8–16 vCPU, 32–64 Go RAM, 200 Go NVMe. Ajoutez le GPU via "Add → PCI Device".
# Dans la VM Ubuntu - Installer les drivers Nvidia
sudo apt update && sudo apt upgrade -y
sudo apt install -y nvidia-driver-550 nvidia-utils-550
sudo reboot
# Vérification après redémarrage :
nvidia-smi
# → Doit afficher votre GPU et sa VRAM disponibleÉtape 4 — Installer et configurer Ollama
# Installer Ollama en une commande
curl -fsSL https://ollama.com/install.sh | sh
# Vérifier que le service tourne :
systemctl status ollama
# → Active: active (running)Exposer Ollama sur le réseau interne :
sudo systemctl edit ollama
# Ajoutez dans l'éditeur :
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
sudo systemctl daemon-reload && sudo systemctl restart ollamaÉtape 5 — Télécharger et tester votre premier modèle
# Télécharger (~20 Go, ~30 min selon connexion) :
ollama pull qwen3:30b
# Tester en ligne de commande :
ollama run qwen3:30b "Explique le RGPD en 3 points"
# Tester l'API REST depuis n'importe quel PC du réseau :
curl http://192.168.1.10:11434/api/generate \
-d '{"model": "qwen3:30b", "prompt": "Bonjour !","stream": false}'Étape 6 — Interface utilisateur Open WebUI
Open WebUI est une interface web style ChatGPT. Déployez-la dans un conteneur LXC sur Proxmox :
sudo apt install -y docker.io
sudo docker run -d \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://192.168.1.10:11434 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
# Accès depuis le réseau interne :
# http://192.168.1.11:3000 → interface ChatGPT-likeChecklist finale
| Vérification | Commande | Résultat attendu |
|---|---|---|
| GPU détecté | nvidia-smi | GPU + VRAM affichés |
| Ollama en service | systemctl status ollama | Active (running) |
| Modèle chargé | ollama list | Modèle listé |
| API accessible | curl http://IP:11434/api/tags | JSON avec modèles |
| Open WebUI | Navigateur → http://IP:3000 | Interface chat visible |
| Performance GPU | Test dans Open WebUI | ≥ 20 t/s |
otonome.org
Guide LLM Souverain · Avril 2026 · v1.0