GUIDE DE DÉPLOIEMENT · ÉDITION 2026

Déployez votre LLM chez vous !

Le guide pas-à-pas pour installer votre IA locale — privée, performante et sans abonnement.

RÉDIGÉ PAR

Hassine Achour

Founder · artikle.io

Avril 2026 · v1.0

SOMMAIRE

POURQUOI UN LLM SOUVERAIN ?

Pourquoi un LLM souverain ?

Vos données restent chez vous. Zéro abonnement. Zéro dépendance cloud.

L'IA générative est incontournable. Mais envoyer vos données à des serveurs tiers pose un vrai problème. Chaque requête envoyée à ChatGPT, Claude ou Gemini transite par des serveurs américains, hors de votre contrôle. Un LLM souverain déployé chez soi répond à ce problème à la racine.

🔒

Confidentialité totale

Aucune donnée client, RH ou stratégique n'est exposée à un tiers. Conformité RGPD native.

💶

Coût maîtrisé

Un investissement matériel unique vs. des abonnements SaaS à vie. ROI positif en 6–18 mois.

⚡

Disponibilité 24/7

Pas de panne externe, pas de latence réseau, pas de quota d'API à gérer.

🎛

Personnalisation

Fine-tuning sur vos données métier, intégration à vos outils internes.

Comparaison rapide : Cloud vs. Souverain

Critère	API Cloud	LLM Souverain
Confidentialité	Risque élevé	Garanti ✓
Coût mensuel	500–5 000 €/mois	0 € (après achat)
Mise en place	Immédiate	1–3 jours
Qualité modèle (2026)	Excellent	Très bon (95% des cas)
Conformité RGPD / NIS2	Complexe	Simplifiée
Dépendance	Totale	Aucune

✓ Le modèle Qwen3.6-35B-A3B, sur un RTX 5070 Ti à 1 200 €, atteint 44 à 96 tokens/s. C'est suffisant pour alimenter simultanément 5 à 15 utilisateurs internes avec une expérience fluide.

BENCHMARK

Benchmark des configurations

Données réelles collectées auprès de la communauté r/LocalLLaMA — matériel testé, pas de théorie.

⚠ Comment lire ce tableau : Les TPS sont mesurés en génération simple utilisateur. En production multi-utilisateurs, divisez par le nombre de sessions simultanées.

Modèle	Matériel	Quant.	Gen (t/s)	Prix
Qwen3.6-35B-A3B	RTX 5070 Ti 16 Go	UD-Q4_K_M	79–96	~1 200 €
Qwen3.6-35B-A3B	RTX 5080 16 Go	Q4_K_M	~74	~1 800 €
Qwen3.6-35B-A3B	Mac M5 Pro 64 Go	Q4	55–70	~2 500 €
Qwen3.6-27B	RTX 4080 16 Go	Q8_0	60	~1 200 €
Qwen3.6-35B-A3B	RTX 4070S 12 Go + iGPU	UD-IQ3_XXS	50–55	~800 €
Qwen3.5-35B-A3B	RTX 4090 24 Go	FP8	45–100	~1 600 €
Qwen3.6-35B-A3B	ThinkPad T14	Q6_K	20	~1 200 €
Qwen3.6-35B-A3B	RTX 3070 8 Go + DDR4	IQ4_XS	25–32	~500 €
Gemma 4 26B-A4B	RTX 5070 12 Go	IQ4_XS	22	~800 €
DeepSeek-R1 671B	96 Go RAM + NVMe ×4	UD-Q2_K_XL	~2	~1 500 €

💡 Sweet spot recommandé : RTX 4090 (24 Go VRAM) ou RTX 5070 Ti (16 Go) + 64 Go RAM DDR5 + Qwen3.6-35B-A3B en Q4_K_M — meilleur ratio performance/coût pour 5 à 20 utilisateurs.

GUIDE D'ACHAT

Guide d'achat matériel

Trois tiers de budget, avec les prix réels du marché occasion français (LeBonCoin, -40 à -60%).

🛒 LeBonCoin : -40 à -60% sur le matériel GPU — Le marché de l'occasion français est mature pour les GPU de gaming. Une RTX 3090 achetée neuve 1 600 € se trouve entre 600 et 900 € sur LBC en très bon état.

Tier 1 — Budget Entrée (500–1 000 €)

Idéal pour une PME de 2 à 5 utilisateurs, modèles 7B–14B, usage conversationnel léger.

RTT 3070 8 Go

~180 €

LBC: 140–200 €

VRAM: 8 Go

Modèles: jusqu'à 14B Q4

TPS: 25–35 t/s

RTX 3080 10 Go

~280 €

LBC: 250–350 €

VRAM: 10 Go

Modèles: 14B confortable

TPS: 35–50 t/s

RAM + Stockage

~100 €

LBC: 70–120 €

64 Go DDR4 3200

NVMe 1 To

Total: ~500–700 €

⭐ Tier 2 — Budget Intermédiaire (1 000–2 500 €)

Recommandé pour 5 à 15 utilisateurs, modèles 27B–35B, usage professionnel intensif.

⭐ RTX 3090 24 Go

~700 €

LBC: 600–900 €

VRAM: 24 Go

Modèles: 35B en Q4

TPS: 20–35 t/s

⭐ RTX 4090 24 Go

~950 €

LBC: 900–1 100 €

VRAM: 24 Go

Modèles: 35B en FP8

TPS: 45–100 t/s

Config complète

~150 €

LBC: 120–180 €

64–128 Go DDR5

Ryzen 7 7700X

Total: ~1 300–2 000 €

Tier 3 — Budget Élevé (2 500–7 000 €)

Pour 15 à 50 utilisateurs, multi-GPU, modèles 70B+, infrastructure production.

2× RTX 3090 NVLink

~1 400 €

LBC: 1 200–1 800 €

VRAM: 48 Go total

TPS: ~100 t/s

Tesla P40 24 Go × 2

~300 €

LBC: 200–400 €

VRAM: 24 Go ECC

Silencieux

4× RTX 3090

~2 800 €

LBC: 2 400–3 500 €

VRAM: 96 Go total

TPS: 85–348 t/s

⚠ Conseils achat GPU sur LeBonCoin : Vérifiez : (1) temps d'utilisation via GPU-Z - moins de 2 000 h idéalement, (2) pas de traces de minage intensif, (3) vendeur particulier privilégié, (4) testez avec FurMark 10 min en visio.

COMPARATIF

Comparatif des modèles

Quel modèle choisir selon votre usage, votre VRAM et votre budget.

Modèle	Taille	VRAM min.	Points forts	Niveau
Qwen3.6-35B-A3B	35B MoE	12 Go	Très rapide, multilingue, code	⭐ Recommandé
Qwen3.6-27B	27B dense	16 Go	Qualité élevée, raisonnement	⭐ Recommandé
Gemma 4 26B-A4B	26B MoE	12 Go	Multimodal, vision	Bon
Qwen3-30B-A3B	30B MoE	8 Go	100+ t/s, très léger	Bon
Qwen3.5-4B / 9B	4B/9B	4–6 Go	Léger, embarquable	Budget

Matrice de décision rapide

VRAM disponible	Modèle recommandé	Quantisation	TPS attendu
4–8 Go	Qwen3-30B-A3B / Qwen3.5-9B	Q4_K_M	25–50 t/s
10–12 Go	Qwen3.6-35B-A3B	IQ4_XS / Q4_K_M	30–55 t/s
16 Go	Qwen3.6-35B-A3B / Qwen3.6-27B	Q5_K_M à Q8_0	44–96 t/s
24 Go	Qwen3.6-27B Q8 / 35B FP8	Q8_0 / FP8	45–100 t/s
48 Go (2× RTX 3090)	Qwen3.5-27B / 35B Q8	INT8 / Q8	85–133 t/s

ℹ MoE vs Dense : quelle différence ? Les modèles MoE (Mixture of Experts) activent seulement une fraction de leurs paramètres à chaque inférence. Un modèle "35B" MoE consomme autant de VRAM qu'un 3–4B dense, tout en ayant la qualité d'un 35B. C'est pourquoi le Qwen3.6-35B-A3B (A3B = 3B actifs) tourne sur 12 Go de VRAM.

ARCHITECTURE

Architecture : Proxmox + Ollama

Un hyperviseur pour isoler, Ollama pour servir les modèles. Simple, robuste, maintenable.

Vue d'ensemble

LANUtilisateurs (navigateur / app interne)

↓ HTTP/HTTPS

REVERSENginx Reverse Proxy (VM ou LXC)

↓ :11434

SERVEUROllama Server — VM Ubuntu 24.04

↓ PCIe Passthrough

GPUGPU physique (RTX 3090 / 4090)

↓

HYPERVISEURProxmox VE — Hyperviseur bare-metal

Pourquoi Proxmox plutôt que bare-metal direct ?

Avantage	Bare-metal direct	Proxmox + VM
Isolation	Non	Oui (VMs séparées) ✓
Snapshots	Non	Oui (ZFS/Ceph) ✓
Migration à chaud	Non	Oui ✓
Installation	Simple	Moyen (1–2 h)
Overhead GPU	Aucun	< 2%

INSTALLATION

Installation pas à pas

De zéro à votre premier modèle opérationnel en moins de 3 heures.

Étape 1 — Installer Proxmox VE

Télécharger l'ISO Proxmox VE 8.x — Rendez-vous sur proxmox.com/downloads
Booter et installer — Suivez l'assistant graphique. Attribuez une IP statique (ex. 192.168.1.10). ~10 min.
Accéder à l'interface web — Ouvrez https://192.168.1.10:8006 depuis n'importe quel PC du réseau.

Étape 2 — Configurer le PCIe Passthrough GPU

Activer IOMMU dans le BIOS — Activez VT-d (Intel) ou AMD-Vi (AMD).
Activer IOMMU dans GRUB — Éditez /etc/default/grub :

bash

# Pour Intel :
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt"

# Pour AMD :
GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"

update-grub && reboot

Blacklister les drivers Nvidia sur l'hôte Proxmox

bash

echo "blacklist nouveau" >> /etc/modprobe.d/blacklist.conf
echo "blacklist nvidia" >> /etc/modprobe.d/blacklist.conf

# Trouvez l'ID PCI de votre GPU :
lspci -nn | grep -i nvidia

# Puis ajoutez l'ID (ex: 10de:2204) :
echo "options vfio-pci ids=10de:XXXX" >> /etc/modprobe.d/vfio.conf
update-initramfs -u && reboot

Étape 3 — Créer la VM Ubuntu pour Ollama

Proxmox → "Create VM". Paramètres : Ubuntu 24.04 LTS, 8–16 vCPU, 32–64 Go RAM, 200 Go NVMe. Ajoutez le GPU via "Add → PCI Device".

bash

# Dans la VM Ubuntu - Installer les drivers Nvidia
sudo apt update && sudo apt upgrade -y
sudo apt install -y nvidia-driver-550 nvidia-utils-550
sudo reboot

# Vérification après redémarrage :
nvidia-smi
# → Doit afficher votre GPU et sa VRAM disponible

Étape 4 — Installer et configurer Ollama

bash

# Installer Ollama en une commande
curl -fsSL https://ollama.com/install.sh | sh

# Vérifier que le service tourne :
systemctl status ollama
# → Active: active (running)

Exposer Ollama sur le réseau interne :

bash

sudo systemctl edit ollama

# Ajoutez dans l'éditeur :
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

sudo systemctl daemon-reload && sudo systemctl restart ollama

Étape 5 — Télécharger et tester votre premier modèle

bash

# Télécharger (~20 Go, ~30 min selon connexion) :
ollama pull qwen3:30b

# Tester en ligne de commande :
ollama run qwen3:30b "Explique le RGPD en 3 points"

# Tester l'API REST depuis n'importe quel PC du réseau :
curl http://192.168.1.10:11434/api/generate \
  -d '{"model": "qwen3:30b", "prompt": "Bonjour !","stream": false}'

Étape 6 — Interface utilisateur Open WebUI

Open WebUI est une interface web style ChatGPT. Déployez-la dans un conteneur LXC sur Proxmox :

bash

sudo apt install -y docker.io

sudo docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://192.168.1.10:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# Accès depuis le réseau interne :
# http://192.168.1.11:3000 → interface ChatGPT-like

✓ Votre LLM souverain est opérationnel. Vos utilisateurs accèdent à l'interface via leur navigateur. Aucune donnée ne sort de votre réseau.

Checklist finale

Vérification	Commande	Résultat attendu
GPU détecté	nvidia-smi	GPU + VRAM affichés
Ollama en service	systemctl status ollama	Active (running)
Modèle chargé	ollama list	Modèle listé
API accessible	curl http://IP:11434/api/tags	JSON avec modèles
Open WebUI	Navigateur → http://IP:3000	Interface chat visible
Performance GPU	Test dans Open WebUI	≥ 20 t/s

otonome.org

Guide LLM Souverain · Avril 2026 · v1.0

← Retour à l'accueil