GUIDE DE DÉPLOIEMENT · ÉDITION 2026

Déployez votre LLM chez vous !

Le guide pas-à-pas pour installer votre IA locale — privée, performante et sans abonnement.

RÉDIGÉ PAR

Hassine Achour

Founder · artikle.io

Avril 2026 · v1.0

01

POURQUOI UN LLM SOUVERAIN ?

Pourquoi un LLM souverain ?

Vos données restent chez vous. Zéro abonnement. Zéro dépendance cloud.

L'IA générative est incontournable. Mais envoyer vos données à des serveurs tiers pose un vrai problème. Chaque requête envoyée à ChatGPT, Claude ou Gemini transite par des serveurs américains, hors de votre contrôle. Un LLM souverain déployé chez soi répond à ce problème à la racine.

🔒

Confidentialité totale

Aucune donnée client, RH ou stratégique n'est exposée à un tiers. Conformité RGPD native.

💶

Coût maîtrisé

Un investissement matériel unique vs. des abonnements SaaS à vie. ROI positif en 6–18 mois.

Disponibilité 24/7

Pas de panne externe, pas de latence réseau, pas de quota d'API à gérer.

🎛

Personnalisation

Fine-tuning sur vos données métier, intégration à vos outils internes.

Comparaison rapide : Cloud vs. Souverain

CritèreAPI CloudLLM Souverain
ConfidentialitéRisque élevéGaranti ✓
Coût mensuel500–5 000 €/mois0 € (après achat)
Mise en placeImmédiate1–3 jours
Qualité modèle (2026)ExcellentTrès bon (95% des cas)
Conformité RGPD / NIS2ComplexeSimplifiée
DépendanceTotaleAucune
Le modèle Qwen3.6-35B-A3B, sur un RTX 5070 Ti à 1 200 €, atteint 44 à 96 tokens/s. C'est suffisant pour alimenter simultanément 5 à 15 utilisateurs internes avec une expérience fluide.
02

BENCHMARK

Benchmark des configurations

Données réelles collectées auprès de la communauté r/LocalLLaMA — matériel testé, pas de théorie.

⚠ Comment lire ce tableau : Les TPS sont mesurés en génération simple utilisateur. En production multi-utilisateurs, divisez par le nombre de sessions simultanées.
ModèleMatérielQuant.Gen (t/s)Prix
Qwen3.6-35B-A3BRTX 5080 16 GoQ4_K_M~74~1 800 €
Qwen3.6-35B-A3BMac M5 Pro 64 GoQ455–70~2 500 €
Qwen3.6-27BRTX 4080 16 GoQ8_060~1 200 €
Qwen3.6-35B-A3BRTX 4070S 12 Go + iGPUUD-IQ3_XXS50–55~800 €
Qwen3.5-35B-A3BRTX 4090 24 GoFP845–100~1 600 €
Qwen3.6-35B-A3BThinkPad T14Q6_K20~1 200 €
Qwen3.6-35B-A3BRTX 3070 8 Go + DDR4IQ4_XS25–32~500 €
Gemma 4 26B-A4BRTX 5070 12 GoIQ4_XS22~800 €
DeepSeek-R1 671B96 Go RAM + NVMe ×4UD-Q2_K_XL~2~1 500 €
💡 Sweet spot recommandé : RTX 4090 (24 Go VRAM) ou RTX 5070 Ti (16 Go) + 64 Go RAM DDR5 + Qwen3.6-35B-A3B en Q4_K_M — meilleur ratio performance/coût pour 5 à 20 utilisateurs.
03

GUIDE D'ACHAT

Guide d'achat matériel

Trois tiers de budget, avec les prix réels du marché occasion français (LeBonCoin, -40 à -60%).

🛒 LeBonCoin : -40 à -60% sur le matériel GPU — Le marché de l'occasion français est mature pour les GPU de gaming. Une RTX 3090 achetée neuve 1 600 € se trouve entre 600 et 900 € sur LBC en très bon état.

Tier 1 — Budget Entrée (500–1 000 €)

Idéal pour une PME de 2 à 5 utilisateurs, modèles 7B–14B, usage conversationnel léger.

RTT 3070 8 Go

~180 €

LBC: 140–200 €

VRAM: 8 Go

Modèles: jusqu'à 14B Q4

TPS: 25–35 t/s

RTX 3080 10 Go

~280 €

LBC: 250–350 €

VRAM: 10 Go

Modèles: 14B confortable

TPS: 35–50 t/s

RAM + Stockage

~100 €

LBC: 70–120 €

64 Go DDR4 3200

NVMe 1 To

Total: ~500–700 €

Tier 3 — Budget Élevé (2 500–7 000 €)

Pour 15 à 50 utilisateurs, multi-GPU, modèles 70B+, infrastructure production.

2× RTX 3090 NVLink

~1 400 €

LBC: 1 200–1 800 €

VRAM: 48 Go total

TPS: ~100 t/s

Tesla P40 24 Go × 2

~300 €

LBC: 200–400 €

VRAM: 24 Go ECC

Silencieux

4× RTX 3090

~2 800 €

LBC: 2 400–3 500 €

VRAM: 96 Go total

TPS: 85–348 t/s

⚠ Conseils achat GPU sur LeBonCoin : Vérifiez : (1) temps d'utilisation via GPU-Z - moins de 2 000 h idéalement, (2) pas de traces de minage intensif, (3) vendeur particulier privilégié, (4) testez avec FurMark 10 min en visio.
04

COMPARATIF

Comparatif des modèles

Quel modèle choisir selon votre usage, votre VRAM et votre budget.

ModèleTailleVRAM min.Points fortsNiveau
Qwen3.6-27B27B dense16 GoQualité élevée, raisonnement⭐ Recommandé
Gemma 4 26B-A4B26B MoE12 GoMultimodal, visionBon
Qwen3-30B-A3B30B MoE8 Go100+ t/s, très légerBon
Qwen3.5-4B / 9B4B/9B4–6 GoLéger, embarquableBudget

Matrice de décision rapide

VRAM disponibleModèle recommandéQuantisationTPS attendu
4–8 GoQwen3-30B-A3B / Qwen3.5-9BQ4_K_M25–50 t/s
10–12 GoQwen3.6-35B-A3BIQ4_XS / Q4_K_M30–55 t/s
16 GoQwen3.6-35B-A3B / Qwen3.6-27BQ5_K_M à Q8_044–96 t/s
24 GoQwen3.6-27B Q8 / 35B FP8Q8_0 / FP845–100 t/s
48 Go (2× RTX 3090)Qwen3.5-27B / 35B Q8INT8 / Q885–133 t/s
ℹ MoE vs Dense : quelle différence ? Les modèles MoE (Mixture of Experts) activent seulement une fraction de leurs paramètres à chaque inférence. Un modèle "35B" MoE consomme autant de VRAM qu'un 3–4B dense, tout en ayant la qualité d'un 35B. C'est pourquoi le Qwen3.6-35B-A3B (A3B = 3B actifs) tourne sur 12 Go de VRAM.
05

ARCHITECTURE

Architecture : Proxmox + Ollama

Un hyperviseur pour isoler, Ollama pour servir les modèles. Simple, robuste, maintenable.

Vue d'ensemble

LANUtilisateurs (navigateur / app interne)
↓ HTTP/HTTPS
REVERSENginx Reverse Proxy (VM ou LXC)
↓ :11434
SERVEUROllama Server — VM Ubuntu 24.04
↓ PCIe Passthrough
GPUGPU physique (RTX 3090 / 4090)
HYPERVISEURProxmox VE — Hyperviseur bare-metal

Pourquoi Proxmox plutôt que bare-metal direct ?

AvantageBare-metal directProxmox + VM
IsolationNonOui (VMs séparées) ✓
SnapshotsNonOui (ZFS/Ceph) ✓
Migration à chaudNonOui ✓
InstallationSimpleMoyen (1–2 h)
Overhead GPUAucun< 2%
06

INSTALLATION

Installation pas à pas

De zéro à votre premier modèle opérationnel en moins de 3 heures.

Étape 1 — Installer Proxmox VE

  1. Télécharger l'ISO Proxmox VE 8.x — Rendez-vous sur proxmox.com/downloads
  2. Booter et installer — Suivez l'assistant graphique. Attribuez une IP statique (ex. 192.168.1.10). ~10 min.
  3. Accéder à l'interface web — Ouvrez https://192.168.1.10:8006 depuis n'importe quel PC du réseau.

Étape 2 — Configurer le PCIe Passthrough GPU

  1. Activer IOMMU dans le BIOS — Activez VT-d (Intel) ou AMD-Vi (AMD).
  2. Activer IOMMU dans GRUB — Éditez /etc/default/grub :
bash
# Pour Intel :
GRUB_CMDLINE_LINUX_DEFAULT="quiet intel_iommu=on iommu=pt"

# Pour AMD :
GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"

update-grub && reboot
  1. Blacklister les drivers Nvidia sur l'hôte Proxmox
bash
echo "blacklist nouveau" >> /etc/modprobe.d/blacklist.conf
echo "blacklist nvidia" >> /etc/modprobe.d/blacklist.conf

# Trouvez l'ID PCI de votre GPU :
lspci -nn | grep -i nvidia

# Puis ajoutez l'ID (ex: 10de:2204) :
echo "options vfio-pci ids=10de:XXXX" >> /etc/modprobe.d/vfio.conf
update-initramfs -u && reboot

Étape 3 — Créer la VM Ubuntu pour Ollama

Proxmox → "Create VM". Paramètres : Ubuntu 24.04 LTS, 8–16 vCPU, 32–64 Go RAM, 200 Go NVMe. Ajoutez le GPU via "Add → PCI Device".

bash
# Dans la VM Ubuntu - Installer les drivers Nvidia
sudo apt update && sudo apt upgrade -y
sudo apt install -y nvidia-driver-550 nvidia-utils-550
sudo reboot

# Vérification après redémarrage :
nvidia-smi
# → Doit afficher votre GPU et sa VRAM disponible

Étape 4 — Installer et configurer Ollama

bash
# Installer Ollama en une commande
curl -fsSL https://ollama.com/install.sh | sh

# Vérifier que le service tourne :
systemctl status ollama
# → Active: active (running)

Exposer Ollama sur le réseau interne :

bash
sudo systemctl edit ollama

# Ajoutez dans l'éditeur :
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

sudo systemctl daemon-reload && sudo systemctl restart ollama

Étape 5 — Télécharger et tester votre premier modèle

bash
# Télécharger (~20 Go, ~30 min selon connexion) :
ollama pull qwen3:30b

# Tester en ligne de commande :
ollama run qwen3:30b "Explique le RGPD en 3 points"

# Tester l'API REST depuis n'importe quel PC du réseau :
curl http://192.168.1.10:11434/api/generate \
  -d '{"model": "qwen3:30b", "prompt": "Bonjour !","stream": false}'

Étape 6 — Interface utilisateur Open WebUI

Open WebUI est une interface web style ChatGPT. Déployez-la dans un conteneur LXC sur Proxmox :

bash
sudo apt install -y docker.io

sudo docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://192.168.1.10:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# Accès depuis le réseau interne :
# http://192.168.1.11:3000 → interface ChatGPT-like
✓ Votre LLM souverain est opérationnel. Vos utilisateurs accèdent à l'interface via leur navigateur. Aucune donnée ne sort de votre réseau.

Checklist finale

VérificationCommandeRésultat attendu
GPU détecténvidia-smiGPU + VRAM affichés
Ollama en servicesystemctl status ollamaActive (running)
Modèle chargéollama listModèle listé
API accessiblecurl http://IP:11434/api/tagsJSON avec modèles
Open WebUINavigateur → http://IP:3000Interface chat visible
Performance GPUTest dans Open WebUI≥ 20 t/s

otonome.org

Guide LLM Souverain · Avril 2026 · v1.0