L’architecture de notre agent IA : LLM open source, VLAN isolation, zéro fuite

Quand on a commencé à parler d’agent IA pour l’audit d’infrastructure, la première question des CTOs sceptiques était toujours la même : “OK, mais qu’est-ce qui empêche que les données de mon client se retrouvent dans le prompt d’analyse d’un autre client ?”

Bonne question. Voici comment on a répondu, architecturalement.

Pourquoi pas OpenAI / Anthropic en API ?

On adore Claude et GPT-4. Mais utiliser une API externe pour analyser les logs et configs de nos clients, ça veut dire envoyer ces données chez un tiers américain. Même avec les meilleurs accords contractuels, c’est une dépendance qu’on ne veut pas.

Plus concret : un client à profil santé ou défense ne pouvait pas accepter ce flux sortant. Donc on a tranché : LLM open source, hébergé chez nous, sur du matériel français.

Le stack

Modèle : Mistral 7B Instruct fine-tuné sur des logs et configs sysadmin.
Inference : vLLM sur des GPU H100 (un nœud dédié OVH Bare Metal).
Orchestration : Python + scripts custom — pas de framework lourd.
Monitoring : Prometheus + Grafana, comme le reste de notre stack.

L’isolation par client

Voici le point critique. Chaque client agence a sa propre instance de l’agent, dans son propre VLAN. Concrètement :

┌─ VLAN Agence Alpha
│  ├─ Site client 1
│  ├─ Site client 2
│  └─ Agent IA "Alpha" — ne voit QUE les sites Alpha
│
├─ VLAN Agence Beta
│  ├─ Site client 3
│  └─ Agent IA "Beta" — ne voit QUE les sites Beta
│
└─ Aucun pont entre les VLANs au niveau de l'agent

Les agents partagent le même modèle (poids du LLM), mais chaque inference se fait dans son contexte isolé. Aucun cache mutualisé entre agences. Aucun fine-tuning cross-client. Aucune télémétrie qui croise les données.

Ce que l’agent voit (et ce qu’il ne voit pas)

L’agent opère au-dessus du système. Il a accès :

Aux métriques système (CPU, RAM, disque, réseau)
Aux logs Nginx, PHP-FPM, MySQL, et applicatifs configurés
Aux versions installées (CMS, plugins, bibliothèques)
Aux données de monitoring Prometheus

Il n’a pas accès :

Aux données applicatives stockées en base (mots de passe, données clients, contenus privés)
Au code source des sites
Aux fichiers uploadés par les utilisateurs
À internet sortant — il ne peut pas exfiltrer quoi que ce soit

La validation humaine, toujours

L’agent ne modifie jamais rien sur la prod. Il génère des recommandations, classées par priorité. Un humain les valide avant toute action. Cette règle est architecturale, pas juste opérationnelle : l’agent n’a tout simplement pas les droits SSH ou root sur les VMs clients.

On considère que c’est la limite à ne pas franchir. Une IA qui agit sans validation humaine sur de la prod, c’est une IA qui peut casser 40 sites en 30 secondes. Notre architecture rend ce scénario impossible, pas juste improbable.

Note — Cette architecture est exposée en détail aux CTOs et DSI qui le demandent, sous NDA si besoin. La transparence sur la chaîne technique fait partie de notre offre.

L’architecture de notre agent IA : LLM open source, VLAN isolation, zéro fuite

Pourquoi pas OpenAI / Anthropic en API ?

Le stack

L’isolation par client

Ce que l’agent voit (et ce qu’il ne voit pas)

La validation humaine, toujours

Audit gratuit de votre infra

À lire aussi

CVE-2024-4577 : pourquoi les hébergeurs mutualisés classiques vous laissent exposés

Comment nous détectons une fuite mémoire PHP avant qu’elle fasse tomber un site

Migration de 40 sites clients en 72h : retour d’expérience