Matrice de choix LLM côté orchestrateur

OculiX MCP est neutre vis-à-vis du LLM qui l’orchestre. Ce document fournit la matrice factuelle pour aider à choisir un orchestrateur compatible avec les contraintes RGPD, AI Act, DORA, NIS2, HDS, SecNumCloud — ou simplement avec une stratégie de souveraineté.

1. Positionnement et périmètre

1.1 OculiX est neutre vis-à-vis du LLM orchestrateur

Le serveur OculiX MCP (oculixmcp) expose 11 outils d’automatisation visuelle (click, find, type, screenshot, etc.) via le protocole Model Context Protocol (MCP), avec audit trail Ed25519 et contrôle d’accès ActionGate.

OculiX n’embarque pas de LLM. L’orchestrateur — c’est-à-dire le modèle de langage qui décide quels outils MCP appeler, dans quel ordre et avec quels arguments — est fourni par le client, dans l’environnement du client, sous la responsabilité du client.

Concrètement :

flowchart LR
    A["LLM Orchestrateur<br/>(choix client)"] <-->|MCP| B["OculiX MCP<br/>Server"]
    B <-->|OculiX| C["Application<br/>sous test"]
    A -.-> D["Données du client<br/>(prompts, screenshots,<br/>contexte UI, logs)"]
    style D fill:#fff3cd,stroke:#ffc107,color:#856404

Toutes les données sensibles (captures d’écran, prompts, contexte applicatif, traces UI) transitent par le LLM orchestrateur avant ou pendant l’appel des outils OculiX. C’est donc le choix du LLM qui détermine :

la juridiction de traitement des données,
la politique de rétention,
l’éligibilité au RGPD / AI Act / DORA / NIS2 / HDS / SecNumCloud,
le coût opérationnel,
la robustesse du tool calling et donc la fiabilité des scénarios.

OculiX ne se prononce pas sur le choix du LLM. Ce document fournit la matrice factuelle pour aider le client à choisir en connaissance de cause.

1.2 Ce que ce document n’est pas

Pas un classement “meilleur LLM” — la notion n’a aucun sens hors contexte
Pas un conseil juridique — ce document n’engage ni OculiX ni les entités commerciales associées au sens du RGPD ou de l’AI Act
Pas un benchmark de qualité — il existe ailleurs (lmarena.ai, artificialanalysis.ai, scale.com/leaderboard)
Pas une garantie de mise à jour temps réel — les conditions des fournisseurs évoluent ; revérifier avant signature

1.3 Hypothèses de lecture

Le lecteur est supposé connaître :

les bases du MCP (Anthropic, novembre 2024) et du tool calling
les bases du RGPD (Art. 28, Art. 44–46, Chapitre V)
les bases de l’AI Act (Annexe III, Art. 6, Art. 26, calendrier 2026–2028)
la distinction provider / processor / deployer

Sécurité & conformité d'OculiX lui-même Posture sécurité du projet OculiX (MIT, no cloud, no telemetry, audit Ed25519). Complémentaire à cette matrice.

2. Critères d’évaluation

Sept critères ont été retenus. Ils répondent à des questions opérationnelles concrètes que pose un DPO, un RSSI ou un Achats lors du choix d’un LLM pour une intégration OculiX.

2.1 Hosting physique des serveurs d’inférence

Question : où, géographiquement, le calcul est-il effectué ?

C’est la question la plus simple mais souvent mal traitée. Un endpoint “EU” peut être en réalité un proxy vers les US (cas historique de plusieurs offres “EU” jusqu’en 2025). Vérifier dans le DPA et les sub-processors la localisation effective des GPU d’inférence, pas seulement du contrôle d’accès.

2.2 Juridiction légale du fournisseur

Question : quelle juridiction peut contraindre le fournisseur à divulguer des données ?

Société US-incorporée → soumise au CLOUD Act (2018) et au FISA 702, même si les datacenters sont en Europe
Société chinoise → soumise à la National Intelligence Law 2017 (Art. 7) qui oblige toute entité chinoise à coopérer avec les services de renseignement
Société européenne (SAS, SA, GmbH, etc.) → soumise uniquement au cadre RGPD et aux lois nationales

2.3 Politique de rétention (ZDR — Zero Data Retention)

Question : combien de temps les inputs/outputs sont-ils stockés après l’inférence ?

Trois cas typiques :

Rétention par défaut : 30 jours (anti-abus), avec opt-out parfois possible (OpenAI, Mistral, Anthropic)
ZDR contractuel : pas de stockage post-inférence (disponible sur palier Enterprise / API)
Stockage indéfini : par défaut chez les offres gratuites grand public (à proscrire pour usage pro)

Piège : le ZDR ne couvre généralement pas le pipeline d’inférence en cours, ni les sous-traitants pendant le traitement. Il couvre l’absence de persistance après réponse.

2.4 Politique d’entraînement sur les données client

Question : les prompts/outputs du client peuvent-ils servir à entraîner les futurs modèles du fournisseur ?

API enterprise des grands fournisseurs : non, jamais, par défaut (contractuel)
Offres consumer (ChatGPT Free/Pro, Claude.ai Free/Pro) : variable, opt-in/opt-out selon les périodes — non utilisable en B2B pro
DeepSeek public, certaines offres chinoises : oui par défaut, à proscrire pour données sensibles

2.5 Conformité RGPD et AI Act

Question : le fournisseur a-t-il les engagements contractuels nécessaires pour permettre au client (déployeur) de tenir ses propres obligations RGPD et AI Act ?

Checklist minimale :

DPA signé (Article 28 RGPD)
SCC (Standard Contractual Clauses) si transfert hors EEE
Subprocessors documentés
Engagement de non-utilisation pour l’entraînement
Logs accessibles pour les obligations Art. 12 AI Act (traçabilité)
Documentation modèle suffisante pour Art. 11 + Annexe IV AI Act
BAA HIPAA si santé US, HDS si santé France

2.6 Déploiement self-hosted / on-premise

Question : peut-on faire tourner le modèle dans son propre datacenter, voire en air-gap total ?

Open weights téléchargeables (Apache 2.0, MIT, Llama Community License) : oui, totalement
Modèles propriétaires en VPC dédié : possible chez Mistral (Le Chat Enterprise), partiellement chez OpenAI (Azure dédié), Anthropic (via Bedrock PrivateLink), mais ce n’est pas un vrai on-prem — les poids restent chez le fournisseur
Pure API SaaS : pas de self-hosting possible

C’est le seul moyen d’obtenir une indépendance souveraine totale. Coût matériel à anticiper : voir section 5.

2.7 Tool calling et compatibilité MCP

Question : le modèle sait-il appeler des outils de manière fiable, déterministe, parallèle ?

Critères techniques :

Support natif du function/tool calling (vs prompt-engineering manuel)
Précision sur benchmarks BFCL (Berkeley Function Calling Leaderboard)
Support natif du protocole MCP côté client ou via bridge (MCPHost, ollmcp, LiteLLM, llama.cpp)
Streaming des tool calls
Parallélisation des appels (plusieurs outils en parallèle dans une réponse)

État de l’art mai 2026 :

Tier 1 (production-grade) : Claude Sonnet/Opus 4.x, GPT-4.1/5, Gemini 3.1 Pro
Tier 2 (excellent) : Mistral Large 3, Qwen 3.5, Llama 4
Tier 3 (fonctionnel mais à valider) : Gemma 4, DeepSeek V3.x, Phi-4

3. Matrices détaillées par fournisseur

Les données ci-après reflètent l’état au 9 mai 2026 et peuvent évoluer. Toujours revérifier dans le DPA effectif au moment de la signature.

3.1 Anthropic Claude

Critère	État
Société	Anthropic PBC, Delaware (US)
Juridiction	États-Unis (CLOUD Act, FISA 702 applicables)
Modèles disponibles via API	Claude Opus 4.7, Claude Sonnet 4.6, Claude Haiku 4.5
Hosting direct API	US principalement ; option `inference_geo=eu` en bêta, storage US dans tous les cas
Hosting via AWS Bedrock	EU possible (eu-central-1 Frankfurt) — sous juridiction AWS / Delaware
Hosting via GCP Vertex AI	EU possible (europe-west1, europe-west4) — sous juridiction Google / Delaware
Hosting via Azure Foundry	EU “Coming 2026” — pas effectif aujourd’hui sur Foundry
ZDR	Disponible par addendum séparé, sur palier Enterprise/API — pas par défaut
DPA / SCC	Inclus automatiquement (DPA v.01/01/2026) sur Team, Enterprise et API commerciale
Training opt-out API	Opt-out par défaut (Anthropic ne train pas sur les données API)
Certifications	SOC 2 Type II, ISO 27001:2022, ISO 42001:2023, HIPAA BAA, FedRAMP High (Claude for Government)
Self-hosted	Non. Poids non publics. Pas d’option on-premise.
Tool calling	Excellent. Référence du secteur. Streaming et parallel tools natifs.
MCP	Créateur du protocole (nov. 2024). Support natif de référence.
Tarif indicatif	Sonnet 4.6 : ~3 $/M input, ~15 $/M output. Opus 4.7 : ~15 $/M input, ~75 $/M output

Verdict : excellente qualité de tool calling, support MCP natif (avantage concret pour OculiX), mais inscription US. Pour atteindre une résidence de données EU et rester légalement défendable côté RGPD, passer obligatoirement par Bedrock (eu-central-1) ou Vertex AI (europe-west). Le CLOUD Act reste applicable même dans ce cas — c’est documenté dans toute DPIA sérieuse.

3.2 OpenAI (GPT)

Critère	État
Société	OpenAI OpCo LLC (Delaware, US) / OpenAI Ireland Ltd (entité européenne secondaire)
Juridiction	États-Unis (CLOUD Act, FISA 702 applicables — entité Ireland insuffisante à elle seule)
Modèles disponibles	GPT-5, GPT-4.1, o-series (raisonnement)
Hosting direct API	Option EU residency disponible pour projets éligibles, avec ZDR forcé
Hosting via Azure OpenAI	EU Data Zone disponible (West Europe, North Europe, etc.), full control via Azure tenant
ZDR	Disponible : automatique sur projets EU residency, sur demande pour projets US (Limited Access program)
DPA / SCC	Inclus dans les conditions commerciales standard
Training opt-out API	Opt-out par défaut sur API (pas d’entraînement sur les données API/business depuis mars 2023)
Certifications	SOC 2 Type II, ISO 27001, HIPAA BAA (via Azure), CSA STAR
Self-hosted	Non. Poids non publics. Modèles ouverts gpt-oss en cours d’évaluation (limités).
Tool calling	Excellent. Référence historique du function calling depuis juin 2023.
MCP	Support natif depuis 2025 (Responses API, ChatGPT Apps)
Tarif indicatif	GPT-5 : ~1,25 $/M input, ~10 $/M output. GPT-4.1 : ~2 $/M input, ~8 $/M output

Verdict : Azure OpenAI en EU Data Zone est la voie la plus défendable côté compliance pour un client qui veut rester dans l’écosystème OpenAI. Le CLOUD Act reste applicable mais le périmètre opérationnel est mieux maîtrisé (logs, IAM, VNet). Pour un usage souverain strict (administration publique, défense, santé HDS), insuffisant en l’état.

3.3 Mistral AI

Critère	État
Société	Mistral AI SAS, Paris (France)
Juridiction	France / Union Européenne (RGPD, pas de CLOUD Act applicable)
Modèles disponibles	Mistral Large 3 (MoE, 256k context), Pixtral Large, Devstral 2 (code), Mistral Medium 3, Mistral Small/Nemo (open weights)
Hosting direct API (La Plateforme / Mistral AI Studio)	France et EU par défaut. Pas de routage vers les US.
Hosting via AWS / Azure / GCP Marketplace	Disponible. La juridiction effective dépend du choix de l’opérateur cloud.
Hosting self-hosted	Oui, supporté officiellement : self-hosted, private cloud, VPC, on-premise via TensorRT-LLM, vLLM, Ollama, llama.cpp
ZDR	Disponible (paramètre activable sur API). Par défaut, rétention 30 jours rolling pour monitoring anti-abus.
DPA / SCC	Inclus. SCC non nécessaires pour clients EU (pas de transfert hors EEE).
Training opt-out	Opt-out par défaut sur Team et Enterprise. Pas d’entraînement sur les données client en conditions enterprise.
Certifications	SOC 2 Type II, ISO 27001 (en cours d’extension). Engagement GPAI Code of Practice.
Modèles open weights	Plusieurs modèles publiés sous Apache 2.0 : Mistral 7B, Mixtral 8x7B/8x22B, Nemo, Small 3, Devstral, Codestral Mamba
Tool calling	Très bon (Mistral Large 3 et Medium 3). Function calling natif documenté.
MCP	Support compatible via SDK officiel et via gateway OpenAI-compatible (LiteLLM, etc.)
Tarif indicatif	Mistral Medium 3 : ~0,40 $/M input. Mistral Large 3 : ~2 $/M input, ~6 $/M output

Verdict : seule offre frontier-class native EU sans CLOUD Act. Stack complète : SaaS hébergé en France, VPC, on-prem, weights open source. Adopté par HSBC, SAP, gouvernements français/allemand pour le stack souverain. Choix par défaut recommandé pour les clients OculiX EU régulés sauf contrainte technique spécifique. Limite : écosystème outils plus jeune qu’OpenAI/Anthropic.

3.4 Google Gemini

Critère	État
Société	Google LLC, Mountain View (US) / Alphabet Inc. (US)
Juridiction	États-Unis (CLOUD Act, FISA 702 applicables)
Modèles disponibles	Gemini 3.1 Pro, Gemini 3 Flash, Gemini 2.5 Pro, Gemini 2.0 Flash
Hosting via Vertex AI	EU possible : europe-west1 (Belgique), europe-west4 (Pays-Bas). Mais Gemini 3.x pas encore en EU au 9 mai 2026 — seules les générations 2.x sont disponibles GDPR-compatible en EU.
ZDR	Disponible sur Vertex AI Enterprise (option payante)
DPA / SCC	Inclus dans Google Cloud Terms
Training opt-out	Opt-out par défaut sur Vertex AI (pas d’entraînement sur prompts client)
Certifications	SOC 1/2/3, ISO 27001, 27017, 27018, 27701, 42001, FedRAMP High, HIPAA BAA
Self-hosted	Non. Pas de modèles Gemini en open weights. Variants Gemma 4 disponibles open weights (mais bien moins capables que Gemini 3).
Tool calling	Excellent (Gemini 3.1 Pro). Function calling natif, structured output, parallel calls.
MCP	Support officiel depuis 2026 (Vertex AI Agent Builder, Gemini Enterprise)
Tarif indicatif	Gemini 3.1 Flash : ~0,30 $/M input, ~2,50 $/M output. Gemini 3.1 Pro : ~2 $/M input, ~10 $/M output

Verdict : ratio capacité / prix excellent, mais deux pièges majeurs :

les modèles 3.x ne sont pas (encore) disponibles en EU au 9 mai 2026 → nécessité d’utiliser Gemini 2.5 Pro pour rester GDPR-compatible, ce qui dégrade la qualité du tool calling
juridiction US, CLOUD Act applicable

Pour un client non-régulé, OK. Pour un client soumis à des contraintes de souveraineté, inadapté.

3.5 DeepSeek

Critère	État
Société	Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. (Chine)
Juridiction	République Populaire de Chine — National Intelligence Law 2017 applicable
Modèles disponibles	DeepSeek V4, DeepSeek R1 (raisonnement), DeepSeek Coder
Hosting API officielle	Serveurs en Chine. Pas de résidence EU disponible.
Hosting via tiers (Atlas Cloud, Baseten, Fireworks, Together)	Variable. Vérifier le sub-processor.
ZDR	Pas garanti côté API officielle. Documentation parcellaire.
DPA / SCC	Quasi-inexistant. DeepSeek a contesté l’applicabilité du RGPD en 2025.
Training opt-out	Non par défaut sur API officielle. Données utilisées pour l’entraînement.
Certifications	Aucune certification reconnue côté EU.
Statut réglementaire EU	Italie (Garante) a interdit DeepSeek en janvier 2025. Investigations actives en France, Allemagne, Belgique, Irlande, Pays-Bas.
Modèles open weights	Oui, sous licence MIT — c’est l’angle d’usage safe : self-host les poids et oublier l’API officielle
Tool calling	Correct (V3.x), à valider en production
MCP	Via bridge OpenAI-compatible côté self-hosted
Tarif indicatif (API officielle)	Très bas — ~0,07 $/M input. Hors EU pour usage pro.

Verdict : l’API officielle DeepSeek est à proscrire pour tout client EU traitant des données personnelles ou industrielles sensibles. En revanche, les poids open source sont parmi les plus performants disponibles librement et peuvent être self-hostés sans contrepartie. Conclusion : oui aux poids, non à l’API.

3.6 Modèles open weights self-hostés

Cas générique : le client télécharge les poids et les fait tourner sur son infrastructure (datacenter, cloud privé, ou ses propres GPU on-prem).

Modèle	Licence	Tailles	Tool calling	Self-host idéal
Llama 4 (Meta)	Llama Community License	8B, 70B, 405B	Bon	vLLM
Mistral Small 3 / Nemo / Mixtral	Apache 2.0	7B à 8x22B	Bon à très bon	vLLM, llama.cpp
Qwen 3.5 (Alibaba)	Apache 2.0	0.5B à 72B	Très bon	vLLM, llama.cpp
Gemma 4 (Google)	Gemma Terms	2B à 27B	Bon (gros saut depuis Gemma 3)	Ollama, vLLM
DeepSeek V3 / R1	MIT	671B (MoE)	Correct	vLLM
Phi-4 (Microsoft)	MIT	14B	Moyen	Ollama, LM Studio

Avantages du self-host :

Juridiction = celle de votre datacenter. RGPD natif. Pas de CLOUD Act, pas de FISA 702, pas de NIL 2017.
Air-gap possible (aucune connexion sortante)
Coût marginal très bas une fois le matériel amorti : ~0,001 à 0,04 $/M tokens en électricité contre ~2,50 à 15 $/M en API cloud
ROI matériel typique : moins de 4 mois au-delà de ~30 millions de tokens/jour
Auditabilité totale : poids figés, version traçable, pas de “model drift” silencieux côté fournisseur

Inconvénients :

Capex initial : un nœud 2x H100 80GB coûte ~50-80 k€ (location ~3-5 k€/mois)
Compétences MLOps internes nécessaires (vLLM tuning, K8s GPU, monitoring)
Modèles open weights ont 6 à 12 mois de retard sur la frontière propriétaire
Maintenance du stack (mises à jour vLLM, sécurité OS, drivers CUDA)

Stacks recommandées au 9 mai 2026 :

Prototypage / dev : Ollama (simple, OpenAI-compatible, MCP via MCPHost)
Production multi-utilisateurs : vLLM 0.17+ (PagedAttention, continuous batching, Anthropic API compat depuis v0.17)
Air-gap CPU-only : llama.cpp (support MCP natif depuis mars 2026)
Cluster managé EU : Mistral AI Studio “Enterprise-Supported Self-Deployment”, ou des opérateurs souverains type Scaleway/OVH avec offre LLM dédiée

3.7 Accélérateurs d’inférence (Groq, Cerebras, SambaNova)

Ces fournisseurs ne sont pas des éditeurs de modèles. Ils opèrent des matériels spécialisés (LPU, WSE, RDU) qui servent des modèles open weights tiers (Llama, Mistral, Qwen, DeepSeek) à très faible latence.

Fournisseur	Hosting	Juridiction	Modèles servis	Intérêt principal
Groq	US principalement, EU en cours	US	Llama, Mixtral, Qwen, GPT-OSS	Latence < 100ms, throughput record
Cerebras	US	US	Llama, Qwen, DeepSeek	Throughput géant (3000+ tok/s)
SambaNova	US	US	Llama, DeepSeek	Throughput

Verdict : intéressants pour la latence (OculiX MCP bénéficie de réponses rapides car il y a beaucoup d’allers-retours), mais juridiction US sur tous les majeurs au 9 mai 2026. Pour un client EU régulé, pas une voie souveraine. Pour un client non-régulé qui veut un orchestrateur ultra-rapide, excellent rapport latence/prix.

4. Tableau récapitulatif

Légende :

OK : critère pleinement satisfait dans la configuration standard
CONF : satisfait moyennant une configuration spécifique (Bedrock EU, Vertex EU, addendum ZDR, etc.)
NON : non disponible ou non satisfaisant

Fournisseur	Juridiction non-US	Hosting EU	ZDR	RGPD/DPA	Self-host	Tool calling	MCP natif
Anthropic Claude (direct API)	NON	CONF	CONF	OK	NON	OK	OK
Anthropic via Bedrock EU	NON (AWS)	OK	OK	OK	NON	OK	OK
Anthropic via Vertex EU	NON (Google)	OK	OK	OK	NON	OK	OK
OpenAI direct API EU residency	NON	OK	OK	OK	NON	OK	OK
OpenAI via Azure EU Data Zone	NON (MS)	OK	OK	OK	NON	OK	OK
Mistral La Plateforme	OK	OK	OK	OK	OK	OK	CONF
Mistral self-hosted	OK	OK	OK	OK	OK	OK	CONF
Google Gemini 3.x via Vertex EU	NON	NON (pas dispo EU au 9/05/26)	CONF	OK	NON	OK	OK
Google Gemini 2.5 via Vertex EU	NON	OK	CONF	OK	NON	OK	OK
DeepSeek API officielle	NON (Chine)	NON	NON	NON	NON	OK	NON
DeepSeek self-hosted (poids MIT)	OK (selon DC)	OK	OK	OK	OK	OK	CONF
Llama 4 self-hosted	OK (selon DC)	OK	OK	OK	OK	OK	CONF
Mixtral / Qwen self-hosted	OK (selon DC)	OK	OK	OK	OK	OK	CONF
Groq / Cerebras / SambaNova	NON	NON	CONF	CONF	NON	OK	CONF

5. Profils de déploiement recommandés

Cinq profils types, du plus contraint au plus souple. Le profil A est le plus exigeant côté souveraineté ; le profil E est le plus souple.

5.1 Profil A — Administration publique, défense, santé HDS, OIV/OSE

Contraintes :

SecNumCloud, HDS (santé), DiffusionRestreinte (défense)
Pas de CLOUD Act, pas de FISA 702
Air-gap possible ou requis
AI Act haut risque (Annexe III) probable

Recommandation : modèles open weights en self-host sur infrastructure SecNumCloud ou on-prem air-gap.

Stack :

Modèle : Mistral Large 3 (si licence Enterprise négociée), Mixtral 8x22B, ou Llama 4 70B
Inference engine : vLLM 0.17+
Hosting : OVH SecNumCloud, Outscale, Scaleway, ou datacenter privé
MCP bridge : llama.cpp natif ou MCPHost

Alternative dégradée acceptable : Mistral AI Studio en self-deployment supervisé par Mistral.

5.2 Profil B — ETI régulée (banque, assurance, énergie)

Contraintes :

DORA (depuis janvier 2025), NIS2, RGPD strict
Comité d’éthique IA et DPO actifs
AI Act haut risque pour certains usages (RH, scoring, surveillance)
Audit par les régulateurs (ACPR, BaFin, etc.) possible

Recommandation : Mistral Le Chat Enterprise en VPC privé ou cloud souverain.

Stack :

Modèle : Mistral Large 3 via La Plateforme avec DPA renforcé et ZDR activé
Hosting : Mistral cloud (FR/EU) ou self-hosted en VPC sur OVH/Scaleway
Backup : Claude via Bedrock eu-central-1 pour des tâches non sensibles (avec DPIA documentant le résidu CLOUD Act)

5.3 Profil C — SaaS B2B EU générique (non régulé)

Contraintes :

RGPD applicable
Pas d’AI Act haut risque
Sensibilité aux coûts
Besoin de bonne qualité de tool calling

Recommandation : OpenAI via Azure EU Data Zone, ou Claude via Bedrock eu-central-1.

Le résidu CLOUD Act est documenté dans la DPIA. Acceptable pour un client B2B EU qui ne traite pas de données particulièrement sensibles. Mistral La Plateforme reste la meilleure option si on accepte de tester un écosystème un peu plus jeune.

5.4 Profil D — POC, R&D interne, sandbox

Contraintes :

Données non sensibles (anonymisées, synthétiques, ou hors RGPD)
Coût minimal
Itération rapide

Recommandation : Anthropic API direct (Claude Sonnet 4.6) ou Mistral API.

Tool calling et MCP natifs, qualité maximale. Documenter explicitement dans une politique interne que ce périmètre ne traite pas de données personnelles ou confidentielles. Sinon repasser sur les profils A/B/C.

5.5 Profil E — Air-gap total, environnement classifié

Contraintes :

Aucune connexion sortante autorisée
Datacenter sous contrôle physique du client
Reproductibilité bit-à-bit des inférences à long terme

Recommandation : modèles open weights, llama.cpp ou vLLM, sur hardware dédié.

Stack :

Modèle : Llama 4 70B FP16, ou Mixtral 8x22B, ou Mistral Small 3 pour des cibles plus modestes
Inference engine : llama.cpp (CPU possible) ou vLLM (GPU dédié, A100/H100)
Audit : packet capture systématique pour vérifier l’absence de tout outbound
Stockage : poids signés cryptographiquement, vérification SHA-256 à chaque chargement

Aucune offre SaaS n’est éligible. C’est le seul profil où la souveraineté est mathématiquement vérifiable.

6. Pièges classiques à éviter

7. Recommandations spécifiques pour l’intégration OculiX MCP

7.1 Audit trail Ed25519 : à conserver côté client

L’audit trail signé d’OculiX permet de prouver, a posteriori et de manière infalsifiable, quels outils ont été appelés avec quels arguments. C’est un actif majeur pour la conformité AI Act (Art. 12 — logs et traçabilité).

Ne jamais transmettre cet audit trail au LLM orchestrateur pour réinjection : ce serait inverser la chaîne de confiance. L’audit trail est destiné aux DPO/auditeurs, pas au modèle.

7.2 ActionGate : politique d’autorisation déterministe

Le contrôle d’accès ActionGate d’OculiX est déterministe et indépendant du LLM. Même si un LLM hallucine ou est victime d’une prompt injection, ActionGate bloque les actions non autorisées par la politique.

Conséquence : le client peut choisir un LLM moins “sûr” (plus créatif, moins guardé) pour l’orchestration sans compromettre la sécurité opérationnelle, à condition que la politique ActionGate soit correctement définie.

7.3 Latence : impact direct du choix LLM

OculiX MCP fait typiquement 5 à 50 allers-retours LLM par scénario de test. La latence par appel se cumule :

Provider	Latence médiane TTFT
Groq (Llama)	100-200 ms
Cerebras (Llama)	150-300 ms
Claude Sonnet (US direct)	400-800 ms
Claude via Bedrock EU	500-1000 ms
GPT-4.1 via Azure EU	500-1200 ms
Mistral La Plateforme	300-700 ms
Self-hosted vLLM (H100, EU DC)	50-150 ms

Pour un scénario à 20 appels, on parle d’écarts de 2 à 20 secondes par exécution. Sur des milliers d’exécutions, c’est structurant côté CI/CD.

7.4 Reproductibilité

Pour les usages de non-régression visuelle, il faut idéalement un LLM dont les outputs sont reproductibles. Aucun LLM stochastique ne l’est strictement (même temperature=0 ne garantit pas le déterminisme sur GPU à cause des non-déterminismes float).

Mitigation OculiX : la couche déterministe (Sikuli, OpenCV, OCR) absorbe la majorité de la non-reproductibilité du LLM. Le LLM décide quoi chercher, la couche déterministe garantit comment c’est trouvé.

C’est cohérent avec la philosophie du projet : code déterministe en boucle critique, LLM en couche de décision haute. Pas l’inverse.

7.5 Modèles spécifiquement déconseillés

Au 9 mai 2026, ne pas utiliser pour orchestrer OculiX MCP en production :

Modèles < 7B paramètres : tool calling trop faible
Modèles non-instruct (modèles base) : sans intérêt
Phi-3 : tool calling instable sur scénarios à plusieurs sauts
Modèles “uncensored” sans alignement : risques de comportements aberrants sur prompts ambigus
LLMs sans support natif du function calling (prompt-engineering manuel) : trop fragile

8. Annexes

8.1 Glossaire

CLOUD Act (Clarifying Lawful Overseas Use of Data Act, 2018) : loi américaine permettant aux autorités US d’exiger d’une société US-incorporée la divulgation de données, où qu’elles soient stockées dans le monde.
FISA 702 (Foreign Intelligence Surveillance Act, Section 702) : disposition US autorisant la collecte de communications électroniques d’étrangers non-US sans mandat individuel.
National Intelligence Law 2017 (Art. 7) : loi chinoise obligeant toute organisation et tout citoyen chinois à coopérer avec les services de renseignement.
ZDR (Zero Data Retention) : engagement contractuel de ne pas stocker inputs et outputs au-delà du cycle d’inférence.
DPA (Data Processing Agreement) : accord de sous-traitance Art. 28 RGPD.
SCC (Standard Contractual Clauses) : clauses contractuelles types pour transferts hors EEE.
HRAIS (High-Risk AI System) : système d’IA classé haut risque au sens de l’AI Act (Annexe III).
Déployeur (AI Act) : personne physique ou morale utilisant un système d’IA sous sa propre autorité.
MCP (Model Context Protocol) : protocole ouvert d’Anthropic (nov. 2024) pour connecter LLMs et outils.
BFCL (Berkeley Function Calling Leaderboard) : benchmark de référence pour la qualité du tool calling.

8.2 Sources et liens utiles

8.3 Disclaimer

Ce document est fourni à titre informatif. Il ne constitue ni un conseil juridique, ni un audit de conformité, ni un engagement contractuel d’OculiX ou des entités commerciales associées. La responsabilité de la conformité du LLM orchestrateur incombe au client (déployeur au sens de l’AI Act et processor/controller au sens du RGPD selon les cas).

Les conditions des fournisseurs LLM évoluent rapidement. Revérifier systématiquement les DPA, SCC, certifications et politiques de rétention au moment de la signature contractuelle.

8.4 Historique du document

Version	Date	Modifications
1.0	9 mai 2026	Version initiale
1.0 (publication)	19 mai 2026	Mise en ligne sur oculix.org