Ceph, OpenStack et Kubernetes pour l'inférence IA souveraine

Q: Quel matériel faut-il pour l'inférence IA on-premise ?

Pour des modèles jusqu'à 70B paramètres, 2-3 serveurs avec GPU NVIDIA A100 (80 Go VRAM) ou L40S. Pour le stockage, au moins 3 nœuds NVMe pour le cluster Ceph. Nous dimensionnons la configuration exacte lors de l'évaluation.

Q: Combien coûte un cluster Ceph + OpenStack + Kubernetes ?

Le logiciel est 100 % open source, sans licence. L'investissement dépend du matériel et du périmètre. Configuration minimale à partir de 3-5 nœuds. Notre service inclut évaluation, conception et déploiement assisté.

Q: Ce stack permet-il l'entraînement ou uniquement l'inférence ?

Le stack supporte inférence, fine-tuning et entraînement. Le pré-entraînement de grands modèles nécessite des clusters GPU haute vitesse (InfiniBand/RoCE). La plupart des organisations utilisent cette infra pour l'inférence et le fine-tuning.

Q: Quelle différence avec des GPUs dans un cloud public ?

Trois différences : coût fixe vs variable, souveraineté des données, et zéro verrouillage fournisseur. L'infrastructure propre s'amortit en 12-18 mois à volume moyen d'inférence.

Q: Faut-il une équipe spécialisée pour exploiter l'infrastructure ?

Notre service inclut une formation certifiée Ceph, OpenStack et Kubernetes. Avec une expérience Linux et réseau, votre équipe peut exploiter l'infra après formation. Support continu disponible en phase initiale.

Q: Cette infrastructure est-elle conforme au RGPD et au AI Act ?

Oui. Infrastructure on-premise = contrôle total sur la localisation et le traitement des données. Aucun transfert transfrontalier. Conformité RGPD, AI Act, HDS (santé), directives ACPR (banque).

Construisez votre propre infrastructure d'inférence IA on‑premise avec un stack 100 % open source. Sans licences propriétaires, sans verrouillage fournisseur, avec une souveraineté totale sur vos données et vos modèles. Nous concevons l'architecture, formons votre équipe et vous accompagnons jusqu'à la mise en production.

Parlons de votre projet Écrivez-nous sur WhatsApp

inference@votre-datacenter ~

$ ceph -s | head -4

cluster: health HEALTH_OK

osd: 12 osds, 12 up · data: 2.4 TiB stored

$ kubectl get pods -n inference

vllm-llama70b-0 Running gpu: A100vllm-mistral-0 Running gpu: L40Striton-embed-0 Running gpu: L40S

$ openstack server list --project ia

| gpu-worker-01 | ACTIVE | nvidia-a100-80g || gpu-worker-02 | ACTIVE | nvidia-l40s |

Latence P99

47ms

Débit

3.2k tok/s

Pourquoi on-premise

Trois raisons pour lesquelles les organisations rapatrient l'inférence IA

Coûts prévisibles

Les factures GPU dans le cloud varient de 30 à 40 % d'un cycle à l'autre. Avec votre propre infrastructure, le coût est fixe, amortissable et sans surprises. Chaque token généré vous revient moins cher que le précédent.

Zéro verrouillage fournisseur

APIs propriétaires, formats fermés, orchestration captive. Vos modèles fine-tunés et vos datasets vivent sur l'infrastructure d'un tiers. Avec l'open source, vous gardez la portabilité totale.

Souveraineté et conformité

Le RGPD et le AI Act européen exigent de savoir où sont traitées vos données. La CNIL surveille de près. Si votre inférence touche des données de patients, de citoyens ou de clients bancaires, vous avez besoin d'un contrôle total sur l'infrastructure.

Le stack d'inférence

Trois technologies éprouvées. Zéro dépendance propriétaire.

Le même stack open source qui alimente les usines d'IA du Barcelona Supercomputing Center et les infrastructures souveraines européennes. Nous le configurons dans votre datacenter et formons votre équipe pour l'exploiter.

Ceph

STOCKAGE DISTRIBUÉ

Stockage objet, bloc et fichier unifié. Stockez les poids de vos modèles (dizaines de Go chacun), des datasets massifs et les résultats d'inférence. Compatible S3 natif. Évolue de téraoctets en pétaoctets sans interruption.

S3 APIRBDCephFSErasure coding

OpenStack

ORCHESTRATION D'INFRASTRUCTURE

Votre cloud privé entreprise. Gestion complète des GPU avec PCI passthrough, vGPU et NVIDIA MIG. Réseaux isolés par projet, provisionnement automatisé et gestion bare metal intégrée.

NovaNeutronIronicSenlin

Kubernetes

ORCHESTRATION D'INFÉRENCE

Scheduling GPU natif, autoscaling des pods d'inférence, déploiement de vLLM et TensorRT-LLM en conteneurs. Le standard certifié CNCF pour exécuter des workloads IA en production à toute échelle.

GPU OperatorKubeFlowvLLMTriton

Architecture de référence

01 — DONNÉES

Ceph S3

Modèles · Datasets

02 — INFRA

OpenStack

GPU · Réseau · Bare metal

03 — ORCHESTRATION

Kubernetes

vLLM · Triton · KubeFlow

04 — PRODUCTION

Inférence

APIs · Agents · RAG

Verrouillage fournisseur

Plus d'efficacité GPU vs VMware

Source : FPT / OpenInfra, 2025

~50%

Économie stockage vs cloud

Source : OpenMetal, 2025

100%

Conformité RGPD & AI Act

Ce que nous proposons

De votre datacenter à la mise en production de modèles

Nous ne vendons ni matériel ni contrats de maintenance captifs. Nous transférons les compétences pour que votre équipe soit entièrement autonome.

Évaluation et architecture sur mesure

Nous auditons vos charges de travail, exigences de latence, volumes de données et obligations réglementaires. Livrable : conception d'architecture complète incluant le dimensionnement GPU, la topologie réseau, la stratégie de stockage Ceph et un plan de capacité à 12-24 mois.

Formation certifiée de votre équipe

Cours pratiques en administration Ceph, OpenStack pour workloads GPU et Kubernetes avec scheduling d'accélérateurs. En tant qu'IBM Business Partner et Canonical Partner, nos certifications ont une reconnaissance internationale.

Déploiement assisté dans votre environnement

Installation hands-on : clusters Ceph, OpenStack avec support GPU natif (PCI passthrough, vGPU, MIG), Kubernetes avec NVIDIA GPU Operator et premiers workloads réels d'inférence IA avec vLLM ou TensorRT-LLM.

Support continu et évolution

Optimisation GPU, mises à jour du stack et formation avancée au fur et à mesure de votre montée en charge. Du premier LLM hébergé en local à une plateforme complète d'IA agentique avec RAG, multi-modèles et APIs de production.

Secteurs cibles

Conçu pour les organisations dont les données ne peuvent pas sortir

Santé

Dossiers patients, diagnostic assisté, conformité HDS et RGPD.

Banque et assurance

Détection de fraude, scoring crédit, données réglementées ACPR et BCE.

Secteur public et défense

Souveraineté numérique, IA pour les services publics, AI Act, données classifiées.

Industrie

Vision artificielle, maintenance prédictive, inférence edge en environnement OT.

Qui sommes-nous

Un partenaire technique qui vous rend autonome

Nous ne sommes ni un hyperscaler ni un fabricant de matériel. Nous sommes un cabinet de conseil en formation IT avec plus d'une décennie de déploiements open source en production. Notre mission se termine quand votre équipe gère tout en totale autonomie.

IBM Business Partner

Formation officielle IBM Power, Storage et technologies IA avec certifications reconnues à l'international.

Canonical Partner

Ubuntu, Ceph, OpenStack, MicroK8s et Juju. L'écosystème Canonical comme fondation de notre infrastructure open source.

🌍

Européen et multilingue

Nous opérons en français, espagnol et anglais. Expertise RGPD et AI Act intégrée.

Questions fréquentes

Ce qu'on nous demande avant de démarrer

Quel matériel faut-il pour l'inférence IA on-premise ? +

Cela dépend des modèles à servir. Pour des modèles jusqu'à 70B paramètres, un minimum de 2-3 serveurs avec GPU NVIDIA A100 (80 Go VRAM) ou L40S est un bon point de départ. Pour le stockage, nous recommandons au moins 3 nœuds avec disques NVMe pour le cluster Ceph. Lors de la phase d'évaluation, nous dimensionnons exactement ce dont vous avez besoin.

Combien coûte un cluster Ceph + OpenStack + Kubernetes ? +

Le logiciel est 100 % open source, donc sans coût de licence. L'investissement dépend du matériel (GPUs, serveurs, réseau) et du périmètre du projet. Une configuration minimale viable pour l'inférence peut démarrer à partir de 3-5 nœuds. Notre service inclut évaluation, conception d'architecture et déploiement assisté. Nous pouvons aussi former votre équipe. Contactez-nous pour un devis adapté.

Ce stack permet-il l'entraînement ou uniquement l'inférence ? +

Le stack Ceph + OpenStack + Kubernetes supporte l'inférence, le fine-tuning et l'entraînement. Cependant, le pré-entraînement de grands modèles nécessite des clusters GPU interconnectés avec des réseaux à haute vitesse (InfiniBand/RoCE). La majorité des organisations utilisent cette infrastructure pour l'inférence et le fine-tuning.

Quelle différence avec des GPUs dans un cloud public (AWS, Azure) ? +

Trois différences clés : coût (fixe et amortissable vs variable et croissant), souveraineté des données (vos données ne quittent jamais votre datacenter) et absence de verrouillage fournisseur (tout le stack est open source et portable). À partir d'un volume moyen d'inférence, l'infrastructure propre s'amortit en 12-18 mois face au cloud.

Faut-il une équipe spécialisée pour exploiter l'infrastructure ? +

Notre service inclut une formation certifiée pour votre équipe en administration Ceph, OpenStack et Kubernetes. Si votre équipe a une expérience Linux et réseau, elle peut exploiter l'infrastructure après la formation. Nous proposons aussi un support continu durant les phases initiales jusqu'à l'autonomie complète.

Cette infrastructure est-elle conforme au RGPD et au AI Act ? +

Oui. En tant qu'infrastructure on-premise, vous avez un contrôle total sur la localisation et le traitement des données. Aucun transfert transfrontalier, aucune dépendance à un fournisseur cloud externe. Cela facilite grandement la conformité au RGPD, au AI Act européen et aux réglementations sectorielles comme les exigences HDS (santé) ou les directives ACPR (banque).

Étape suivante

Un projet d'inférence IA ? Parlez-nous de vos besoins.

Nous analysons vos exigences techniques, vos volumes de données et vos contraintes réglementaires. Un échange entre professionnels pour voir si ça a du sens de travailler ensemble.

Contacter SIXE Vous préférez WhatsApp ?

Ceph, OpenStack et Kubernetes pour l'inférence IA souveraine

Trois raisons pour lesquelles les organisations rapatrient l'inférence IA

Coûts prévisibles

Zéro verrouillage fournisseur

Souveraineté et conformité

Trois technologies éprouvées. Zéro dépendance propriétaire.

Ceph

OpenStack

Kubernetes

De votre datacenter à la mise en production de modèles

Évaluation et architecture sur mesure

Formation certifiée de votre équipe

Déploiement assisté dans votre environnement

Support continu et évolution

Conçu pour les organisations dont les données ne peuvent pas sortir

Santé

Banque et assurance

Secteur public et défense

Industrie

Un partenaire technique qui vous rend autonome

IBM Business Partner

Canonical Partner

Européen et multilingue

Ce qu'on nous demande avant de démarrer

Un projet d'inférence IA ? Parlez-nous de vos besoins.

Blog!

Nous contacter

Partners

Notre mission