Qu'est-ce qu'IBM Fusion CAS (Content Aware Storage) ?

CAS est une capacité intégrée à IBM Fusion qui transforme le stockage en système actif : il extrait le contenu des documents, génère des embeddings vectoriels et maintient l'index à jour de manière continue et incrémentale, sans déplacer les données hors du stockage.

Quelle est la différence entre un pipeline RAG traditionnel et CAS ?

Dans un pipeline RAG traditionnel, les données sont copiées du stockage vers un système de traitement externe pour la vectorisation. CAS intègre cette vectorisation directement dans la couche de stockage : zero-copy, mises à jour incrémentales quand un document change, et héritage automatique des contrôles d'accès sur les vecteurs.

CAS remplace-t-il Docling et Milvus ?

Cela dépend de l'échelle. Pour des déploiements de quelques centaines de documents qui changent peu, un pipeline avec Docling + Milvus fonctionne bien. CAS est conçu pour des environnements avec des dizaines de milliers de documents qui évoluent quotidiennement, où le maintien d'un pipeline artisanal devient un projet en soi.

IBM Fusion CAS fonctionne-t-il on-premise ?

Oui, toute l'architecture fonctionne on-premise : stockage, GPU, vectorisation et inférence au sein du périmètre de l'organisation. Conçu pour être conforme au RGPD, à l'EU AI Act, à la directive NIS2 et à la réglementation sectorielle (santé, banque, administration publique).

RAG · IBM Fusion CAS

Pourquoi votre RAG répond avec les données du mois dernier.

Re-vectoriser des milliers de documents à chaque modification ne passe pas à l'échelle. IBM Fusion CAS intègre la vectorisation directement dans le stockage : les documents changent, les vecteurs se mettent à jour automatiquement.

7 min de lecture●RAG · Stockage · Données non structurées

IBM Fusion CAS (Content Aware Storage) est une capacité intégrée à IBM Fusion qui vectorise, indexe et maintient à jour les documents directement dans la couche de stockage — sans déplacer de données ni reconstruire l'index vectoriel.

Si vous avez un pipeline RAG en production, vous avez probablement déjà rencontré ce problème : les documents changent, mais les vecteurs ne suivent pas. Le contrat a été amendé en mars, le chatbot répond encore avec la version de décembre. Ce n'est pas un défaut du modèle — c'est que personne n'a relancé l'ingestion. CAS résout exactement cela.

80–90%

Des données d'entreprise
sont non structurées
Source : IBM Redbooks

40%

Des prototypes IA
n'atteignent jamais la production
Qualité des données

Copies de données
nécessaires avec CAS
Ingestion zero-copy

01 · Le problème

Pourquoi les vecteurs d'un RAG deviennent-ils obsolètes ?

Entre 80 % et 90 % des données d'entreprise sont non structurées — PDF, documents scannés, tableurs, contrats, tickets de support. Dans un pipeline RAG classique, le flux pour les rendre accessibles à l'IA est : extraire les documents → les parser → générer des embeddings → les charger dans une base de données vectorielle → chercher quand une requête arrive. Ça fonctionne. Jusqu'à ce que les documents changent.

Manuels techniques versionnés, contrats avec avenants, rapports financiers trimestriels, tickets de support rouverts. À chaque modification, il faut relancer tout le pipeline. Avec des milliers de documents, cela implique des heures de GPU, un déplacement massif de données entre systèmes, et une équipe dédiée à surveiller le processus. Selon IBM, 40 % des prototypes d'IA n'atteignent jamais la production précisément à cause de problèmes de qualité et de disponibilité des données.

L'alternative habituelle : ne pas re-vectoriser. Et alors votre IA répond avec des informations vieilles de deux mois.

La faille de sécurité que personne ne voit

Dans la plupart des déploiements RAG, la vectorisation dilue les contrôles d'accès du document original. Le chatbot a accès à tout l'index vectoriel, et soudain un commercial peut extraire des informations financières auxquelles il ne devrait pas avoir accès parce que les ACL du fichier n'ont pas été propagées aux vecteurs. CAS résout ce problème : les vecteurs héritent des permissions du document source.

02 · La solution

Qu'est-ce qu'IBM Fusion CAS et à quoi sert-il ?

CAS (Content Aware Storage) est une capacité intégrée à IBM Fusion qui opère sur Storage Scale. Ce n'est pas un produit séparé. Le stockage passe d'un simple espace de conservation de bytes à un système qui comprend le contenu de chaque fichier : sa structure, sa sémantique et comment il a changé depuis son dernier traitement.

Architecture AI-Q Research Assistant avec IBM Fusion CAS — flux d'ingestion, vectorisation et requête RAG

Architecture AI-Q Research Assistant sur IBM Fusion — Source : IBM Community, Sandeep Zende

Capacité Pipeline RAG traditionnel IBM Fusion CAS

Déplacement de données

Copie vers système externe

Zero-copy sur place

Mise à jour des vecteurs

Ré-ingestion complète

Incrémentale automatique

Détection des changements

Manuel / cron

Temps réel

Contrôle d'accès sur vecteurs

Non propagé

ACL héritées

Accélération GPU

Inférence uniquement

Dès l'ingestion

Orchestration

Scripts + crons + files

Intégrée au stockage

Si vous utilisez déjà Docling (ou le portage de LibrePower pour IBM Power) avec Milvus et un LLM, vous n'avez pas besoin de CAS pour que cela fonctionne. Un déploiement avec quelques centaines de PDF qui changent peu se gère avec un pipeline orchestré et un cron. Le point de bascule arrive quand les documents se comptent par dizaines de milliers, changent quotidiennement et les contrôles d'accès sont critiques.

03 · Comment ça marche

Comment CAS traite-t-il les documents sans les sortir du stockage ?

Flux IBM Fusion CAS — ingestion et requête

📄

Un document arrive ou change dans Storage Scale PDF, scans, tableaux, contrats — CAS détecte l'événement automatiquement

⚡

Extraction et chunking sémantique accéléré par GPU OCR, reconnaissance de tableaux, analyse de layout — tout dans le stockage, sans copie

🧬

Génération d'embeddings avec NeMo Retriever Vectorisation sur GPU NVIDIA Blackwell — RTX PRO 6000, mise à l'échelle linéaire

🗄️

Indexation incrémentale dans la base vectorielle intégrée Seules les parties modifiées sont mises à jour — avec les ACL du document source héritées

🔁

Requête RAG : chercher → raisonner → affiner → répondre AI-Q Research Assistant : boucle itérative avec Nemotron + Llama-3, pas une réponse unique

↻ Boucle continue — les données sont automatiquement retraitées quand elles changent

La différence clé avec un pipeline conventionnel : il n'y a pas d'étape manuelle entre « le document a changé » et « l'index vectoriel reflète ce changement ». CAS comble cette lacune automatiquement, avec les GPU NVIDIA Blackwell qui accélèrent chaque phase — pas seulement l'inférence finale. Le débit d'ingestion et de requête évolue linéairement avec l'ajout de GPU NVIDIA RTX PRO 6000, selon les tests documentés dans le Redbook IBM sur la plateforme de données NVIDIA AI. Sur les benchmarks BEIR (le standard de l'industrie pour évaluer la recherche sémantique), CAS surpasse les systèmes de récupération d'information les plus avancés du marché.

04 · Déploiement

On-premise parce qu'il n'y a pas d'alternative

Toute l'architecture fonctionne on-premise. Ce n'est pas une préférence : si vos données sont soumises au RGPD, à l'EU AI Act, à la directive NIS2, à la réglementation bancaire de l'EBA ou aux exigences de données classifiées, les envoyer vers une API cloud pour les vectoriser n'est pas une option légale.

C'est la même philosophie que nous avons décrite en parlant de la construction d'une usine d'IA on-premise avec Ceph et Kubernetes, avec une différence : CAS intègre la préparation des données directement dans le stockage. Pas de cluster de traitement séparé à orchestrer, pas de files de messages entre le NAS et le pipeline, pas de buckets S3 temporaires.

Storage Scale vs Ceph : un nouvel argument

Si vous évaluez quel stockage vous convient pour les charges de travail IA — la décision entre Storage Scale et Ceph que nous avons traitée la semaine dernière — CAS fait pencher la balance. C'est une fonctionnalité qui n'existe que dans l'écosystème Storage Scale / Fusion et qui n'a pas d'équivalent direct dans Ceph ni dans aucun autre système de fichiers distribué aujourd'hui.

05 · Périmètre

Quand CAS a-t-il du sens par rapport à un pipeline RAG artisanal ?

CAS nécessite IBM Fusion sur OpenShift. Ce n'est pas un composant que vous branchez sur n'importe quelle infrastructure. Si votre RAG fonctionne bien avec Docling + Milvus + un cron, vous n'avez pas besoin de cela.

CAS a du sens lorsque plusieurs de ces conditions se combinent :

Volume important de documents non structurés qui changent fréquemment.
Exigences de contrôle d'accès granulaire — santé, banque, administration publique, juridique.
Infrastructure IBM existante ou en cours d'évaluation (Fusion, Storage Scale).
Besoin que l'index vectoriel soit toujours à jour sans intervention manuelle.
Souveraineté des données et conformité réglementaire européenne (RGPD, NIS2, EU AI Act).

Références techniques

From RAG to Real Research — Sandeep Zende, IBM Community

IBM Redbooks : AI Inference at Scale avec Storage Scale ECE et Fusion CAS

Documentation officielle IBM Fusion CAS

Architecture RAG on-premise

Besoin de dimensionner une architecture IA sur Fusion ?

Chez SIXE, nous travaillons avec IBM Fusion, Storage Scale et des pipelines RAG en production. Décrivez-nous votre cas d'usage et nous vous aidons à concevoir la solution.

Contacter SIXE +34 91 198 02 43

Pourquoi votre RAG répond avec les données du mois dernier

Pourquoi votre RAG répond avec les données du mois dernier.

Pourquoi les vecteurs d'un RAG deviennent-ils obsolètes ?

Qu'est-ce qu'IBM Fusion CAS et à quoi sert-il ?

Comment CAS traite-t-il les documents sans les sortir du stockage ?

On-premise parce qu'il n'y a pas d'alternative

Quand CAS a-t-il du sens par rapport à un pipeline RAG artisanal ?

Besoin de dimensionner une architecture IA sur Fusion ?

Blog!

Nous contacter

Partners

Notre mission