Pourquoi votre RAG répond avec les données du mois dernier

RAG · IBM Fusion CAS

Pourquoi votre RAG répond avec les données du mois dernier.

Re-vectoriser des milliers de documents à chaque modification ne passe pas à l'échelle. IBM Fusion CAS intègre la vectorisation directement dans le stockage : les documents changent, les vecteurs se mettent à jour automatiquement.

7 min de lectureRAG · Stockage · Données non structurées

IBM Fusion CAS (Content Aware Storage) est une capacité intégrée à IBM Fusion qui vectorise, indexe et maintient à jour les documents directement dans la couche de stockage — sans déplacer de données ni reconstruire l'index vectoriel.

Si vous avez un pipeline RAG en production, vous avez probablement déjà rencontré ce problème : les documents changent, mais les vecteurs ne suivent pas. Le contrat a été amendé en mars, le chatbot répond encore avec la version de décembre. Ce n'est pas un défaut du modèle — c'est que personne n'a relancé l'ingestion. CAS résout exactement cela.

80–90%
Des données d'entreprise
sont non structurées
Source : IBM Redbooks
40%
Des prototypes IA
n'atteignent jamais la production
Qualité des données
0
Copies de données
nécessaires avec CAS
Ingestion zero-copy
01 · Le problème

Pourquoi les vecteurs d'un RAG deviennent-ils obsolètes ?

Entre 80 % et 90 % des données d'entreprise sont non structurées — PDF, documents scannés, tableurs, contrats, tickets de support. Dans un pipeline RAG classique, le flux pour les rendre accessibles à l'IA est : extraire les documents → les parser → générer des embeddings → les charger dans une base de données vectorielle → chercher quand une requête arrive. Ça fonctionne. Jusqu'à ce que les documents changent.

Manuels techniques versionnés, contrats avec avenants, rapports financiers trimestriels, tickets de support rouverts. À chaque modification, il faut relancer tout le pipeline. Avec des milliers de documents, cela implique des heures de GPU, un déplacement massif de données entre systèmes, et une équipe dédiée à surveiller le processus. Selon IBM, 40 % des prototypes d'IA n'atteignent jamais la production précisément à cause de problèmes de qualité et de disponibilité des données.

L'alternative habituelle : ne pas re-vectoriser. Et alors votre IA répond avec des informations vieilles de deux mois.

La faille de sécurité que personne ne voit

Dans la plupart des déploiements RAG, la vectorisation dilue les contrôles d'accès du document original. Le chatbot a accès à tout l'index vectoriel, et soudain un commercial peut extraire des informations financières auxquelles il ne devrait pas avoir accès parce que les ACL du fichier n'ont pas été propagées aux vecteurs. CAS résout ce problème : les vecteurs héritent des permissions du document source.

02 · La solution

Qu'est-ce qu'IBM Fusion CAS et à quoi sert-il ?

CAS (Content Aware Storage) est une capacité intégrée à IBM Fusion qui opère sur Storage Scale. Ce n'est pas un produit séparé. Le stockage passe d'un simple espace de conservation de bytes à un système qui comprend le contenu de chaque fichier : sa structure, sa sémantique et comment il a changé depuis son dernier traitement.

Architecture AI-Q Research Assistant avec IBM Fusion CAS — flux d'ingestion, vectorisation et requête RAG
Architecture AI-Q Research Assistant sur IBM Fusion — Source : IBM Community, Sandeep Zende
Capacité Pipeline RAG traditionnel IBM Fusion CAS
Déplacement de données
Copie vers système externe
Zero-copy sur place
Mise à jour des vecteurs
Ré-ingestion complète
Incrémentale automatique
Détection des changements
Manuel / cron
Temps réel
Contrôle d'accès sur vecteurs
Non propagé
ACL héritées
Accélération GPU
Inférence uniquement
Dès l'ingestion
Orchestration
Scripts + crons + files
Intégrée au stockage

Si vous utilisez déjà Docling (ou le portage de LibrePower pour IBM Power) avec Milvus et un LLM, vous n'avez pas besoin de CAS pour que cela fonctionne. Un déploiement avec quelques centaines de PDF qui changent peu se gère avec un pipeline orchestré et un cron. Le point de bascule arrive quand les documents se comptent par dizaines de milliers, changent quotidiennement et les contrôles d'accès sont critiques.

03 · Comment ça marche

Comment CAS traite-t-il les documents sans les sortir du stockage ?

Flux IBM Fusion CAS — ingestion et requête
📄
Un document arrive ou change dans Storage Scale PDF, scans, tableaux, contrats — CAS détecte l'événement automatiquement
Extraction et chunking sémantique accéléré par GPU OCR, reconnaissance de tableaux, analyse de layout — tout dans le stockage, sans copie
🧬
Génération d'embeddings avec NeMo Retriever Vectorisation sur GPU NVIDIA Blackwell — RTX PRO 6000, mise à l'échelle linéaire
🗄️
Indexation incrémentale dans la base vectorielle intégrée Seules les parties modifiées sont mises à jour — avec les ACL du document source héritées
🔁
Requête RAG : chercher → raisonner → affiner → répondre AI-Q Research Assistant : boucle itérative avec Nemotron + Llama-3, pas une réponse unique
↻ Boucle continue — les données sont automatiquement retraitées quand elles changent

La différence clé avec un pipeline conventionnel : il n'y a pas d'étape manuelle entre « le document a changé » et « l'index vectoriel reflète ce changement ». CAS comble cette lacune automatiquement, avec les GPU NVIDIA Blackwell qui accélèrent chaque phase — pas seulement l'inférence finale. Le débit d'ingestion et de requête évolue linéairement avec l'ajout de GPU NVIDIA RTX PRO 6000, selon les tests documentés dans le Redbook IBM sur la plateforme de données NVIDIA AI. Sur les benchmarks BEIR (le standard de l'industrie pour évaluer la recherche sémantique), CAS surpasse les systèmes de récupération d'information les plus avancés du marché.

04 · Déploiement

On-premise parce qu'il n'y a pas d'alternative

Toute l'architecture fonctionne on-premise. Ce n'est pas une préférence : si vos données sont soumises au RGPD, à l'EU AI Act, à la directive NIS2, à la réglementation bancaire de l'EBA ou aux exigences de données classifiées, les envoyer vers une API cloud pour les vectoriser n'est pas une option légale.

C'est la même philosophie que nous avons décrite en parlant de la construction d'une usine d'IA on-premise avec Ceph et Kubernetes, avec une différence : CAS intègre la préparation des données directement dans le stockage. Pas de cluster de traitement séparé à orchestrer, pas de files de messages entre le NAS et le pipeline, pas de buckets S3 temporaires.

Storage Scale vs Ceph : un nouvel argument

Si vous évaluez quel stockage vous convient pour les charges de travail IA — la décision entre Storage Scale et Ceph que nous avons traitée la semaine dernière — CAS fait pencher la balance. C'est une fonctionnalité qui n'existe que dans l'écosystème Storage Scale / Fusion et qui n'a pas d'équivalent direct dans Ceph ni dans aucun autre système de fichiers distribué aujourd'hui.

05 · Périmètre

Quand CAS a-t-il du sens par rapport à un pipeline RAG artisanal ?

CAS nécessite IBM Fusion sur OpenShift. Ce n'est pas un composant que vous branchez sur n'importe quelle infrastructure. Si votre RAG fonctionne bien avec Docling + Milvus + un cron, vous n'avez pas besoin de cela.

CAS a du sens lorsque plusieurs de ces conditions se combinent :

  • Volume important de documents non structurés qui changent fréquemment.
  • Exigences de contrôle d'accès granulaire — santé, banque, administration publique, juridique.
  • Infrastructure IBM existante ou en cours d'évaluation (Fusion, Storage Scale).
  • Besoin que l'index vectoriel soit toujours à jour sans intervention manuelle.
  • Souveraineté des données et conformité réglementaire européenne (RGPD, NIS2, EU AI Act).

Architecture RAG on-premise

Besoin de dimensionner une architecture IA sur Fusion ?

Chez SIXE, nous travaillons avec IBM Fusion, Storage Scale et des pipelines RAG en production. Décrivez-nous votre cas d'usage et nous vous aidons à concevoir la solution.

SIXE