⚡ Formation Avancée

Ceph en Production Opérations | Cours

Quand un cluster de 200 TB tombe en panne à 3 h du matin, vous avez besoin de solutions — pas de théorie

3 JOURS
Intensif
100%
Pratique
RÉELS
Scénarios
🐧

Indépendant de la distribution

IBM Storage Ceph, Red Hat, Ubuntu, Rocky, Alma Linux, ou Ceph upstream

⚠️

3:00 DU MATIN

CLUSTER CRITIQUE

💥

Panne OSD

12 OSD hors service

📁

CephFS

Métadonnées corrompues

Performance

IOPS -80%

🔧

Récupération

Plan actif

🎯 Vous apprendrez à résoudre :

Les pannes critiques dans des clusters de 200TB+
La récupération d'un CephFS corrompu de 40TB
Le réglage extrême pour l'IA/ML (500TB/jour)
Le dépannage sous pression 24h/24 et 7j/7

👥 Pour qui est cette formation ?

Pour les administrateurs certifiés ou expérimentés en production, qui doivent maîtriser les scénarios critiques réels que les fournisseurs n’enseignent pas.

📚

Structure du Cours

Un programme intensif de 3 jours conçu pour gérer les crises réelles et optimiser les clusters de production à l'échelle du pétaoctet

01

Ingénierie des Performances Avancée & Forensic

De l'architecture au dépannage forensic en production

☀️

Matin : Optimisation Architecturale

  • Internes de BlueStore : réglage de RocksDB, compaction, amplification en écriture
  • Optimisation CPU : impact des C-states (TP montrant une dégradation de 5x), NUMA
  • Réseau : modèles 100GbE, réglage TCP, nf_conntrack
  • Spécifique NVMe : réglage reactor, optimisation bdevs_per_cluster
🌅

Après-midi : Dépannage Forensic

  • Chaine d'outils de diagnostic : blktrace, perf, objectstore-tool
  • Études de cas réels : dégradation NVMe, OSD instables post-mise à jour
  • Cycle de vie avancé des PG : états bloqués, intervention manuelle
  • TP : Cluster avec des problèmes réels à diagnostiquer
02

Reprise d'Activité, Multi-Site et Montée en Charge Pétaoctet

Récupération extrême et architectures multi-sites

☀️

Matin : Reprise d'Activité Avancée

  • Cas d'Édimbourg 40TB : chaîne d'erreur complète et procédures de récupération
  • Désastres CephFS : corruption des métadonnées, gestion des pannes MDS
  • Mirroring RBD : par pool vs par image, automatisation du basculement
  • RA physique : extraction de disque, journal, préservation whoami
🌅

Après-midi : Multi-Site & Pétaoctets

  • RGW multisite : panne de la zone maître, promotion manuelle, équité de synchronisation
  • Planification WAN : formules pour 1 GbE par 8TB d'ingest quotidien
  • Défis Pétaoctet : CERN 30PB (7 200 OSD), 310M d'objets
  • TP : Simulation de basculement et récupération multi-site
03

Sécurité, Charges de Travail IA/ML & Ingénierie des Coûts

Sécurité entreprise et optimisation pour les charges de travail modernes

🔒

Matin : Renforcement de la Sécurité

  • Chiffrement : OSDs LUKS/dmcrypt, msgr2 sécurisé, RGW SSE-S3/KMS
  • Gestion des clés : rotation (Squid 19.2.3+), intégration Barbican
  • Conformité : architecture HIPAA, GDPR, journalisation d'audit
  • Détection de menaces : modèles de monitoring, gestion des vulnérabilités
🤖

Après-midi : IA/ML & Ingénierie du ROI

  • S3 Select : intégration Trino (performance 2.5x-9x), analytique pushdown
  • Modèles IA/ML : checkpointing, optimisation d'accès parallèle
  • Analyse TCO : efficacité EC, économies sur matériel standard
  • Architectures hybrides : OpenStack DCN, edge-to-core, multi-cloud
🧪

Spécifications des TP

Infrastructure cloud d'entreprise réaliste

🖥️ Infrastructure

  • Vrai cluster de 5-6 nœuds
  • 500GB+ de données pré-chargées par étudiant
  • Accès 24/7 pendant 7+ jours après le cours

⚠️ Scénarios Réels

  • Pannes de disque & partitions réseau
  • Corruption de métadonnées simulée
  • Dégradation de performance injectée

🔧 Outils

  • blktrace, perf, objectstore-tool
  • Symboles de débogage pré-installés
  • Jeux de données réels avec patterns d'I/O

🐧 Distributions et Versions Supportées

Distributions disponibles :

  • Rocky Linux 9
  • Ubuntu 24.04 LTS
  • Red Hat Enterprise Linux

Versions de Ceph :

  • Upstream Squid 19.2+
  • IBM Storage Ceph 7.1
  • Red Hat Ceph Storage 7.x
📅

Prochaines Sessions

Formation intensive de 3 jours conçue pour petits groupes (maximum 10 participants)

pour maximiser l'interaction et le dépannage collaboratif
🏢

Présentiel

Dans nos locaux avec accès complet aux laboratoires et équipements spécialisés

Expérience Pratique
🚀

In-Company

Dans votre organisation pour équipes de 4+ personnes avec configuration personnalisée

Formation Équipe
🌐

Distanciel

Avec laboratoire cloud dédié et accès complet aux ressources de pratique en temps réel

Accès Cloud
💪

Prêt à gérer les scénarios critiques en toute confiance ?

Demandez les prochaines dates et le programme détaillé Réponse garantie sous 24 heures

Ou appelez-nous directement pour répondre à vos questions

📧 Support par email
💬 Chat en direct
📅 Planning flexible

Formation technique au Ceph

Ceph Storage - La série de cours la plus complète du marché

Administration Ceph

Administration Ceph

Principes de base et déploiement

Voir le cours →
Ceph Advanced

Ceph avancé

Configuration avancée et EX260

Voir le cours →
Opérations de production Ceph

Opérations de production Ceph

Dépannage et DR

Tu es dans le cours →

Envoyez-nous un mail

FAQ

Foire aux questions

Ce n’est pas obligatoire, mais vous devez disposer de connaissances équivalentes. Ce cours suppose que vous maîtrisez : l’architecture Ceph (MON/OSD/MGR), la gestion des pools/PG/CRUSH, le dépannage de base, et que vous avez une expérience pratique de la gestion de clusters en production (2 ans ou plus, ou cours équivalents). Si vous avez suivi nos cours de base et avancé, vous êtes parfaitement préparé.

La certification n’est PAS obligatoire. Ce qui compte, c’est votre expérience pratique réelle. Si vous administrez Ceph en production depuis des années, avec ou sans services gérés, et que vous maîtrisez bien les concepts fondamentaux, cette formation est faite pour vous. En effet, bon nombre de nos meilleurs étudiants ne sont pas certifiés, mais ils nous soumettent des problèmes de production réels que nous résolvons ensemble.

Le cours avancé couvre le déploiement, la configuration avancée et la préparation à l’EX260. Ce troisième cours se concentre à 100 % sur les opérations critiques de production : dépannage approfondi lorsque tout échoue, reprise après sinistre RÉELLE (pas de simulations), ingénierie avancée des performances et scénarios multifacteurs complexes. Ils sont complémentaires : considérez le cours avancé comme « comment bien le configurer » et celui-ci comme « que faire en cas de défaillance grave ».

Ordinateur avec client SSH, navigateur web moderne et accès Internet stable. Le laboratoire complet fonctionne sur une infrastructure cloud d’entreprise : vous n’avez rien à installer localement. Nous recommandons 16 Go de RAM et un grand écran (ou deux écrans) pour gérer plusieurs terminaux et fenêtres simultanément pendant le dépannage.

Oui. Nous proposons trois modalités : (1) En présentiel dans nos locaux pour une interaction maximale, (2) Sur site dans votre organisation pour des équipes de 4 personnes ou plus, et (3) À distance avec un laboratoire cloud dédié. La modalité à distance comprend toutes les mêmes pratiques et un accès au laboratoire 24h/24 et 7j/7. Contactez-nous pour discuter de la modalité qui correspond le mieux à vos besoins.

Nous délivrons un certificat de fin de formation détaillant le contenu et le nombre d’heures suivies. Actuellement, nous ne proposons pas de certification propre, car le marché accorde encore plus d’importance à l’expérience démontrable et aux certifications des fournisseurs (EX260, etc.). Cependant, les compétences que vous acquérez ici sont vérifiables lors d’entretiens techniques et dans des situations réelles, ce qui est ce qui compte vraiment.

Les laboratoires sont conçus pour vous mettre au défi, pas pour vous frustrer. Nous travaillons en petits groupes avec le soutien direct du formateur. Si vous êtes bloqué, cela fait partie de l’apprentissage : nous analysons ensemble où vous avez échoué et pourquoi. L’objectif est que vous soyez prêt à affronter des situations réelles, pas que vous « réussissiez » des exercices académiques. Vous conservez l’accès au laboratoire pendant 7 jours après la fin du cours afin de pouvoir vous exercer à votre rythme.

SIXE