⚡ Formation Avancée

Ceph en Production Opérations | Cours

Quand un cluster de 200 TB tombe en panne à 3 h du matin, vous avez besoin de solutions — pas de théorie

3 JOURS

Intensif

100%

Pratique

RÉELS

Scénarios

🐧

Indépendant de la distribution

IBM Storage Ceph, Red Hat, Ubuntu, Rocky, Alma Linux, ou Ceph upstream

⚠️

3:00 DU MATIN

CLUSTER CRITIQUE

💥

Panne OSD

12 OSD hors service

📁

CephFS

Métadonnées corrompues

⚡

Performance

IOPS -80%

🔧

Récupération

Plan actif

🎯 Vous apprendrez à résoudre :

✓ Les pannes critiques dans des clusters de 200TB+

✓ La récupération d'un CephFS corrompu de 40TB

✓ Le réglage extrême pour l'IA/ML (500TB/jour)

✓ Le dépannage sous pression 24h/24 et 7j/7

👥 Pour qui est cette formation ?

Pour les administrateurs certifiés ou expérimentés en production, qui doivent maîtriser les scénarios critiques réels que les fournisseurs n’enseignent pas.

📚

Structure du Cours

Un programme intensif de 3 jours conçu pour gérer les crises réelles et optimiser les clusters de production à l'échelle du pétaoctet

Ingénierie des Performances Avancée & Forensic

De l'architecture au dépannage forensic en production

☀️

Matin : Optimisation Architecturale

• Internes de BlueStore : réglage de RocksDB, compaction, amplification en écriture
• Optimisation CPU : impact des C-states (TP montrant une dégradation de 5x), NUMA
• Réseau : modèles 100GbE, réglage TCP, nf_conntrack
• Spécifique NVMe : réglage reactor, optimisation bdevs_per_cluster

🌅

Après-midi : Dépannage Forensic

• Chaine d'outils de diagnostic : blktrace, perf, objectstore-tool
• Études de cas réels : dégradation NVMe, OSD instables post-mise à jour
• Cycle de vie avancé des PG : états bloqués, intervention manuelle
• TP : Cluster avec des problèmes réels à diagnostiquer

Reprise d'Activité, Multi-Site et Montée en Charge Pétaoctet

Récupération extrême et architectures multi-sites

☀️

Matin : Reprise d'Activité Avancée

• Cas d'Édimbourg 40TB : chaîne d'erreur complète et procédures de récupération
• Désastres CephFS : corruption des métadonnées, gestion des pannes MDS
• Mirroring RBD : par pool vs par image, automatisation du basculement
• RA physique : extraction de disque, journal, préservation whoami

🌅

Après-midi : Multi-Site & Pétaoctets

• RGW multisite : panne de la zone maître, promotion manuelle, équité de synchronisation
• Planification WAN : formules pour 1 GbE par 8TB d'ingest quotidien
• Défis Pétaoctet : CERN 30PB (7 200 OSD), 310M d'objets
• TP : Simulation de basculement et récupération multi-site

Sécurité, Charges de Travail IA/ML & Ingénierie des Coûts

Sécurité entreprise et optimisation pour les charges de travail modernes

🔒

Matin : Renforcement de la Sécurité

• Chiffrement : OSDs LUKS/dmcrypt, msgr2 sécurisé, RGW SSE-S3/KMS
• Gestion des clés : rotation (Squid 19.2.3+), intégration Barbican
• Conformité : architecture HIPAA, GDPR, journalisation d'audit
• Détection de menaces : modèles de monitoring, gestion des vulnérabilités

🤖

Après-midi : IA/ML & Ingénierie du ROI

• S3 Select : intégration Trino (performance 2.5x-9x), analytique pushdown
• Modèles IA/ML : checkpointing, optimisation d'accès parallèle
• Analyse TCO : efficacité EC, économies sur matériel standard
• Architectures hybrides : OpenStack DCN, edge-to-core, multi-cloud

🧪

Spécifications des TP

Infrastructure cloud d'entreprise réaliste

🖥️ Infrastructure

• Vrai cluster de 5-6 nœuds
• 500GB+ de données pré-chargées par étudiant
• Accès 24/7 pendant 7+ jours après le cours

⚠️ Scénarios Réels

• Pannes de disque & partitions réseau
• Corruption de métadonnées simulée
• Dégradation de performance injectée

🔧 Outils

• blktrace, perf, objectstore-tool
• Symboles de débogage pré-installés
• Jeux de données réels avec patterns d'I/O

🐧 Distributions et Versions Supportées

Distributions disponibles :

✓ Rocky Linux 9
✓ Ubuntu 24.04 LTS
✓ Red Hat Enterprise Linux

Versions de Ceph :

✓ Upstream Squid 19.2+
✓ IBM Storage Ceph 7.1
✓ Red Hat Ceph Storage 7.x

📅

Prochaines Sessions

Formation intensive de 3 jours conçue pour petits groupes (maximum 10 participants)

pour maximiser l'interaction et le dépannage collaboratif

🏢

Présentiel

Dans nos locaux avec accès complet aux laboratoires et équipements spécialisés

Expérience Pratique

🚀

In-Company

Dans votre organisation pour équipes de 4+ personnes avec configuration personnalisée

Formation Équipe

🌐

Distanciel

Avec laboratoire cloud dédié et accès complet aux ressources de pratique en temps réel

Accès Cloud

💪

Prêt à gérer les scénarios critiques en toute confiance ?

Demandez les prochaines dates et le programme détaillé ⚡ Réponse garantie sous 24 heures

Ou appelez-nous directement pour répondre à vos questions

📞

+34 91 198 02 43

📧 Support par email

💬 Chat en direct

📅 Planning flexible