Liquid AI LFM2.5 sur IBM Power9 AIX : 27 tokens/s sans GPU

Oublions un instant les clusters de H100. Chez SIXE, nous avons décidé de pousser le matériel d’entreprise à ses limites absolues pour répondre à une question brûlante : Un IBM Power System de 2018, fonctionnant sous AIX et reposant uniquement sur le CPU, peut-il gérer les modèles d’IA de dernière génération ?

Nous avons pris le nouveau modèle LFM2.5-1.2B de Liquid AI et l’avons exécuté sur un processeur IBM POWER9. À notre connaissance, c’est la première fois qu’un modèle LFM2.5 fonctionne sous AIX en mode Big-Endian.

Le résultat

Près de 27 tokens par seconde, des réponses cohérentes et moins de 750 Mo d’utilisation mémoire. Pas de GPU. Pas de NPU. Juste la puissance brute de l’architecture Power.

Le matériel : IBM Power System S924

Nous avons utilisé le cheval de bataille du monde de l’entreprise. Voici les configurations spécifiques utilisées pour ce benchmark :

SpécificationValeur
ServeurIBM Power System S924
ProcesseurIBM POWER9 @ 2.75 GHz
Système d’exploitationAIX 7.3 TL4
ArchitectureBig-Endian

Performance : trouver le point optimal

Nous avons découvert que mobiliser tous les cœurs sur le modèle nuit en réalité aux performances en raison de la surcharge de synchronisation. Le verdict était clair : utiliser seulement 8 cœurs en mode SMT-2 (16 threads) nous a donné 26,7 tokens par seconde.

Cette efficacité est possible car LFM2.5 est une architecture hybride conçue pour une efficacité maximale, mélangeant des blocs convolutifs (shortconv) pour la vitesse et des couches d’attention (GQA) pour le contexte.


Test en conditions réelles : le défi de l’administrateur système

Les chiffres c’est bien, mais est-ce que ça fonctionne vraiment ? Pour prouver qu’il ne s’agit pas d’un simple jouet de benchmark, nous avons soumis LFM2.5 à de vraies tâches d’administration AIX et l’avons comparé à un Transformer standard (TinyLlama 1.1B).

Round 1 : L’erreur cryptique (errpt)

Nous avons fourni aux modèles un log d’erreur AIX brut concernant une défaillance d’alimentation.

❌ TinyLlama 1.1B : Échec. Il s’est bloqué dans une boucle infinie répétant “PWRSPLY”.

✅ LFM2.5 1.2B : Réussite. Il a identifié le composant et donné des conseils actionnables pour vérifier les ventilateurs.

Round 2 : L’audit de sécurité (last)

Nous avons fourni un historique de connexions contenant un événement de crash caché.

❌ TinyLlama 1.1B : Échec. Silence absolu ; il a généré un token et s’est arrêté.

✅ LFM2.5 1.2B : Réussite. Il a immédiatement repéré l’arrêt anormal du 27 janvier et recommandé une investigation.

Round 3 : Le conseil dangereux (/etc/passwd)

Nous avons demandé aux modèles d’auditer un fichier de mots de passe standard. Les résultats ici ont été choquants.

❌ TinyLlama 1.1B : ÉCHEC CATASTROPHIQUE. Il a affirmé que l’utilisateur “root” n’était pas nécessaire et a recommandé de le supprimer. Suivre ce conseil détruirait le serveur.

✅ LFM2.5 1.2B : Réussite. Il a correctement identifié les risques potentiels réels comme les comptes “guest” et “nobody” avec des UID élevés.

Round 4 : Durcissement des services (lssrc -a)

Nous avons demandé aux modèles de passer en revue les services en cours d’exécution et de recommander des étapes de durcissement.

❌ TinyLlama 1.1B : Échec. Silence à nouveau.

✅ LFM2.5 1.2B : Réussite. Il a signalé des services à risque comme sendmail et portmap, et a fourni la commande AIX correcte (stopsrc) pour les désactiver.

Pourquoi c’est important pour les utilisateurs d’IBM Power

Ce benchmark prouve que les IBM Power Systems sont des moteurs d’inférence IA capables pour des tâches critiques sur site :

Souveraineté des données : Analysez les logs errpt sensibles, les données financières ou les audits d’utilisateurs localement. Aucune donnée ne quitte votre serveur.

Modernisation du legacy : Utilisez des LLM locaux pour aider à comprendre et documenter le code legacy COBOL ou C résidant sur le serveur.

Efficacité : Vous n’avez pas besoin d’un cluster de GPU. Vous possédez probablement déjà le matériel capable de faire cela.

Essayez-le vous-même

Nous croyons en l’open source. Nous avons publié le port AIX et les modèles convertis en Big-Endian.

Code : gitlab.com/librepower/llama-aix

Modèles : huggingface.co/librepowerai

# Démarrage rapide sur AIX
git clone https://gitlab.com/librepower/llama-aix.git
./scripts/build_aix_73.sh

# Optimiser le threading pour le "point optimal"
smtctl -t 2 -w now
SIXE