MXFP4 : révolution ou évolution ?

Avec la sortie des modèles Open Source d'OpenAI GPT/OSS en 20B et 120B paramètres, beaucoup ont parlé du format MXFP4.

Pourtant, plusieurs d'entre nous ont été surpris par l'efficacité avec laquelle ce format est traité, même sur des machines sans hardware dédié.

Pourquoi ca marche aussi bien sur un MacStudio ?

Qu'est-ce que le MXFP4 ? C'est une représentation informatique d'un nombre à virgule, optimisée pour minimiser l'espace mémoire utilisé.

Petit rappel : la clé de performance d'un LLM, c'est la vitesse d'accès à la mémoire.

Or, les GPUs grand public haut de gamme ne disposent que de 16 à 24 GB de mémoire, ce qui constitue un goulet d'étranglement pour faire tourner un modèle de 20 milliards de paramètres. Il faut donc compresser, optimiser...

Ce format est présenté comme une "compression sans perte de qualité" pour les modèles GPT-OSS et pour l'instant, seule Nvidia propose du hardware capable de l'exploiter nativement.

L'implémentation logicielle

Pourtant, grâce à une solution logicielle, ces modèles tournent parfaitement sur des machines sans cette fonctionnalité matérielle. Voir la discussion sur llama.cpp.

Côté qualité, aucun impact. La question concerne les performances.

Les benchmarks sur MacStudio ou Nvidia RTX 4080 sont très encourageants. Mais qu'en est-il sur des GPU plus récents, avec l'architecture Blackwell ? En l'état, difficile de trancher.

Le vrai facteur limitant

Si on observe un gain significatif en vitesse avec le hardware dédié, alors le hardware est vraiment le facteur clé. Sinon, MXFP4 reste un bon format, mais pas forcément une révolution.

Ce qui est en revanche une avancée claire, c'est que ce type de format de nombres est de plus en plus utilisé. Cela confirme une intuition : le facteur limitant, ce n'est pas la puissance de calcul brute, mais bien l'accès à la mémoire.