LLM open-source en avril 2026 : panorama et observations

Changelog

2026-04-07 : précisions sur la gamme Nemotron de NVIDIA. Nemotron Nano 9B v2 est déjà cité dans la section reasoning (mode /think), et Nemotron 3 Nano dans la section contexte long (86.3% RULER à 1M). Je précise ici que la gamme compte aussi Nemotron 3 Super (120B MoE, serveur multi-GPU) et Llama-Nemotron-Super-49B (dense, dérivé de Llama 3.3 avec les limitations EU associées). Plus largement, le dépôt open-weight-models contient une liste plus complète que cet article (theorem provers, GUI agents, search agents, tool calling, spécialistes Rust, etc.).

Je construis herbert-rs, un moteur d'inférence LLM local en Rust et assembleur. Pour décider quels modèles supporter, j'ai passé plusieurs semaines à analyser les modèles de langage open-source disponibles aujourd'hui. Pas tous les modèles : ceux qui sont exploitables commercialement en Europe, de moins de 200 milliards de paramètres, et sortis après avril 2024.

Cet article est un instantané. Les modèles évoluent vite. Les benchmarks aussi. Mais les tendances de fond bougent moins, et c'est surtout elles qui m'intéressent ici.

Critères de sélection

Trois filtres simples :

  1. Licence exploitable commercialement, sans restriction géographique (EU ok)
  2. Taille < 200B paramètres totaux
  3. Moins de 2 ans (sortie après avril 2024)

Ça élimine Llama 4 (exclusion EU), Qwen 3.6 Plus (closed-source), DeepSeek V3/R1 complets (671B), et quelques autres. Les raisons sont détaillées en fin d'article.


Les généralistes

Les modèles qui font un peu de tout : raisonnement, code, instruction following, multilingue.

ModèleÉditeurActifsTotalArchitectureCtxLicence
Gemma 4 31BGoogle31B31BDense256KApache 2.0
Qwen3.5-27BAlibaba27B27BDense128KApache 2.0
Qwen3.5-9BAlibaba9B9BDense128KApache 2.0
Qwen3.5-122B-A10BAlibaba10B122BMoE256KApache 2.0
GPT-OSS-120BOpenAI5.1B117BMoE128KApache 2.0
GPT-OSS-20BOpenAI3.6B21BMoE128KApache 2.0
Mistral Small 4Mistral6B119BMoE256KApache 2.0
GLM-4.5-AirZhipu AI12B106BMoE128KMIT
Llama 3.3 70BMeta70B70BDense128KLlama Community (EU OK)
InternVL3-78BShanghai AI Lab78B78BDense--Apache 2.0

Raisonnement (GPQA Diamond)

Ce benchmark est le plus discriminant : 198 questions de niveau doctorat, impossibles à résoudre par simple recherche.

ModèleGPQA DiamondActifs
Gemini 3.1 Pro (closed)94.3--
GPT-5.4 (closed)92.8--
Claude Opus 4.6 (closed)91.3--
Gemma 4 31B84.331B
Qwen3.5-9B81.79B
GPT-OSS-120B80.95.1B
GLM-4.5-Air75.012B
Mistral Small 471.26B
Llama 3.3 70B50.570B

Qwen3.5-9B à 81.7 avec seulement 9 milliards de paramètres. C'est le chiffre le plus surprenant de cette revue.


Le code

ModèleSWE-benchCodeforcesActifsLicence
Claude Opus 4.6 (closed)80.8%------
Gemini 3.1 Pro (closed)80.6%------
GPT-5.4 (closed)~80%------
Step-3.5-Flash74.4%--11BApache 2.0
Devstral Small 268.0%--24BApache 2.0
GPT-OSS-120B62.4%26225.1BApache 2.0
Gemma 4 31B--215031BApache 2.0

SWE-bench mesure la capacité à corriger des bugs réels dans des codebases existantes. Codeforces mesure l'algorithmique pure. Ce ne sont pas les mêmes compétences : GPT-OSS-120B domine en compétition (ELO 2622) mais se fait battre en bugs réels par Step-3.5-Flash (74.4% vs 62.4%).


Le raisonnement spécialisé

ModèleSpécialitéScore cléActifsLicence
QwQ-32BReasoning RLAIME ~80%32BApache 2.0
DeepSeek R1-Distill-32BReasoning distillébat o1-mini32BMIT
Nemotron Nano 9B v2Math + contrôle /thinkMATH-500 97.8%9BNemotron OML

Nemotron Nano 9B v2 a une particularité intéressante : le mode /think et /no_think permet de contrôler le budget de réflexion par requête. Un agent peut réfléchir longtemps sur un problème de math et répondre instantanément à une question simple. C'est une feature de production, pas un gadget.


Les compacts (< 8 GB)

Pour le edge, le mobile, ou le laptop avec peu de RAM.

ModèleActifsVRAM Q4ForceLicence
SmolLM3-3B3B~2 GBMeilleur 3B, AIME 36.7%, mode /think, 64K ctxApache 2.0
SmolLM2-1.7B1.7B~1 GB11T tokens, data-centricApache 2.0
SmolLM2-135M135M< 1 GBUltra-compact, quelques Mo quantifiéApache 2.0
Gemma 4 E2B2.3B~4 GBMultimodal + audioApache 2.0
Gemma 4 E4B4.5B~6 GBMultimodal + audioApache 2.0
Phi-43.8B-14B2-8 GBMath, trimodal (5.6B)MIT
Ministral 3B/8B/14B3-14B2-8 GBVision + reasoningApache 2.0
LFM2.5-1.2B1.2B~1 GBIFBench 47.3 (2x Qwen3-1.7B), thinking mode, vision, audioLFM Open v1.0
Llama 3.2 1B/3B1-3B< 2 GB128K ctx, edge/mobile, EU OK (text-only)Llama Community
InternLM3-8B8B~5 GBThinking mode, 4T tokens (75% moins que la concurrence)Apache 2.0
InternVL3-1B→38B1-38B1-20 GBVision SOTA, gamme complète edge→serveurApache 2.0

SmolLM3-3B de HuggingFace bat tous les autres 3B et rivalise avec des 4B. L'approche data-centric de SmolLM2 montre que la qualité des données compte plus que la taille : le 1.7B entraîné sur 11T tokens bat des modèles plus gros entraînés sur moins de données.

Ministral 14B à 85% sur AIME 2025 pour un modèle dense de 14B, c'est remarquable. Et il tient dans 8 GB en Q4.


Le contexte long et les architectures alternatives

ModèleCtx maxRULER 1MArchitectureActifsLicence
Nemotron 3 Nano1M86.3%Mamba/MoE3.5BNemotron OML
Granite 4.0----90% Mamba-2 / 10% Attention3-9BApache 2.0
LFM2/2.532K--Convolutions + attention groupée2.3BLFM Open v1.0

Nemotron 3 Nano est le champion du contexte long : 86.3% sur RULER à 1 million de tokens, avec seulement 3.5B de paramètres actifs. L'architecture Mamba a un avantage structurel sur les Transformers purs ici (complexité linéaire vs quadratique).

Mais attention : beaucoup de modèles annoncent "1M de contexte" sans publier de score RULER à cette longueur. Sans mesure, c'est du marketing.


Observations

Ce qui suit n'est pas une liste de vérités définitives. Ce sont des patterns que j'ai observés en analysant ces modèles. Ils méritent d'être vérifiés dans le temps.

Le dense recule au-dessus de 35B, mais ne meurt pas

Pour les généralistes au-dessus de 35B, le MoE (Mixture of Experts) domine clairement : GPT-OSS-120B, Mistral Small 4, Qwen3.5-122B-A10B, GLM-4.5-Air, Step-3.5-Flash, Nemotron 3 Super... tous MoE. Le rapport qualité/compute est devenu trop favorable. Mais le dense résiste là où il a un avantage structurel : Llama 3.3 70B (généraliste, MMLU 86.0), InternVL3-78B (vision, MMMU 72.2), Kimina-Prover-72B (theorem proving), Qwen 2.5-72B (NLP de production), DeepSeek R1-Distill-70B (reasoning distillé). Le dense devient un choix de spécialisation, plus le défaut.

Le nombre de paramètres n'est plus le facteur déterminant

Qwen3.5-9B (9B) bat GPT-OSS-120B (5.1B actifs, 117B total) sur GPQA Diamond. L'architecture, la méthode d'entraînement (distillation + RL multi-agent), et la qualité des données comptent plus que la taille brute.

Qwen est devenu la base modèle de facto

BFS-Prover (base Qwen2.5-32B), Goedel-Prover (base Qwen3-32B), Kimina-Prover (base Qwen2.5-72B), la plupart des distillés communautaires : tout repose sur Qwen. C'est l'équivalent de ce que ResNet était pour le transfer learning en vision il y a dix ans.

InternVL3 est le meilleur VLM open-source qu'on ignorait

InternVL3-78B (Shanghai AI Lab) atteint 72.2 sur MMMU — au niveau de GPT-4o — sous Apache 2.0. Avec une gamme de 1B à 78B, c'est le concurrent direct de Gemma 4 pour le multimodal. Et InternLM3-8B prouve qu'on peut faire SOTA avec 75% moins de tokens d'entraînement (4T au lieu de 15-18T). Le labo est moins médiatisé qu'Alibaba, mais les résultats parlent.

Le segment 40-79B est le refuge du dense

La tendance MoE fait que les nouveaux modèles sautent souvent de ~35B directement à ~120B total. Mais le segment 40-79B reste bien occupé par des modèles dense de qualité : Llama 3.3 70B (déc 2024), InternVL3-78B (avr 2025), Kimina-Prover-72B (avr 2025), Qwen 2.5-72B, R1-Distill-70B, Jamba 1.6 Mini 52B. C'est le segment où le dense résiste, et où on trouve à la fois des généralistes solides et des spécialisés (vision, theorem proving, math).

Step-3.5-Flash est le couteau suisse

Il apparaît dans 4 catégories (code, généraliste, agents, vitesse) : SWE-bench 74.4%, 350 tok/s, et des scores d'agent parmi les meilleurs. Si tu ne devais en déployer qu'un seul sur un serveur multi-GPU, c'est probablement le plus polyvalent.

GPT-OSS-120B a le meilleur ratio actifs/performance

5.1B de paramètres actifs pour un ELO Codeforces de 2622 et 96.6% sur AIME. C'est le modèle le plus efficient du paysage pour le coding et les maths.


Licences : le point à ne pas négliger

La plupart des modèles listés ici sont sous Apache 2.0 : usage commercial libre, pas de restriction géographique, patent grant inclus, licence irrévocable. C'est la même licence que TensorFlow ou Kubernetes.

Quelques exceptions notables :

LicenceModèlesStatut
Apache 2.0Gemma 4, Qwen 3/3.5, GPT-OSS, Ministral, Step-3.5-FlashExploitable partout
MITGLM-4.5-Air, DeepSeek R1-Distill, Phi-4Exploitable partout
Nemotron OMLNemotron 3 Nano/SuperExploitable (custom, royalty-free, pas OSI)
Llama CommunityLlama 3.3 70B, Llama 3.2 1B/3B (text-only)EU OK (seuil 700M MAU)
LFM Open v1.0LFM2, LFM2.5Exploitable < $10M revenu

Gemma 4 sous Apache 2.0 est un tournant. Google passait jusque-là par une licence custom restrictive (Gemma Terms of Use). Le passage à Apache 2.0 aligne Gemma avec le reste de l'écosystème open-source.

Modèles rejetés


Comment choisir

ContrainteRecommandation
Smartphone / edge (< 4 GB)Gemma 4 E2B, Phi-4-mini, Ministral 3B, LFM2.5-1.2B, Llama 3.2 1B/3B
Laptop 16 GBGPT-OSS-20B, Ministral 14B, Gemma 4 26B-A4B
Desktop 24 GBGemma 4 31B, DeepSeek R1-Distill-32B, Devstral Small 2
Desktop 48+ GB (dense 70B)Llama 3.3 70B (MMLU 86.0, HumanEval 88.4, EU OK)
Serveur single-GPUGPT-OSS-120B
Serveur multi-GPUStep-3.5-Flash, Nemotron 3 Super, Qwen3.5-122B
Contexte long (> 256K)Nemotron 3 Nano
MathNemotron Nano 9B v2 (avec /think), GPT-OSS-120B
Code (bugs réels)Step-3.5-Flash, Devstral Small 2
Multilingue (> 100 langues)Qwen 3.5 (201 langues), Qwen 3 (119 langues)

Et ensuite

Ce panorama couvre les LLM texte. D'autres articles suivront sur les modèles spécialisés : embedding et retrieval, reconnaissance vocale, synthèse vocale, génération d'images, theorem provers (Lean 4), et GUI agents.

Les données de cet article proviennent d'une revue systématique de plus de 60 modèles, avec vérification des benchmarks et des licences sur les sources primaires (papiers, HuggingFace, dépôts officiels). La référence publique des 71 benchmarks (avec liens vers les papers, datasets et leaderboards) est disponible sur github.com/xigh/open-weight-models.


Si vous voyez une erreur ou un modèle manquant, contactez-moi.


Des questions sur cet article ou votre propre projet ? Réserver une consultation