LLM open-source en avril 2026 : panorama et observations
Changelog
2026-04-07 : précisions sur la gamme Nemotron de NVIDIA. Nemotron Nano 9B v2 est déjà cité dans la section reasoning (mode
/think), et Nemotron 3 Nano dans la section contexte long (86.3% RULER à 1M). Je précise ici que la gamme compte aussi Nemotron 3 Super (120B MoE, serveur multi-GPU) et Llama-Nemotron-Super-49B (dense, dérivé de Llama 3.3 avec les limitations EU associées). Plus largement, le dépôt open-weight-models contient une liste plus complète que cet article (theorem provers, GUI agents, search agents, tool calling, spécialistes Rust, etc.).
Je construis herbert-rs, un moteur d'inférence LLM local en Rust et assembleur. Pour décider quels modèles supporter, j'ai passé plusieurs semaines à analyser les modèles de langage open-source disponibles aujourd'hui. Pas tous les modèles : ceux qui sont exploitables commercialement en Europe, de moins de 200 milliards de paramètres, et sortis après avril 2024.
Cet article est un instantané. Les modèles évoluent vite. Les benchmarks aussi. Mais les tendances de fond bougent moins, et c'est surtout elles qui m'intéressent ici.
Critères de sélection
Trois filtres simples :
- Licence exploitable commercialement, sans restriction géographique (EU ok)
- Taille < 200B paramètres totaux
- Moins de 2 ans (sortie après avril 2024)
Ça élimine Llama 4 (exclusion EU), Qwen 3.6 Plus (closed-source), DeepSeek V3/R1 complets (671B), et quelques autres. Les raisons sont détaillées en fin d'article.
Les généralistes
Les modèles qui font un peu de tout : raisonnement, code, instruction following, multilingue.
| Modèle | Éditeur | Actifs | Total | Architecture | Ctx | Licence |
|---|---|---|---|---|---|---|
| Gemma 4 31B | 31B | 31B | Dense | 256K | Apache 2.0 | |
| Qwen3.5-27B | Alibaba | 27B | 27B | Dense | 128K | Apache 2.0 |
| Qwen3.5-9B | Alibaba | 9B | 9B | Dense | 128K | Apache 2.0 |
| Qwen3.5-122B-A10B | Alibaba | 10B | 122B | MoE | 256K | Apache 2.0 |
| GPT-OSS-120B | OpenAI | 5.1B | 117B | MoE | 128K | Apache 2.0 |
| GPT-OSS-20B | OpenAI | 3.6B | 21B | MoE | 128K | Apache 2.0 |
| Mistral Small 4 | Mistral | 6B | 119B | MoE | 256K | Apache 2.0 |
| GLM-4.5-Air | Zhipu AI | 12B | 106B | MoE | 128K | MIT |
| Llama 3.3 70B | Meta | 70B | 70B | Dense | 128K | Llama Community (EU OK) |
| InternVL3-78B | Shanghai AI Lab | 78B | 78B | Dense | -- | Apache 2.0 |
Raisonnement (GPQA Diamond)
Ce benchmark est le plus discriminant : 198 questions de niveau doctorat, impossibles à résoudre par simple recherche.
| Modèle | GPQA Diamond | Actifs |
|---|---|---|
| Gemini 3.1 Pro (closed) | 94.3 | -- |
| GPT-5.4 (closed) | 92.8 | -- |
| Claude Opus 4.6 (closed) | 91.3 | -- |
| Gemma 4 31B | 84.3 | 31B |
| Qwen3.5-9B | 81.7 | 9B |
| GPT-OSS-120B | 80.9 | 5.1B |
| GLM-4.5-Air | 75.0 | 12B |
| Mistral Small 4 | 71.2 | 6B |
| Llama 3.3 70B | 50.5 | 70B |
Qwen3.5-9B à 81.7 avec seulement 9 milliards de paramètres. C'est le chiffre le plus surprenant de cette revue.
Le code
| Modèle | SWE-bench | Codeforces | Actifs | Licence |
|---|---|---|---|---|
| Claude Opus 4.6 (closed) | 80.8% | -- | -- | -- |
| Gemini 3.1 Pro (closed) | 80.6% | -- | -- | -- |
| GPT-5.4 (closed) | ~80% | -- | -- | -- |
| Step-3.5-Flash | 74.4% | -- | 11B | Apache 2.0 |
| Devstral Small 2 | 68.0% | -- | 24B | Apache 2.0 |
| GPT-OSS-120B | 62.4% | 2622 | 5.1B | Apache 2.0 |
| Gemma 4 31B | -- | 2150 | 31B | Apache 2.0 |
SWE-bench mesure la capacité à corriger des bugs réels dans des codebases existantes. Codeforces mesure l'algorithmique pure. Ce ne sont pas les mêmes compétences : GPT-OSS-120B domine en compétition (ELO 2622) mais se fait battre en bugs réels par Step-3.5-Flash (74.4% vs 62.4%).
Le raisonnement spécialisé
| Modèle | Spécialité | Score clé | Actifs | Licence |
|---|---|---|---|---|
| QwQ-32B | Reasoning RL | AIME ~80% | 32B | Apache 2.0 |
| DeepSeek R1-Distill-32B | Reasoning distillé | bat o1-mini | 32B | MIT |
| Nemotron Nano 9B v2 | Math + contrôle /think | MATH-500 97.8% | 9B | Nemotron OML |
Nemotron Nano 9B v2 a une particularité intéressante : le mode /think et /no_think permet de contrôler le budget de réflexion par requête. Un agent peut réfléchir longtemps sur un problème de math et répondre instantanément à une question simple. C'est une feature de production, pas un gadget.
Les compacts (< 8 GB)
Pour le edge, le mobile, ou le laptop avec peu de RAM.
| Modèle | Actifs | VRAM Q4 | Force | Licence |
|---|---|---|---|---|
| SmolLM3-3B | 3B | ~2 GB | Meilleur 3B, AIME 36.7%, mode /think, 64K ctx | Apache 2.0 |
| SmolLM2-1.7B | 1.7B | ~1 GB | 11T tokens, data-centric | Apache 2.0 |
| SmolLM2-135M | 135M | < 1 GB | Ultra-compact, quelques Mo quantifié | Apache 2.0 |
| Gemma 4 E2B | 2.3B | ~4 GB | Multimodal + audio | Apache 2.0 |
| Gemma 4 E4B | 4.5B | ~6 GB | Multimodal + audio | Apache 2.0 |
| Phi-4 | 3.8B-14B | 2-8 GB | Math, trimodal (5.6B) | MIT |
| Ministral 3B/8B/14B | 3-14B | 2-8 GB | Vision + reasoning | Apache 2.0 |
| LFM2.5-1.2B | 1.2B | ~1 GB | IFBench 47.3 (2x Qwen3-1.7B), thinking mode, vision, audio | LFM Open v1.0 |
| Llama 3.2 1B/3B | 1-3B | < 2 GB | 128K ctx, edge/mobile, EU OK (text-only) | Llama Community |
| InternLM3-8B | 8B | ~5 GB | Thinking mode, 4T tokens (75% moins que la concurrence) | Apache 2.0 |
| InternVL3-1B→38B | 1-38B | 1-20 GB | Vision SOTA, gamme complète edge→serveur | Apache 2.0 |
SmolLM3-3B de HuggingFace bat tous les autres 3B et rivalise avec des 4B. L'approche data-centric de SmolLM2 montre que la qualité des données compte plus que la taille : le 1.7B entraîné sur 11T tokens bat des modèles plus gros entraînés sur moins de données.
Ministral 14B à 85% sur AIME 2025 pour un modèle dense de 14B, c'est remarquable. Et il tient dans 8 GB en Q4.
Le contexte long et les architectures alternatives
| Modèle | Ctx max | RULER 1M | Architecture | Actifs | Licence |
|---|---|---|---|---|---|
| Nemotron 3 Nano | 1M | 86.3% | Mamba/MoE | 3.5B | Nemotron OML |
| Granite 4.0 | -- | -- | 90% Mamba-2 / 10% Attention | 3-9B | Apache 2.0 |
| LFM2/2.5 | 32K | -- | Convolutions + attention groupée | 2.3B | LFM Open v1.0 |
Nemotron 3 Nano est le champion du contexte long : 86.3% sur RULER à 1 million de tokens, avec seulement 3.5B de paramètres actifs. L'architecture Mamba a un avantage structurel sur les Transformers purs ici (complexité linéaire vs quadratique).
Mais attention : beaucoup de modèles annoncent "1M de contexte" sans publier de score RULER à cette longueur. Sans mesure, c'est du marketing.
Observations
Ce qui suit n'est pas une liste de vérités définitives. Ce sont des patterns que j'ai observés en analysant ces modèles. Ils méritent d'être vérifiés dans le temps.
Le dense recule au-dessus de 35B, mais ne meurt pas
Pour les généralistes au-dessus de 35B, le MoE (Mixture of Experts) domine clairement : GPT-OSS-120B, Mistral Small 4, Qwen3.5-122B-A10B, GLM-4.5-Air, Step-3.5-Flash, Nemotron 3 Super... tous MoE. Le rapport qualité/compute est devenu trop favorable. Mais le dense résiste là où il a un avantage structurel : Llama 3.3 70B (généraliste, MMLU 86.0), InternVL3-78B (vision, MMMU 72.2), Kimina-Prover-72B (theorem proving), Qwen 2.5-72B (NLP de production), DeepSeek R1-Distill-70B (reasoning distillé). Le dense devient un choix de spécialisation, plus le défaut.
Le nombre de paramètres n'est plus le facteur déterminant
Qwen3.5-9B (9B) bat GPT-OSS-120B (5.1B actifs, 117B total) sur GPQA Diamond. L'architecture, la méthode d'entraînement (distillation + RL multi-agent), et la qualité des données comptent plus que la taille brute.
Qwen est devenu la base modèle de facto
BFS-Prover (base Qwen2.5-32B), Goedel-Prover (base Qwen3-32B), Kimina-Prover (base Qwen2.5-72B), la plupart des distillés communautaires : tout repose sur Qwen. C'est l'équivalent de ce que ResNet était pour le transfer learning en vision il y a dix ans.
InternVL3 est le meilleur VLM open-source qu'on ignorait
InternVL3-78B (Shanghai AI Lab) atteint 72.2 sur MMMU — au niveau de GPT-4o — sous Apache 2.0. Avec une gamme de 1B à 78B, c'est le concurrent direct de Gemma 4 pour le multimodal. Et InternLM3-8B prouve qu'on peut faire SOTA avec 75% moins de tokens d'entraînement (4T au lieu de 15-18T). Le labo est moins médiatisé qu'Alibaba, mais les résultats parlent.
Le segment 40-79B est le refuge du dense
La tendance MoE fait que les nouveaux modèles sautent souvent de ~35B directement à ~120B total. Mais le segment 40-79B reste bien occupé par des modèles dense de qualité : Llama 3.3 70B (déc 2024), InternVL3-78B (avr 2025), Kimina-Prover-72B (avr 2025), Qwen 2.5-72B, R1-Distill-70B, Jamba 1.6 Mini 52B. C'est le segment où le dense résiste, et où on trouve à la fois des généralistes solides et des spécialisés (vision, theorem proving, math).
Step-3.5-Flash est le couteau suisse
Il apparaît dans 4 catégories (code, généraliste, agents, vitesse) : SWE-bench 74.4%, 350 tok/s, et des scores d'agent parmi les meilleurs. Si tu ne devais en déployer qu'un seul sur un serveur multi-GPU, c'est probablement le plus polyvalent.
GPT-OSS-120B a le meilleur ratio actifs/performance
5.1B de paramètres actifs pour un ELO Codeforces de 2622 et 96.6% sur AIME. C'est le modèle le plus efficient du paysage pour le coding et les maths.
Licences : le point à ne pas négliger
La plupart des modèles listés ici sont sous Apache 2.0 : usage commercial libre, pas de restriction géographique, patent grant inclus, licence irrévocable. C'est la même licence que TensorFlow ou Kubernetes.
Quelques exceptions notables :
| Licence | Modèles | Statut |
|---|---|---|
| Apache 2.0 | Gemma 4, Qwen 3/3.5, GPT-OSS, Ministral, Step-3.5-Flash | Exploitable partout |
| MIT | GLM-4.5-Air, DeepSeek R1-Distill, Phi-4 | Exploitable partout |
| Nemotron OML | Nemotron 3 Nano/Super | Exploitable (custom, royalty-free, pas OSI) |
| Llama Community | Llama 3.3 70B, Llama 3.2 1B/3B (text-only) | EU OK (seuil 700M MAU) |
| LFM Open v1.0 | LFM2, LFM2.5 | Exploitable < $10M revenu |
Gemma 4 sous Apache 2.0 est un tournant. Google passait jusque-là par une licence custom restrictive (Gemma Terms of Use). Le passage à Apache 2.0 aligne Gemma avec le reste de l'écosystème open-source.
Modèles rejetés
- Llama 4 / Llama 3.2 Vision (Meta) : la licence exclut les entités domiciliées dans l'UE pour les modèles multimodaux. Les modèles text-only (Llama 3.3 70B, Llama 3.2 1B/3B) sont en revanche exploitables en EU.
- Qwen 3.6 Plus (Alibaba) : closed-source, API-only. Un recul par rapport aux Qwen 3/3.5 qui étaient sous Apache 2.0.
- DeepSeek V3/R1 complets (671B) : au-dessus du seuil de 200B.
Comment choisir
| Contrainte | Recommandation |
|---|---|
| Smartphone / edge (< 4 GB) | Gemma 4 E2B, Phi-4-mini, Ministral 3B, LFM2.5-1.2B, Llama 3.2 1B/3B |
| Laptop 16 GB | GPT-OSS-20B, Ministral 14B, Gemma 4 26B-A4B |
| Desktop 24 GB | Gemma 4 31B, DeepSeek R1-Distill-32B, Devstral Small 2 |
| Desktop 48+ GB (dense 70B) | Llama 3.3 70B (MMLU 86.0, HumanEval 88.4, EU OK) |
| Serveur single-GPU | GPT-OSS-120B |
| Serveur multi-GPU | Step-3.5-Flash, Nemotron 3 Super, Qwen3.5-122B |
| Contexte long (> 256K) | Nemotron 3 Nano |
| Math | Nemotron Nano 9B v2 (avec /think), GPT-OSS-120B |
| Code (bugs réels) | Step-3.5-Flash, Devstral Small 2 |
| Multilingue (> 100 langues) | Qwen 3.5 (201 langues), Qwen 3 (119 langues) |
Et ensuite
Ce panorama couvre les LLM texte. D'autres articles suivront sur les modèles spécialisés : embedding et retrieval, reconnaissance vocale, synthèse vocale, génération d'images, theorem provers (Lean 4), et GUI agents.
Les données de cet article proviennent d'une revue systématique de plus de 60 modèles, avec vérification des benchmarks et des licences sur les sources primaires (papiers, HuggingFace, dépôts officiels). La référence publique des 71 benchmarks (avec liens vers les papers, datasets et leaderboards) est disponible sur github.com/xigh/open-weight-models.
Si vous voyez une erreur ou un modèle manquant, contactez-moi.