LLM open-source en avril 2026 : panorama et observations

Changelog

2026-04-07 : précisions sur la gamme Nemotron de NVIDIA. Nemotron Nano 9B v2 est déjà cité dans la section reasoning (mode /think), et Nemotron 3 Nano dans la section contexte long (86.3% RULER à 1M). Je précise ici que la gamme compte aussi Nemotron 3 Super (120B MoE, serveur multi-GPU) et Llama-Nemotron-Super-49B (dense, dérivé de Llama 3.3 avec les limitations EU associées). Plus largement, le dépôt open-weight-models contient une liste plus complète que cet article (theorem provers, GUI agents, search agents, tool calling, spécialistes Rust, etc.).

Je construis herbert-rs, un moteur d'inférence LLM local en Rust et assembleur. Pour décider quels modèles supporter, j'ai passé plusieurs semaines à analyser les modèles de langage open-source disponibles aujourd'hui. Pas tous les modèles : ceux qui sont exploitables commercialement en Europe, de moins de 200 milliards de paramètres, et sortis après avril 2024.

Cet article est un instantané. Les modèles évoluent vite. Les benchmarks aussi. Mais les tendances de fond bougent moins, et c'est surtout elles qui m'intéressent ici.

Critères de sélection

Trois filtres simples :

Licence exploitable commercialement, sans restriction géographique (EU ok)
Taille < 200B paramètres totaux
Moins de 2 ans (sortie après avril 2024)

Ça élimine Llama 4 (exclusion EU), Qwen 3.6 Plus (closed-source), DeepSeek V3/R1 complets (671B), et quelques autres. Les raisons sont détaillées en fin d'article.

Les généralistes

Les modèles qui font un peu de tout : raisonnement, code, instruction following, multilingue.

Modèle	Éditeur	Actifs	Total	Architecture	Ctx	Licence
Gemma 4 31B	Google	31B	31B	Dense	256K	Apache 2.0
Qwen3.5-27B	Alibaba	27B	27B	Dense	128K	Apache 2.0
Qwen3.5-9B	Alibaba	9B	9B	Dense	128K	Apache 2.0
Qwen3.5-122B-A10B	Alibaba	10B	122B	MoE	256K	Apache 2.0
GPT-OSS-120B	OpenAI	5.1B	117B	MoE	128K	Apache 2.0
GPT-OSS-20B	OpenAI	3.6B	21B	MoE	128K	Apache 2.0
Mistral Small 4	Mistral	6B	119B	MoE	256K	Apache 2.0
GLM-4.5-Air	Zhipu AI	12B	106B	MoE	128K	MIT
Llama 3.3 70B	Meta	70B	70B	Dense	128K	Llama Community (EU OK)
InternVL3-78B	Shanghai AI Lab	78B	78B	Dense	--	Apache 2.0

Raisonnement (GPQA Diamond)

Ce benchmark est le plus discriminant : 198 questions de niveau doctorat, impossibles à résoudre par simple recherche.

Modèle	GPQA Diamond	Actifs
Gemini 3.1 Pro (closed)	94.3	--
GPT-5.4 (closed)	92.8	--
Claude Opus 4.6 (closed)	91.3	--
Gemma 4 31B	84.3	31B
Qwen3.5-9B	81.7	9B
GPT-OSS-120B	80.9	5.1B
GLM-4.5-Air	75.0	12B
Mistral Small 4	71.2	6B
Llama 3.3 70B	50.5	70B

Qwen3.5-9B à 81.7 avec seulement 9 milliards de paramètres. C'est le chiffre le plus surprenant de cette revue.

Le code

Modèle	SWE-bench	Codeforces	Actifs	Licence
Claude Opus 4.6 (closed)	80.8%	--	--	--
Gemini 3.1 Pro (closed)	80.6%	--	--	--
GPT-5.4 (closed)	~80%	--	--	--
Step-3.5-Flash	74.4%	--	11B	Apache 2.0
Devstral Small 2	68.0%	--	24B	Apache 2.0
GPT-OSS-120B	62.4%	2622	5.1B	Apache 2.0
Gemma 4 31B	--	2150	31B	Apache 2.0

SWE-bench mesure la capacité à corriger des bugs réels dans des codebases existantes. Codeforces mesure l'algorithmique pure. Ce ne sont pas les mêmes compétences : GPT-OSS-120B domine en compétition (ELO 2622) mais se fait battre en bugs réels par Step-3.5-Flash (74.4% vs 62.4%).

Le raisonnement spécialisé

Modèle	Spécialité	Score clé	Actifs	Licence
QwQ-32B	Reasoning RL	AIME ~80%	32B	Apache 2.0
DeepSeek R1-Distill-32B	Reasoning distillé	bat o1-mini	32B	MIT
Nemotron Nano 9B v2	Math + contrôle /think	MATH-500 97.8%	9B	Nemotron OML

Nemotron Nano 9B v2 a une particularité intéressante : le mode /think et /no_think permet de contrôler le budget de réflexion par requête. Un agent peut réfléchir longtemps sur un problème de math et répondre instantanément à une question simple. C'est une feature de production, pas un gadget.

Les compacts (< 8 GB)

Pour le edge, le mobile, ou le laptop avec peu de RAM.

Modèle	Actifs	VRAM Q4	Force	Licence
SmolLM3-3B	3B	~2 GB	Meilleur 3B, AIME 36.7%, mode /think, 64K ctx	Apache 2.0
SmolLM2-1.7B	1.7B	~1 GB	11T tokens, data-centric	Apache 2.0
SmolLM2-135M	135M	< 1 GB	Ultra-compact, quelques Mo quantifié	Apache 2.0
Gemma 4 E2B	2.3B	~4 GB	Multimodal + audio	Apache 2.0
Gemma 4 E4B	4.5B	~6 GB	Multimodal + audio	Apache 2.0
Phi-4	3.8B-14B	2-8 GB	Math, trimodal (5.6B)	MIT
Ministral 3B/8B/14B	3-14B	2-8 GB	Vision + reasoning	Apache 2.0
LFM2.5-1.2B	1.2B	~1 GB	IFBench 47.3 (2x Qwen3-1.7B), thinking mode, vision, audio	LFM Open v1.0
Llama 3.2 1B/3B	1-3B	< 2 GB	128K ctx, edge/mobile, EU OK (text-only)	Llama Community
InternLM3-8B	8B	~5 GB	Thinking mode, 4T tokens (75% moins que la concurrence)	Apache 2.0
InternVL3-1B→38B	1-38B	1-20 GB	Vision SOTA, gamme complète edge→serveur	Apache 2.0

SmolLM3-3B de HuggingFace bat tous les autres 3B et rivalise avec des 4B. L'approche data-centric de SmolLM2 montre que la qualité des données compte plus que la taille : le 1.7B entraîné sur 11T tokens bat des modèles plus gros entraînés sur moins de données.

Ministral 14B à 85% sur AIME 2025 pour un modèle dense de 14B, c'est remarquable. Et il tient dans 8 GB en Q4.

Le contexte long et les architectures alternatives

Modèle	Ctx max	RULER 1M	Architecture	Actifs	Licence
Nemotron 3 Nano	1M	86.3%	Mamba/MoE	3.5B	Nemotron OML
Granite 4.0	--	--	90% Mamba-2 / 10% Attention	3-9B	Apache 2.0
LFM2/2.5	32K	--	Convolutions + attention groupée	2.3B	LFM Open v1.0

Nemotron 3 Nano est le champion du contexte long : 86.3% sur RULER à 1 million de tokens, avec seulement 3.5B de paramètres actifs. L'architecture Mamba a un avantage structurel sur les Transformers purs ici (complexité linéaire vs quadratique).

Mais attention : beaucoup de modèles annoncent "1M de contexte" sans publier de score RULER à cette longueur. Sans mesure, c'est du marketing.

Observations

Ce qui suit n'est pas une liste de vérités définitives. Ce sont des patterns que j'ai observés en analysant ces modèles. Ils méritent d'être vérifiés dans le temps.

Le dense recule au-dessus de 35B, mais ne meurt pas

Pour les généralistes au-dessus de 35B, le MoE (Mixture of Experts) domine clairement : GPT-OSS-120B, Mistral Small 4, Qwen3.5-122B-A10B, GLM-4.5-Air, Step-3.5-Flash, Nemotron 3 Super... tous MoE. Le rapport qualité/compute est devenu trop favorable. Mais le dense résiste là où il a un avantage structurel : Llama 3.3 70B (généraliste, MMLU 86.0), InternVL3-78B (vision, MMMU 72.2), Kimina-Prover-72B (theorem proving), Qwen 2.5-72B (NLP de production), DeepSeek R1-Distill-70B (reasoning distillé). Le dense devient un choix de spécialisation, plus le défaut.

Le nombre de paramètres n'est plus le facteur déterminant

Qwen3.5-9B (9B) bat GPT-OSS-120B (5.1B actifs, 117B total) sur GPQA Diamond. L'architecture, la méthode d'entraînement (distillation + RL multi-agent), et la qualité des données comptent plus que la taille brute.

Qwen est devenu la base modèle de facto

BFS-Prover (base Qwen2.5-32B), Goedel-Prover (base Qwen3-32B), Kimina-Prover (base Qwen2.5-72B), la plupart des distillés communautaires : tout repose sur Qwen. C'est l'équivalent de ce que ResNet était pour le transfer learning en vision il y a dix ans.

InternVL3 est le meilleur VLM open-source qu'on ignorait

InternVL3-78B (Shanghai AI Lab) atteint 72.2 sur MMMU — au niveau de GPT-4o — sous Apache 2.0. Avec une gamme de 1B à 78B, c'est le concurrent direct de Gemma 4 pour le multimodal. Et InternLM3-8B prouve qu'on peut faire SOTA avec 75% moins de tokens d'entraînement (4T au lieu de 15-18T). Le labo est moins médiatisé qu'Alibaba, mais les résultats parlent.

Le segment 40-79B est le refuge du dense

La tendance MoE fait que les nouveaux modèles sautent souvent de ~35B directement à ~120B total. Mais le segment 40-79B reste bien occupé par des modèles dense de qualité : Llama 3.3 70B (déc 2024), InternVL3-78B (avr 2025), Kimina-Prover-72B (avr 2025), Qwen 2.5-72B, R1-Distill-70B, Jamba 1.6 Mini 52B. C'est le segment où le dense résiste, et où on trouve à la fois des généralistes solides et des spécialisés (vision, theorem proving, math).

Step-3.5-Flash est le couteau suisse

Il apparaît dans 4 catégories (code, généraliste, agents, vitesse) : SWE-bench 74.4%, 350 tok/s, et des scores d'agent parmi les meilleurs. Si tu ne devais en déployer qu'un seul sur un serveur multi-GPU, c'est probablement le plus polyvalent.

GPT-OSS-120B a le meilleur ratio actifs/performance

5.1B de paramètres actifs pour un ELO Codeforces de 2622 et 96.6% sur AIME. C'est le modèle le plus efficient du paysage pour le coding et les maths.

Licences : le point à ne pas négliger

La plupart des modèles listés ici sont sous Apache 2.0 : usage commercial libre, pas de restriction géographique, patent grant inclus, licence irrévocable. C'est la même licence que TensorFlow ou Kubernetes.

Quelques exceptions notables :

Licence	Modèles	Statut
Apache 2.0	Gemma 4, Qwen 3/3.5, GPT-OSS, Ministral, Step-3.5-Flash	Exploitable partout
MIT	GLM-4.5-Air, DeepSeek R1-Distill, Phi-4	Exploitable partout
Nemotron OML	Nemotron 3 Nano/Super	Exploitable (custom, royalty-free, pas OSI)
Llama Community	Llama 3.3 70B, Llama 3.2 1B/3B (text-only)	EU OK (seuil 700M MAU)
LFM Open v1.0	LFM2, LFM2.5	Exploitable < $10M revenu

Gemma 4 sous Apache 2.0 est un tournant. Google passait jusque-là par une licence custom restrictive (Gemma Terms of Use). Le passage à Apache 2.0 aligne Gemma avec le reste de l'écosystème open-source.

Modèles rejetés

Llama 4 / Llama 3.2 Vision (Meta) : la licence exclut les entités domiciliées dans l'UE pour les modèles multimodaux. Les modèles text-only (Llama 3.3 70B, Llama 3.2 1B/3B) sont en revanche exploitables en EU.
Qwen 3.6 Plus (Alibaba) : closed-source, API-only. Un recul par rapport aux Qwen 3/3.5 qui étaient sous Apache 2.0.
DeepSeek V3/R1 complets (671B) : au-dessus du seuil de 200B.

Comment choisir

Contrainte	Recommandation
Smartphone / edge (< 4 GB)	Gemma 4 E2B, Phi-4-mini, Ministral 3B, LFM2.5-1.2B, Llama 3.2 1B/3B
Laptop 16 GB	GPT-OSS-20B, Ministral 14B, Gemma 4 26B-A4B
Desktop 24 GB	Gemma 4 31B, DeepSeek R1-Distill-32B, Devstral Small 2
Desktop 48+ GB (dense 70B)	Llama 3.3 70B (MMLU 86.0, HumanEval 88.4, EU OK)
Serveur single-GPU	GPT-OSS-120B
Serveur multi-GPU	Step-3.5-Flash, Nemotron 3 Super, Qwen3.5-122B
Contexte long (> 256K)	Nemotron 3 Nano
Math	Nemotron Nano 9B v2 (avec /think), GPT-OSS-120B
Code (bugs réels)	Step-3.5-Flash, Devstral Small 2
Multilingue (> 100 langues)	Qwen 3.5 (201 langues), Qwen 3 (119 langues)

Et ensuite

Ce panorama couvre les LLM texte. D'autres articles suivront sur les modèles spécialisés : embedding et retrieval, reconnaissance vocale, synthèse vocale, génération d'images, theorem provers (Lean 4), et GUI agents.

Les données de cet article proviennent d'une revue systématique de plus de 60 modèles, avec vérification des benchmarks et des licences sur les sources primaires (papiers, HuggingFace, dépôts officiels). La référence publique des 71 benchmarks (avec liens vers les papers, datasets et leaderboards) est disponible sur github.com/xigh/open-weight-models.

Si vous voyez une erreur ou un modèle manquant, contactez-moi.

Des questions sur cet article ou votre propre projet ? Réserver une consultation