J’ai tourné le même pipeline agentic sur Sonnet 4.6 et sur Opus 4.7. Sur SWE-bench Verified, l’écart entre Sonnet 4.6 et Opus 4.6 est de 1,2 point de benchmark. La différence de pricing entre Sonnet 4.6 et les modèles Opus est de 67 %. Et dans les tests de préférence utilisateurs, Sonnet 4.6 a été choisi face à l’ancien flagship dans 59 % des cas. Ce qu’on achète en appelant Opus par défaut, c’est une question à se poser sérieusement.
1. Les modèles en présence
Anthropic a publié trois modèles en l’espace de dix semaines au début 2026.
Claude Opus 4.6 est sorti le 5 février 2026. Il était alors le modèle le plus capable d’Anthropic, positionné pour les tâches agentiques complexes et le travail longue durée. C’est lui qu’on appelait « flagship » jusqu’au mois d’avril.
Claude Sonnet 4.6 est sorti le 17 février 2026, douze jours plus tard. Positionné comme modèle « équilibré », il combine vitesse et intelligence pour les tâches courantes. La sortie rapide après Opus 4.6 n’est pas anodine - elle signale qu’Anthropic a travaillé ces deux modèles en parallèle, avec des profils de tâche distincts.
Claude Opus 4.7 est sorti le 16 avril 2026. Il remplace Opus 4.6 comme flagship actuel. Même pricing ($5/$25 le million de tokens), amélioration ciblée sur le coding agentic.
Opus 4.6 est désormais en section Legacy dans la documentation Anthropic. Il reste disponible via API, mais il n’est plus le modèle recommandé par défaut dans la gamme Opus.
2. SWE-bench Verified - l’écart de 1,2 point
SWE-bench Verified est le benchmark de référence pour évaluer la capacité des modèles à résoudre des bugs réels dans des repositories GitHub. C’est le test le plus pertinent pour les développeurs qui utilisent des agents de code.
| Modèle | SWE-bench Verified | Conditions |
|---|---|---|
| Sonnet 4.6 | 80,2 % | Modification de prompt, moyenne 10 trials |
| Opus 4.6 | 81,42 % | Modification de prompt, moyenne 10 trials |
La condition « avec modification de prompt » est importante. Elle signifie que les deux modèles ont été testés avec un prompt adapté au benchmark, pas en mode zéro-shot brut. Les deux scores sont donc comparables, mais ils ne représentent pas les performances en production sans tuning.
L’écart : 1,22 point de pourcentage. On parle de la différence entre résoudre 802 issues sur 1 000 versus 814 issues sur 1 000. Ce n’est pas un écart négligeable en absolu, mais ce n’est pas non plus ce qu’on attend entre un modèle « standard » et un modèle « flagship ».
3. MRCR v2 - là où Opus écrase vraiment
MRCR v2 (Multi-Reference Context Retrieval) mesure la capacité des modèles à retrouver des informations dans des contextes très longs et à gérer plusieurs références simultanément. C’est le benchmark qui prédit le mieux les performances sur des tâches d’orchestration longue durée, de retrieval complexe, ou de refactoring sur des codebases entières.
- Opus 4.6 : 76 % sur MRCR v2
- Sonnet 4.5 : 18,5 % sur MRCR v2
L’écart de 57 points est documenté entre Opus 4.6 et Sonnet 4.5, pas Sonnet 4.6. Anthropic n’a pas publié de score MRCR v2 officiel pour Sonnet 4.6. La hiérarchie de gamme suggère qu’on est bien en dessous d’Opus 4.6, mais le chiffre exact n’existe pas.
Ce benchmark révèle quelque chose de structurel : Opus 4.6 a été conçu pour tenir sur des contextes de plusieurs centaines de milliers de tokens avec une précision de retrieval que les modèles Sonnet n’atteignent pas.
Si votre agent doit lire un codebase entier, corréler des informations sur 150k tokens, ou maintenir une cohérence sur une session longue de plusieurs heures - Opus est justifié. Ce n’est pas de la hype.
4. CursorBench - le saut d’Opus 4.7
CursorBench est le benchmark développé par Cursor pour mesurer les performances en coding agentic : complétion de tâches de développement dans des environnements réels, avec des outils, des fichiers, des erreurs de compilation.
| Modèle | CursorBench |
|---|---|
| Opus 4.7 | 70 % |
| Opus 4.6 | 58 % |
Un saut de 12 points entre Opus 4.6 et Opus 4.7. C’est la principale justification technique du remplacement : Opus 4.7 est meilleur que son prédécesseur sur le coding agentic, pas sur tous les benchmarks généraux.
Ce chiffre explique aussi pourquoi Opus 4.7 a le même prix qu’Opus 4.6 : Anthropic a sorti une version ciblée sur un profil précis, pas une montée en gamme générale. Si vous travaillez avec un agent de code sur des tâches longues et complexes - refactoring multi-fichiers, résolution de bugs dans des architectures intriquées, génération avec contexte complet - Opus 4.7 mérite son prix sur ce cas d’usage précis.
5. GDPval-AA et préférence utilisateurs - le signal marché
GDPval-AA est un benchmark d’évaluation générale qui mesure la qualité des réponses sur un large spectre de tâches. Sur ce benchmark, Opus 4.6 surpasse GPT-5.2 de 144 points Elo. C’est un avantage compétitif réel d’Anthropic sur le haut de gamme, du moins à la date de publication (5 février 2026).
Plus intéressant pour notre sujet : dans les tests blind A/B réalisés par Anthropic, Sonnet 4.6 a été préféré à Opus 4.5 dans 59 % des cas. Opus 4.5 était le flagship d’Anthropic en novembre 2025. Autrement dit, le modèle « standard » de février 2026 bat l’ancien flagship de novembre 2025 dans la majorité des évaluations utilisateurs.
Ce chiffre est un signal sur la logique de prestige des noms de modèles. La préférence des développeurs est sensible au rapport valeur/prix, pas à l’étiquette flagship. Quand Sonnet 4.6 sort et surpasse Opus 4.5 dans 59 % des jugements, ça veut dire que la distance entre flagship et « balanced » se réduit à chaque génération.
6. Le pricing - le vrai ratio
Voici les tarifs officiels au 3 mai 2026, depuis la documentation Anthropic :
| Modèle | Input (MTok) | Output (MTok) |
|---|---|---|
| Claude Sonnet 4.6 | $3 | $15 |
| Claude Opus 4.6 (Legacy) | $5 | $25 |
| Claude Opus 4.7 (Flagship) | $5 | $25 |
Le ratio réel : 1,67× sur l’input, 1,67× sur l’output. Pas 5×, pas 3×. 1,67×, c’est significatif sur un pipeline qui tourne des millions de tokens par jour. Sur 10 millions de tokens d’input, la différence est de $20. Sur 1 milliard de tokens, c’est $2 000.
À noter : Anthropic propose une Batch API à −50 % sur tous les modèles, pour les traitements asynchrones. Si votre pipeline n’a pas de contrainte de latence temps réel, le coût effectif de Sonnet 4.6 descend à $1,50 l’input MTok.
7. Quand Opus 4.7 est justifié
Il y a des cas d’usage où Opus 4.7 vaut les 67 % supplémentaires :
- Contexte long supérieur à 100k tokens. Si votre agent doit ingérer un codebase complet, lire une documentation longue, ou corréler des informations dans une fenêtre très large, le gap MRCR v2 est réel.
- Orchestration agentic complexe. Les tâches où l’agent doit maintenir une cohérence sur plusieurs dizaines d’étapes, gérer des dépendances longues, et s’auto-corriger sans supervision.
- Reasoning avec dépendances multiples. Problèmes mathématiques, débogage d’architectures distribuées, refactoring avec contraintes croisées.
- Code refactoring multi-fichiers. CursorBench 70 % sur Opus 4.7 contre 58 % sur Opus 4.6 - c’est précisément ce profil.
8. Quand Sonnet 4.6 suffit
Ce qui représente à vue environ 80 % des cas d’usage en production :
- Code court à moyen. Génération de fonctions, complétion, refactoring localisé - SWE-bench à 80,2 % est suffisant pour l’immense majorité des tâches de développement quotidiennes.
- Classification et extraction. Catégorisation de textes, extraction d’entités, parsing structuré - le contexte court et la clarté de la tâche rendent la différence Sonnet/Opus imperceptible.
- Génération de texte. Rédaction, reformulation, traduction - la préférence utilisateurs 59 % vs 41 % dit tout.
- Pipelines simples. Chatbot, RAG standard, agent à quelques étapes - si le contexte ne dépasse pas les 20–30k tokens et que les tâches sont bien délimitées.
- Environnements à fort volume. Dès que vous tapez dans les millions de tokens par jour, le rapport 1,67× se voit dans la facture. Sonnet 4.6 avec Batch API à $1,50/MTok d’input, c’est le format haute performance pour les pipelines qui tournent la nuit.
9. Le test de régression à faire avant de payer 67 % de plus
Avant de décider de rester sur Opus ou de basculer, voici la méthode simple à appliquer.
- Étape 1 : Cloner le pipeline. Deux instances identiques, même code, même prompts, même données de test. La seule variable : le modèle appelé.
- Étape 2 : Définir une métrique de qualité objective. Selon le cas d’usage : taux de succès sur des tâches vérifiables, score de similarité avec des réponses de référence, taux d’erreurs sur des assertions automatisées. Sans métrique, vous comparez des impressions subjectives.
- Étape 3 : Faire tourner 50 calls réels. Pas des exemples artificiels - vos vrais prompts, vos vraies données. 50 calls par modèle, sur le même jeu d’entrées.
- Étape 4 : Comparer qualité et coût. Est-ce que la différence de qualité est visible dans vos métriques ? Quel est le delta de coût sur 50 calls ? Projetez-le sur votre volume mensuel réel.
Dans la majorité des cas, vous allez constater que la différence de qualité sur vos tâches spécifiques est inférieure à ce que les benchmarks laissent attendre - parce que les benchmarks mesurent des cas généraux, pas votre cas particulier. Et que le delta de coût projeté est conséquent.
Le titre « flagship » vend quelque chose que les chiffres ne justifient plus pour la majorité des cas d’usage. Opus 4.7 est meilleur qu’Opus 4.6 sur le coding agentic - le saut CursorBench 58 % → 70 % est réel. Et sur le long context, le gap MRCR v2 est structurel.
Mais Sonnet 4.6 à 80,2 % sur SWE-bench, préféré par 59 % des utilisateurs face à l’ancien flagship - c’est un signal que la hiérarchie des noms dit moins sur la performance réelle que la hiérarchie des cas d’usage.
Vous appelez Opus parce que vos tâches le requièrent, ou parce que c’est le nom en haut de la liste ?