Le context window de Claude se dégrade à 80 000 tokens ? Ce que disent vraiment les études : legeek.tech

La vidéo, le chiffre, et pourquoi j'ai voulu creuser

Y'a quelques jours, j'ai regardé une vidéo YouTube qui affirmait que Claude « perd la tête » à partir de 80 000 tokens. Le titre était accrocheur. Les commentaires acquiesçaient. Et moi, je me suis dit : attends, ce chiffre vient d'où exactement ?

Parce que j'utilise Claude Code quotidiennement. J'ai des sessions longues. Je vois la barre de contexte monter. Et oui, j'ai déjà vécu ce moment où le modèle commence à radoter ou à « oublier » une contrainte donnée vingt messages plus tôt. Le phénomène est réel.

Mais « 80 000 tokens », ce chiffre précis, dans quelle étude il apparaît ? Réponse courte : il n'y en a pas. C'est quelqu'un qui a vécu un problème sur un vieux modèle, qui a extrapolé, et qui a mis un chiffre dessus parce que les chiffres font autorité.

Ce que je retiens, c'est que le phénomène mérite qu'on l'explique correctement. Pas pour rassurer à tout prix, mais parce qu'en 2026, les données sont différentes de celles de 2023. Et confondre les deux, ça mène à de mauvaises décisions.

C'est quoi le context window, concrètement

Imagine une feuille de papier. Pas une feuille infinie, une feuille de taille fixe. Tout ce que tu envoies à Claude, tout ce qu'il te répond, les fichiers que tu lui colles, l'historique depuis le début de la conversation : tout ça s'écrit sur cette feuille.

Quand la feuille est pleine, les premières lignes s'effacent pour faire de la place aux nouvelles. Claude ne sait plus ce qui était écrit là. Ce mécanisme s'appelle le context window. Il se mesure en tokens, une unité qui correspond approximativement à trois quarts de mot en français.

Maintenant, la taille de cette feuille a radicalement changé en trois ans.

En 2023, GPT-3.5-Turbo travaillait avec 4 000 tokens. Claude 1.3 avait 8 000 tokens, avec une version étendue à 100 000. C'était déjà beaucoup pour l'époque. Aujourd'hui, Claude Sonnet 4.6 supporte 1 million de tokens dans sa version longue contexte. GPT-4o monte à 128 000 tokens. L'échelle a changé d'un facteur 100 à 200.

Pourquoi c'est important ? Parce que les études qui ont documenté le problème de dégradation ont été faites sur les modèles de 2023. Pas sur ceux de 2026.

Si tu utilises Claude Code, tu vois deux chiffres dans ta barre de statut : Ctx: et Total:. Le premier, c'est la fenêtre de contexte active, la feuille de papier en cours. Le second, c'est le cumul de tokens depuis le début de la session, cache compris. Ces deux valeurs sont très différentes, et beaucoup de gens les confondent. Revenir au Ctx: régulièrement, c'est la donnée pertinente.

L'étude fondatrice : Lost in the Middle

En 2024, Nelson F. Liu et ses collègues de Stanford, UC Berkeley et Samaya AI publient dans TACL une étude qui va faire date : Lost in the Middle: How Language Models Use Long Contexts. C'est l'étude de référence sur la dégradation dans les longs contextes. Et elle est très souvent mal citée.

Ce qu'elle a vraiment mesuré : la capacité des modèles à retrouver une information pertinente quand elle est noyée dans un contexte contenant plusieurs documents. En faisant varier la position de l'information utile, début, milieu, fin, les chercheurs ont observé ce qu'ils ont appelé une courbe en U. Les modèles performent bien quand l'information est au début ou à la fin du contexte. Quand elle est au milieu, les performances chutent.

Le chiffre le plus frappant de l'étude : GPT-3.5-Turbo avec l'information au centre du contexte obtient des performances inférieures à ce qu'il obtient sans aucun document. Mode sans document, ou « closed-book » : 56,1 % de précision. Avec des documents, mais l'information au mauvais endroit : en dessous. Le modèle se noie dans ses propres sources.

Maintenant, les modèles testés : GPT-3.5-Turbo avec 4 000 tokens de contexte, Claude-1.3 avec 8 000 tokens, et quelques modèles open source de 2023. Les contextes testés se comptaient en dizaines de documents, pas en centaines de milliers de tokens.

Le « 80 000 tokens » ? Il n'est pas dans cette étude. Nulle part. C'est une extrapolation qui a pris vie dans des vidéos YouTube et des posts LinkedIn, déconnectée du papier original. L'étude documente un vrai phénomène, mais sur des modèles qui ont aujourd'hui deux générations de retard. Utiliser ses conclusions pour juger Claude Sonnet 4.6, c'est comme tester une Tesla Model 3 sur les critiques que recevait une Prius 2007.

L'état de l'art en 2026 : ce que Chroma Research a mesuré

En juillet 2025, Chroma Research publie une étude qu'ils appellent Context Rot. Dix-huit modèles testés, dont Claude Opus 4, Claude Sonnet 4, Claude Sonnet 3.7, Claude Sonnet 3.5, Claude Haiku 3.5, GPT-4.1, GPT-4o, o3, Gemini 2.5 Pro, Gemini 2.5 Flash, Qwen3-235B et plusieurs variantes.

La bonne nouvelle d'abord. Sur les benchmarks classiques de type « aiguille dans une botte de foin » (NIAH, Needle in a Haystack), les modèles actuels obtiennent des scores quasi-parfaits. La capacité à retrouver une information précise dans un long contexte s'est radicalement améliorée depuis 2023. Ce n'est plus le problème central.

La mauvaise nouvelle : ce qui persiste, c'est plus subtil. Quand les distracteurs sont lexicalement proches de la bonne réponse, même vocabulaire, même structure, mais contenu différent, les modèles hallucinent encore. La similarité sémantique reste un vrai vecteur de dégradation. Les benchmarks simples ne le captent pas parce qu'ils utilisent des distracteurs trop facilement distinguables.

Sur la question des hallucinations spécifiquement, les résultats sont contrastés selon les modèles. Claude s'en sort mieux que GPT. Les modèles GPT obtiennent les taux d'hallucination les plus élevés dans les scénarios avec distracteurs, avec la particularité d'être confiants dans leurs mauvaises réponses. Claude hallucine moins dans ces conditions.

Ce que ça change pour toi

Les sessions longues avec des sujets très similaires sont plus à risque que les sessions longues avec des sujets distincts. Si tu travailles sur du code Python pendant deux heures, le risque de dérive est différent que si tu mélanges du code, de la rédaction et des questions d'architecture dans la même session.

RULER : la taille annoncée versus la taille utilisable

En 2024, NVIDIA publie RULER (Realistically Unlimited Long-context Evaluation for Reasoning) dans les actes de COLM. L'objectif : mesurer les performances réelles des modèles sur des contextes allant de 4 000 à 128 000 tokens, pas juste leurs scores marketing.

Le résultat est honnête et un peu embarrassant. Testé sur des contextes de 4K, 8K, 16K, 32K, 64K et 128K tokens, sur dix modèles qui tous revendiquent au minimum 32 000 tokens de contexte effectif, le papier conclut : « While all models claim context size of 32k tokens or greater, only four models can maintain satisfactory performance at the length of 32K. » Ces quatre modèles sont GPT-4, Command-R, Yi-34B et Mixtral.

Ce n'est pas que les autres mentent sur leur contexte maximum. C'est que le contexte maximum et le contexte où les performances restent solides sont deux choses différentes. Un modèle peut techniquement ingérer 128K tokens sans planter tout en voyant ses performances se dégrader significativement au-delà de 32K sur des tâches complexes.

En 2026, les modèles ont progressé depuis le benchmark RULER de 2024. Mais le principe reste valable : la taille annoncée et la taille où tu peux travailler sereinement ne sont pas identiques. Ce gap n'a pas disparu, il s'est réduit.

Ce qui dégrade vraiment en pratique

Le modèle ne se fatigue pas avec le temps. C'est important de le dire clairement. Claude ne « vieillit » pas pendant une session de deux heures. Chaque fois qu'il génère une réponse, il relit l'intégralité du contexte depuis zéro. Il n'accumule pas de lassitude. Il ne sait pas qu'il est 23h30.

Ce qui dégrade, c'est les tokens qui s'accumulent. Et derrière les tokens, il y a deux phénomènes distincts.

Le premier, c'est la dérive humaine. Plus une session dure, plus les gens deviennent moins précis. On commence à dire « comme avant » au lieu de reformuler. On mélange les sujets. On ajoute des demandes en cours de route sans rappeler le contexte. Le modèle ne devient pas moins bon, c'est le signal qu'il reçoit qui se dégrade.

Le second, c'est l'accumulation de corrections. Chaque « non, plutôt comme ça », chaque retour en arrière, chaque reformulation partielle s'inscrit dans le contexte. Après vingt corrections, le modèle a vingt versions contradictoires de ce que tu veux. Il ne peut pas savoir laquelle est définitive sans que tu le dises explicitement.

Point clé

C'est token-driven, pas time-driven. La durée n'est qu'un proxy imparfait pour la quantité de tokens échangés.

5 choses concrètes à faire

1. Surveiller le Ctx: en temps réel avec ccstatusline

Si tu utilises Claude Code, tu peux afficher Ctx:, In:, Out:, Cached: et Total: directement dans ta barre de terminal. L'outil s'appelle ccstatusline, version 2.2.8, disponible via npm install -g ccstatusline. J'aborderai l'installation en détail mercredi prochain pour ceux que ça intéresse, cinq minutes et c'est en place.

2. Nouvelle session quand on change de sujet

La règle la plus simple et la plus efficace. Si tu viens de finir un bout de code et que tu passes à de la rédaction, ouvre une nouvelle session. Pas par superstition, parce que le contexte accumulé sur le code précédent ne t'aide pas et peut polluer la suite.

3. Répéter les contraintes critiques sur les longues sessions

Si tu as une contrainte fondamentale, un format de sortie, une règle métier, un style précis, répète-la explicitement quand tu arrives à la moitié d'une longue session. Pas parce que Claude l'a oubliée dans le sens strict, mais parce que vingt échanges plus tard, elle a moins de poids relatif dans le contexte qu'au moment où tu l'as donnée.

4. Utiliser un CLAUDE.md

C'est probablement la chose la plus sous-utilisée de Claude Code. Un fichier CLAUDE.md dans ton projet contient les instructions qui sont rechargées au début de chaque session. Elles ne se diluent jamais dans le contexte parce qu'elles arrivent toujours en premier. Les règles importantes qui méritent de persister ont leur place là, pas dans le fil de conversation.

5. Laisser la compaction automatique faire son travail

Claude Code compacte automatiquement le contexte quand il approche de la limite. Le mécanisme est intégré, tu n'as rien à configurer. Par contre, si tu veux contrôler quand ça arrive, tu peux le déclencher manuellement depuis le menu de la session. La compaction résume le contexte passé en le compressant, tu perds du détail, tu gardes l'essentiel.

Ce que je retiens

Le phénomène est réel. Les sessions très longues avec des contextes chargés, des corrections accumulées et des sujets mélangés se comportent moins bien que les sessions courtes et focalisées. Ça n'a pas changé.

Mais les modèles de 2026 sont radicalement différents de GPT-3.5-Turbo à 4K tokens. Le « 80 000 tokens » qui circule ne vient pas des études, c'est une extrapolation qui a pris de l'ampleur parce qu'elle correspond à une expérience vécue réelle sur des modèles qui ont maintenant deux générations de retard.

En 2026, les benchmarks NIAH sont quasi-parfaits. Claude hallucine significativement moins que GPT sur les contextes longs avec distracteurs. Il reste un écart entre la taille de contexte annoncée et la taille où les performances sont vraiment solides. RULER l'a documenté, même si le papier date de 2024 et les modèles ont progressé.

La vigilance reste utile. Mais elle est mieux placée sur la discipline de travail, sessions focalisées, contraintes rappelées, nouveaux sujets dans de nouvelles sessions, que sur une limite magique à 80 000 tokens.

Le phénomène méritait qu'on le regarde en face avec les bonnes données. C'est fait.

Sources

Liu, N.F. et al. (2024). Lost in the Middle: How Language Models Use Long Contexts. TACL. Stanford / UC Berkeley / Samaya AI : aclanthology.org/2024.tacl-1.9/
Chroma Research (2025). Context Rot : Long Context Evaluation of 18 LLMs : research.trychroma.com/context-rot
Hsieh, C-Y. et al. (2024). RULER: What's the Real Context Size of Your Long-Context Language Models? COLM 2024. NVIDIA : arxiv.org/abs/2404.06654
Anthropic, tailles de context window (avril 2026) : Claude Sonnet 4.6 : 1M tokens · Claude Opus 4.6 : 1M tokens : anthropic.com/claude

#Claude #ContextWindow #LLM #Recherche #ClaudeCode #legeektech