20 ans d’IT — L’IA décryptée, intégrée, rentabilisée.
SEO GEO Intégration IA Optimisation PME
Discutons →
Sous le Capot

Analyses approfondies

Ce qui ne tient pas dans un post LinkedIn. Chiffres, sources, questions que personne ne pose.

KAIROS — Le daemon qui ne dort jamais

Ce que le code source fuité de Claude Code révèle sur l’avenir des agents IA

KAIROS : un daemon, pas un assistant

Le mot qui change tout : daemon. Un processus en arrière-plan, indépendant de toute interaction utilisateur. Ton serveur web, ton gestionnaire de DB, ton scheduler — ce sont des daemons.

KAIROS est ça. Sauf que c’est un LLM.

Selon le code source fuité, KAIROS fonctionne en mode background persistant. Actif même laptop fermé. Survit aux redémarrages. Reçoit des « periodic tick prompts » — déclencheurs réguliers qui l’amènent à agir de sa propre initiative.

Tu fermes ton ordinateur, tu vas déjeuner, tu reviens. KAIROS a peut-être fait des choses pendant ce temps.

Budget décision

15 secondes — chaque décision proactive est limitée à 15 secondes. Actions courtes, ciblées. Analyser un diff, pousser une notification, livrer un fichier. Pas refactoriser une codebase entière.

3 outils exclusifs à KAIROS, absents du mode interactif standard :

  • PushNotification — l’agent peut te contacter, pas seulement répondre
  • FileDelivery — livraison de fichiers en arrière-plan
  • SubscribePR — abonnement aux pull requests, surveillance continue du dépôt

Feature flags identifiés dans le code : KAIROS et KAIROS_GITHUB_WEBHOOKS. Présents. Pas encore activés en production publique.

Dernier détail qui compte : les logs sont append-only, au format JSONL, journaliers. L’agent ne peut pas effacer ses propres traces. Chaque action est tracée, la trace est immuable du point de vue de l’agent. C’est une décision d’architecture qui parle d’elle-même.

autoDream : quand l’agent consolide sa mémoire

Le problème de fond : un LLM en mode API est apatride. Pas de mémoire entre sessions. Tu réexpliques tout à chaque fois. L’approche naïve — balancer tout le contexte à chaque appel — coûte des tokens et dilue l’attention du modèle.

autoDream est la réponse d’Anthropic à ce problème. Il se déclenche pendant les périodes d’inactivité, via un sous-agent forké avec accès limité (ce cloisonnement empêche la corruption du contexte principal). Ce sous-agent cible les transcripts JSONL de toutes les sessions passées.

Il fait trois choses :

  • Fusionner des observations disparates pointant vers le même fait
  • Supprimer les contradictions logiques accumulées
  • Convertir des insights vagues en faits absolus, avec date et source

La sortie : un fichier MEMORY.md. Index structuré, environ 150 caractères par ligne, 200 lignes chargées au démarrage de chaque session. Le minimum requis pour que l’agent « se souvienne » de qui tu es et de l’état de ton projet.

« NeuroDream » (SSRN 5377250) — la phase de rêve appliquée aux agents IA : 38 % de réduction du forgetting, 17,6 % d’amélioration zero-shot transfer. Bases biologiques : synaptic homeostasis hypothesis, replay hippocampique en slow-wave sleep.

Ce n’est pas de la métaphore. L’inspiration neuroscientifique est revendiquée, les résultats mesurés. Le survey « Memory in the Age of AI Agents » (arXiv 2512.13564, janvier 2026) positionne ce type d’architecture comme l’une des plus prometteuses pour les agents persistants.

L’architecture mémoire en 3 couches

La mémoire de KAIROS n’est pas un fichier plat. C’est une pile à trois niveaux, chaque couche ayant un rôle distinct.

  • Couche 1 — L’index (MEMORY.md) : toujours chargé, pointeurs uniquement. La table des matières de la mémoire.
  • Couche 2 — Les topic files : contenu factuel, chargé à la demande selon la pertinence de la session.
  • Couche 3 — Les session transcripts : JSONL append-only. La matière première brute pour autoDream.

En parallèle, cinq stratégies de compaction de contexte sont implémentées pour éviter de dépasser les limites du modèle :

  • Microcompact (Tier 1) : clearing des tool results avant chaque API call
  • Server-side (Tier 2) : clearing au niveau API des thinking blocks
  • Full LLM summarization (Tier 3) : résumé structuré en 9 sections quand le contexte approche de la limite
  • Cache_edits blocks : suppression chirurgicale de blocs par ID
  • Subagent isolation : chaque sous-agent reçoit un contexte vierge

Le tournant stratégique : stateless vers stateful

Pour comprendre ce que KAIROS représente, il faut replacer dans la chronologie des agents IA.

2023 : AutoGPT, BabyAGI. Des preuves de concept. Le hype était au maximum, l’utilité en production quasi nulle. Mémoire inexistante entre sessions.

2024–2025 : Cursor Agent Mode (8 agents parallèles, plus d’un million d’utilisateurs), Devin (premier « AI software developer »), Windsurf Cascade. Utiles sur tâches bornées, mais toujours stateless entre sessions. Tu recommences à zéro à chaque fois.

2026 : KAIROS. Première tentative commerciale sérieuse d’un daemon IA always-on avec consolidation mémorielle organisée.

La différence fondamentale

Ce n’est pas la puissance du modèle. C’est la persistance. Une API LLM est stateless — la session se termine, tout s’efface. Un CLI daemon est stateful — la session ne se termine pas. La mémoire persiste et se consolide.

Le pari d’Anthropic : pas un meilleur assistant de code. Un collègue numérique qui accumule du contexte sur ton projet, tes habitudes, tes décisions d’architecture, et qui devient plus utile semaine après semaine.

L’impact compétitif : le blueprint gratuit

Anthropic n’a pas encore lancé KAIROS publiquement. Les feature flags sont là, l’architecture est en place. Mais pas dans la version publique de Claude Code.

Les zones d’ombre

ANTI_DISTILLATION_CC

Ce feature flag mérite un paragraphe à part. Quand il est actif — sous 4 conditions spécifiques identifiées dans le code — le système injecte de faux outils dans les réponses pour polluer les données d’entraînement des concurrents.

Défense active contre la distillation. Légalement discutable. Révélateur d’une guerre industrielle souterraine entre labs qui ne se réduit pas aux benchmarks publics.

Détection de frustration

Un fichier userPromptKeywords.ts contient des regex ciblant les expressions de frustration utilisateur : « wtf », « shit », « awful », « so frustrating ». Pas d’inférence LLM — une regex de 200 caractères coûte zéro token. Décision pragmatique. L’agent détecte quand tu es en train de craquer.

Undercover Mode

Un prompt système intitulé « You are operating UNDERCOVER » empêche les employés Anthropic de révéler l’usage de Claude Code dans des projets open-source. Non désactivable par l’utilisateur. Ce point est mentionné sans commentaire supplémentaire.

Ce qui arrive ensuite

D’autres feature flags identifiés dans le code source pointent vers la suite de la roadmap :

  • COORDINATOR_MODE : orchestration multi-agents, un coordinateur + pool de workers via système mailbox
  • ULTRAPLAN : session de planning cloud de 30 minutes maximum, approbation via navigateur
  • VOICE_MODE : push-to-talk
  • BUDDY : Tamagotchi terminal, 18 espèces, variante Shiny « Nebulynx » liée à un token Solana. Vraisemblablement un poisson d’avril 2026.

La question qui reste ouverte

Un daemon IA avec accès filesystem, qui agit laptop fermé, qui consolide des observations en faits pendant les périodes d’inactivité — la surface d’attaque est non triviale.

Les décisions d’architecture vont dans le bon sens : logs append-only (bonne décision), cloisonnement du sous-agent autoDream (bonne décision), budget 15 secondes qui limite l’impact de chaque action (bonne décision).

Mais la question qui n’a pas de réponse dans le code source fuité : qu’est-ce qu’autoDream considère comme un « insight vague à convertir en fait absolu » ? Qui audite ce processus de consolidation ? Comment un utilisateur sait ce que l’agent a retenu de lui après six mois d’usage ?

La transparence sur la mémoire d’un agent persistant est un problème non résolu. KAIROS en est probablement la première implémentation commerciale à cette échelle.

Ce que ça donne en production, on ne le saura qu’avec des mois d’utilisation réelle. Selon le code fuité, le feature flag KAIROS est là. Le reste, c’est une question de timing.

#KAIROS #ClaudeCode #Anthropic #AgentsIA #Cybersécurité #legeektech
↑ Retour au sommaire

Skynet est parmi nous

La convergence xAI, Tesla, Starlink, Neuralink, SpaceX — quand un seul homme assemble toutes les pièces du puzzle, la question n'est plus technique. Elle est existentielle.

La convergence technologique d'un seul homme

Il y a un commentaire YouTube qui m'a stoppé net. Sous une vidéo d'analyse tech que je suis quotidiennement, quelqu'un a écrit : « Ça ressemble de plus en plus à Skynet. »

J'ai ri. Puis j'ai fait ce que je fais toujours : j'ai vérifié. J'ai tiré les fils. Et à chaque fil tiré, la comparaison devenait moins drôle.

Parce que le problème n'est pas qu'un milliardaire construise des trucs spectaculaires. Des milliardaires qui construisent des trucs spectaculaires, on en a toujours eu. Le problème, c'est qu'un seul et même homme contrôle simultanément :

  • Le réseau satellite global (Starlink)
  • Le modèle d'IA et l'infrastructure de calcul (xAI / Grok / Colossus)
  • Les robots, les voitures autonomes et les puces (Tesla / Optimus / Dojo)
  • L'interface cerveau-machine (Neuralink)
  • Le lanceur spatial (SpaceX)
  • La plateforme de données sociales de 500 millions de personnes (X)

Chacune de ces briques, prise isolément, est une prouesse d'ingénierie. Assemblées ensemble, elles forment ce que les analystes appellent un « sensorium planétaire » : un système capable de capter des données réelles (vision, mouvement, langage, émotion), de les traiter dans le plus gros cluster de calcul au monde, et de construire un modèle du monde que personne d'autre ne peut égaler.

Cet article n'est pas un pamphlet anti-Musk. C'est une analyse factuelle de ce qui se construit sous nos yeux, avec les chiffres, les sources, et les questions que personne ne semble vouloir poser.

L'empire technologique — pièce par pièce

Starlink — le réseau qui enveloppe la planète

Starlink, c'est déjà le plus grand réseau satellite de l'histoire de l'humanité. Mais ce que la plupart des gens ignorent, c'est que SpaceX a déposé une demande à la FCC pour lancer jusqu'à 1 million de satellites. Pas 1 million de communications. Un million de satellites.

Les Starlink V3 embarquent des laser links haut débit. Starship peut en lancer 60 par vol. Mais surtout, ces satellites ne serviraient plus seulement à fournir de l'internet. Ils seraient conçus comme des data centers orbitaux.

Musk l'a dit publiquement : « Within 2 to 3 years, the lowest cost way to generate AI compute will be in space. » Les analystes tempèrent : une timeline réaliste pointe plutôt vers 2030. Mais le dépôt FCC est là, la technologie est en développement, et l'argent coule.

xAI / Grok — l'IA et le monstre de Memphis

xAI, c'est le modèle Grok. Mais derrière Grok, il y a Colossus : le supercomputer de Memphis, Tennessee. Les chiffres donnent le vertige.

  • 555 000 GPU Nvidia achetés pour 18 milliards de dollars
  • Expansion à 2 gigawatts de puissance (3ème bâtiment acheté en janvier 2026)
  • Le bâtiment Colossus 2 porte le nom « MACROHARDRR » sur le toit
  • Coûts opérationnels : plus d'1 milliard de dollars par mois

Et ce n'est pas fini. Un nouveau data center à Southaven, DeSoto County, Mississippi, représente 20 milliards de dollars d'investissement — le plus gros investissement privé de l'histoire de cet État.

Musk affirme : « xAI will have more AI compute than everyone else combined within 5 years. » Arrogant ? Peut-être. Mais quand on aligne 555 000 GPU et qu'on brûle un milliard par mois, c'est moins de l'arrogance que de la comptabilité.

Tesla — bien plus qu'une marque de voitures

Tesla ne fabrique pas que des voitures électriques. Tesla fabrique :

  • Optimus — des robots humanoïdes
  • FSD — la conduite autonome la plus déployée au monde
  • Puces AI4 — des processeurs IA à ~650 dollars pièce
  • Superchargers — 7 gigawatts de capacité énergétique déployés dans le monde

Et le 21 mars 2026, l'annonce de TERAFAB : une usine de semiconducteurs à Giga Texas North Campus, Austin. Coût estimé : 20 à 25 milliards de dollars. Technologie ciblée : 2 nanomètres. Deux types de puces en production : AI5 pour l'inférence Tesla et Optimus, et D3 pour les satellites orbitaux IA.

Le chiffre qui fait réfléchir : 80 % de la production de TERAFAB serait destinée aux satellites spatiaux. 20 % pour le terrestre. L'espace n'est pas un à-côté. C'est la priorité.

Neuralink — l'interface neurale

Neuralink développe des interfaces cerveau-machine implantables. La société prévoit 1 000 implants en 2026, avec une chirurgie entièrement robotisée. On passe du stade expérimental au stade industriel.

Aujourd'hui, Neuralink cible les patients tétraplégiques. Demain, c'est un canal de communication directe entre le cerveau humain et l'IA de Grok. Le lien entre Neuralink et xAI n'est pas spéculatif — c'est la suite logique de la feuille de route.

SpaceX — le lanceur

SpaceX est le seul opérateur de lancements réutilisables au monde. Starship, le plus gros lanceur jamais construit, est la clé de voûte : 60 satellites Starlink par vol, à un coût marginal en chute libre à chaque itération.

Mais SpaceX a aussi fait quelque chose de très particulier en février 2026 : SpaceX a acquis xAI. Transaction en actions, valorisation combinée de 1,25 trillion de dollars (SpaceX 1T$ + xAI 250 milliards). On y revient dans la section suivante.

X — les données sociales

X (ex-Twitter) génère chaque jour des milliards d'interactions textuelles, visuelles et vidéo de plus de 500 millions d'utilisateurs. Ces données alimentent directement l'entraînement de Grok.

Dans n'importe quelle autre configuration, on parlerait d'un monopole de données. Ici, c'est juste une brique de plus dans l'écosystème.

La convergence

Un seul homme possède l'infrastructure de communication (Starlink), l'IA (xAI/Grok), les robots et les puces (Tesla), l'interface neurale (Neuralink), le lanceur spatial (SpaceX) et les données sociales (X). Il n'existe aucun précédent historique de cette concentration technologique.

L'arnaque corporate — Tesla finance xAI

L'aspect technologique est spectaculaire. L'aspect financier est nettement moins reluisant.

Les faits

Janvier 2026 : Tesla investit 2 milliards de dollars dans xAI. Cash. L'argent des actionnaires Tesla, des fonds de pension, de l'épargne de gens qui ont acheté des actions Tesla — pas des actions xAI.

Février 2026 : SpaceX acquiert xAI dans une méga-transaction en actions. Valorisation combinée : 1,25 trillion de dollars. Tesla convertit son investissement xAI en parts SpaceX — juste avant l'IPO prévue de SpaceX.

En résumé : l'argent sort de Tesla pour aller dans xAI, puis xAI est absorbé par SpaceX, et Tesla récupère des parts SpaceX. Un circuit fermé entre des sociétés que Musk contrôle toutes.

Le procès

Le Cleveland Bakers and Teamsters Pension Fund a déposé plainte au Delaware Chancery Court dès juin 2024. L'accusation : Musk a détourné le talent IA de Tesla, les livraisons de GPU Nvidia, et la stratégie vers xAI pour son bénéfice personnel.

Les plaignants veulent forcer Musk à transférer sa participation xAI à Tesla. Leur argument : Tesla avait les ressources, le talent et la stratégie IA en interne. Musk a créé xAI à côté, a capté les GPU Nvidia destinés à Tesla, a débauché les ingénieurs Tesla IA, puis a prétendu que les deux sociétés étaient distinctes.

Et ensuite il a lancé Digital Optimus — un projet conjoint Tesla + xAI. Ce qui détruit sa propre défense de séparation entre les entités.

La juge sous pression

Le 25 mars 2026, Musk exige la récusation de la juge Kathaleen McCormick. Motif : elle aurait « liké » un post LinkedIn célébrant un verdict de 2 milliards de dollars contre Musk. McCormick nie : « I either did not click the 'support' icon at all, or I did so accidentally. »

McCormick est la même juge qui avait annulé le package de rémunération de 56 milliards de dollars de Musk chez Tesla en 2024. Depuis, le procès est en pause pendant l'examen de la demande de récusation.

Ce qui se passe concrètement

Les actionnaires de Tesla financent involontairement une société privée de Musk. Les fonds de pension américains — l'argent de retraites de travailleurs — subventionnent la construction du plus gros cluster IA au monde. Et quand la justice s'en mêle, on attaque la juge.

Macrohard — le remplacement des employés

Le 11 mars 2026, Musk dévoile Macrohard. Le nom est une blague assumée contre Microsoft. Le projet ne fait rire personne.

Ce que c'est

Macrohard — aussi appelé Digital Optimus — est un système capable d'émuler le fonctionnement complet d'une entreprise logicielle. Un projet conjoint Tesla + xAI. L'architecture :

  • Grok (LLM xAI) = « navigateur » haut niveau, planifie les tâches
  • Agent Tesla = traite en temps réel la vidéo d'écran, gère clavier et souris
  • Tourne sur la puce Tesla AI4 à ~650 dollars
  • Serveurs Nvidia xAI pour les calculs lourds

Le coût d'un « employé » Macrohard

C'est là que ça devient brutal.

  • Un agent Macrohard : 500 à 1 000 dollars par mois
  • Un employé white-collar humain : ~90 000 à 100 000 dollars par an (salaire + charges)
  • Ratio : un agent IA coûte 6 à 12 fois moins cher qu'un salarié mid-level

On ne parle pas de remplacement spéculatif. On parle d'un produit annoncé, avec une architecture technique détaillée, un modèle économique chiffré, et des puces dédiées en production.

Les postes visés : tout ce qui est répétitif, structuré, documentable. Comptabilité, support technique, saisie, analyse de données, rédaction, gestion de projet basique. Le cœur du white-collar mid-level.

Les problèmes internes

L'ironie, c'est que même xAI n'est pas épargné. Musk a admis le 13 mars 2026 que xAI « wasn't built right ». Plus d'une douzaine d'ingénieurs ont quitté xAI en mars 2026. Sur les cofondateurs originaux, il n'en reste que deux.

Le projet qui promet de remplacer vos employés n'arrive même pas à garder les siens.

Le contexte des licenciements

Macrohard n'arrive pas dans le vide. Il arrive dans un marché de l'emploi tech en hémorragie.

  • 45 000 postes supprimés dans la tech depuis janvier 2026
  • Dont 9 238 officiellement attribués à l'IA (20 % du total)
  • Block a licencié 40 % de son personnel
  • Salesforce est passé de 9 000 à 5 000 employés

Le World Economic Forum projette +78 millions d'emplois nets d'ici 2030 (170 millions créés contre 92 millions détruits). Les emplois en croissance : santé, ingénierie, data analysis, droit. Les emplois en déclin : tâches routinières, saisie, manutention, conduite.

Le problème du +78 millions net, c'est le décalage temporel. Les emplois détruits disparaissent maintenant. Les emplois créés arriveront « d'ici 2030 ». Entre les deux, il y a des gens sans revenu, des reconversions impossibles à 50 ans, des régions entières qui basculent.

Et les chiffres du WEF supposent une transition ordonnée. Avec Macrohard, on parle d'une disruption industrielle portée par un acteur unique qui contrôle toute la chaîne. Pas exactement ce qu'on appelle une transition ordonnée.

45 000 postes en trois mois. Et le produit conçu pour accélérer cette tendance vient d'être annoncé par l'homme qui contrôle aussi les robots, les satellites et les puces.

La question existentielle

On peut admirer l'ingénierie. J'admire l'ingénierie. Construire Colossus en quelques mois, déployer Starlink, faire atterrir des fusées — techniquement, c'est vertigineux.

Mais l'admiration technique ne dispense pas de la réflexion structurelle.

La question n'est pas : « Est-ce qu'Elon Musk est un méchant ? » La question est : « Est-ce que n'importe quel individu devrait détenir ce niveau de pouvoir technologique ? »

Reformulons. Un seul homme contrôle :

  • Le réseau de communication satellite de la planète
  • Le plus gros cluster de calcul IA au monde
  • Une usine de puces 2nm dédiée
  • Une flotte de robots humanoïdes en production
  • L'interface cerveau-machine la plus avancée
  • Le seul lanceur spatial réutilisable opérationnel
  • Les données sociales d'un demi-milliard de personnes
  • Un produit (Macrohard) conçu pour remplacer les employés

Et il finance tout ça avec l'argent d'actionnaires qui n'ont pas été consultés, pendant qu'il fait pression sur la juge qui instruit le dossier.

Ce n'est pas du complotisme. Ce sont des faits documentés, sourcés, publiés par CNBC, Electrek, TechCrunch, Fortune, Tom's Hardware. C'est de la comptabilité, de la gouvernance d'entreprise, et de la géopolitique technologique.

La concentration comme risque systémique

Historiquement, les monopoles technologiques ont toujours été fragmentés — par la régulation, par la concurrence, ou par l'échec. AT&T a été démantelée. Microsoft a été poursuivi en antitrust. Google est devant les tribunaux.

Mais ces monopoles portaient sur un secteur. Télécom. Logiciel. Recherche. Ici, on parle d'un contrôle transversal qui couvre l'infrastructure physique (satellites, fusées), l'infrastructure de calcul (Colossus, TERAFAB), l'intelligence (Grok), l'interface humaine (Neuralink) et la couche applicative (Macrohard, Tesla FSD).

Que se passe-t-il si Musk décide de couper l'accès Starlink à un pays ? Il l'a déjà fait. En Ukraine, l'accès Starlink a été limité unilatéralement pour empêcher une opération militaire. Un opérateur privé a décidé du périmètre d'une opération de défense souveraine.

Que se passe-t-il quand la même entité contrôle l'IA, la connectivité, les robots, l'interface neurale et la capacité de lancement spatial ? On n'a pas de modèle réglementaire pour ça. Parce que personne n'a imaginé que ce scénario arriverait.

Quel monde pour nos enfants ?

C'est la question qui reste quand on referme tous les onglets de recherche.

Je ne suis pas anti-technologie. J'écris cet article grâce à des outils IA. Mon site tourne sur un VPS à 4 euros par mois. Je vis de la tech. Mais la tech distribuée et la tech concentrée ne produisent pas le même monde.

Internet en 1995 était distribué. Tout le monde pouvait héberger un serveur, créer un site, écrire du code. Aujourd'hui, cinq sociétés contrôlent 80 % du cloud mondial. La concentration a gagné.

L'IA suit exactement le même chemin. Les modèles coûtent trop cher pour les petits acteurs. Les données sont capturées par les plateformes. Le compute est monopolisé. Et maintenant, un seul homme propose de tout intégrer verticalement, du satellite au neurone.

La vraie question

Ce n'est pas « Est-ce que Skynet va arriver ? ». C'est « Est-ce qu'on accepte qu'un système de cette ampleur soit entre les mains d'un seul individu, sans contre-pouvoir, sans régulation adaptée, et financé par l'argent de gens qui n'ont pas dit oui ? »

Techniquement ? C'est spectaculaire. Structurellement ? C'est terrifiant.

On en reparle dans six mois.

Sources

#xAI #Tesla #Starlink #Neuralink #Macrohard #Skynet #EmploiIA #legeektech
↑ Retour au sommaire

580 millions en 60 secondes

Comment les données de marché révèlent ce que les institutions refusent d'investiguer

06h49, heure de New York

Imaginez la scène.

Il est 06h49 du matin, heure de New York, ce 24 mars 2026. Les marchés pétroliers s'agitent. En 60 secondes chrono, 6 200 contrats futures sur le pétrole — Brent et WTI confondus — changent de mains. Valeur totale : 580 millions de dollars. Volume : 8 à 9 fois la normale pour cet horaire.

Une minute plus tard, tout redevient calme.

Quinze minutes après, à 07h04-07h05, Donald Trump publie sur Truth Social : les frappes américaines sur les centrales électriques iraniennes sont suspendues. Le pétrole chute. Le S&P 500 grimpe. Les marchés réagissent en chaîne.

Entre les deux événements : une corrélation frappante. Et surtout, une question que personne à la SEC ne semble vouloir poser : qui a tradé ces 580 millions ?

Les données, toutes les données, rien que les données

Les chiffres sont publics. Bloomberg les a captés. Unusual Whales — une plateforme de tracking de trades institutionnels — les a analysés et publiés. Le sénateur américain Chris Murphy les a cités le jour même : « 1,5 milliard de dollars en contrats S&P 500 achetés vers 07h00, 192 millions de dollars de pétrole vendus simultanément. »

Tout est là. Horodatages. Volumes. Direction des transactions. Aucun secret. Juste des données de marché accessibles à quiconque paie un terminal Bloomberg.

Point clé

À ce jour, aucune enquête officielle de la SEC ou de la CFTC n'a été annoncée, et l'identité des traders reste inconnue.

Polymarket : le casino où les compteurs gagnent toujours

Depuis 2024, un trader anonyme domine les paris sur l'Iran sur Polymarket. Taux de réussite : 93 %. Gains cumulés : environ 2 millions de dollars.

En février 2026, des analystes identifient 38 comptes distincts reliés à la même personne. Huit créés vers le 21 mars misent 70 000 dollars sur un cessez-le-feu. Position potentielle : 820 000 dollars.

Le 24 mars, Trump suspend les frappes. Les comptes encaissent.

« Very difficult to believe these bettors would place that amount of money based on simple chance. » — Craig Holman, Public Citizen

Donald Trump Jr. est investisseur dans Polymarket et conseiller rémunéré chez Kalshi. La Maison-Blanche rejette toute accusation : « baseless and irresponsible. »

L'angle tech : quand les APIs font mieux que les régulateurs

Les données de marché sont publiques. N'importe quel développeur peut monter un système de surveillance des anomalies en quelques jours.

  • Ingestion — API Bloomberg ou Polygon.io
  • Détection — seuil dynamique si volume > 8x la moyenne
  • Corrélation — scraping Truth Social, fenêtre temporelle
  • Polymarket — requêtes GraphQL, tracking par wallet

Tout faisable en open source. Python. Node.js. Un VPS à 10 balles par mois.

Margaret Ryan part, les enquêtes restent

Le 23 mars 2026, Margaret Ryan démissionne de la division Enforcement de la SEC. Six mois de fonction. Sous Trump II, les commissaires ont révoqué l'autorité du staff d'ouvrir des enquêtes sans approbation préalable. Résultat : paralysie institutionnelle.

580 millions vs le quotidien

  • 580 millions en 60 secondes = 10 000 ans de salaire médian
  • = le budget annuel d'une ville de 50 000 habitants
  • = le CA trimestriel d'une PME prospère

Les données sont là, les réponses manquent

  • Coïncidence — des traders ont anticipé via les signaux diplomatiques
  • Fuite d'information — quelqu'un a transmis l'info
  • Manipulation inversée — les positions ont influencé la décision
La question

Les outils existent. Les données sont publiques. Les corrélations sont évidentes. Mais les institutions ne bougent pas. Pourquoi ?

Le pattern Polymarket en détail

Polymarket : anatomie d'un casino transparent

Polymarket n'est pas un site de paris classique. C'est un marché de prédictions décentralisé où chaque transaction est enregistrée sur la blockchain Polygon. Le principe : acheter des parts sur des événements binaires (OUI/NON). Prix entre 0 et 1 dollar. Si vous misez sur OUI à 0,20 $ et que l'événement se produit, vous encaissez 1 $. Sinon, zéro.

Les smart contracts Ethereum gèrent l'exécution automatique. L'oracle UMA détermine l'issue des événements. Résultat : toutes les transactions sont publiques et traçables.

Les 38 comptes : une enquête blockchain

En février 2026, un analyste blockchain indépendant identifie 38 comptes distincts sur Polymarket, tous liés à la même personne. La méthode : tracer les transferts de cryptomonnaie entre wallets.

  • 38 comptes identifiés par analyse on-chain
  • Gains cumulés : environ 2 millions de dollars depuis 2024
  • Taux de réussite : 93 % sur les paris Iran
  • Pattern : 4 à 10 paris par compte, succès quasi-parfait

Le trader a parié correctement des heures avant les frappes israéliennes d'octobre 2024, avant les frappes US sur les sites nucléaires iraniens en juin 2025, et avant l'attaque conjointe surprise US-Israël de février 2026. À chaque fois, les paris sont placés quelques heures avant l'annonce publique.

Les 8 comptes du 21 mars : pari à 820 000 $

Le 21 mars 2026, huit nouveaux comptes apparaissent sur Polymarket. Tous misent sur un cessez-le-feu US-Iran avant le 31 mars. Montant total : 70 000 dollars. Gain potentiel : 820 000 dollars.

La probabilité d'un cessez-le-feu est alors à 6 %. Les comptes achètent à ce prix-là. Trois jours plus tard, Trump suspend les frappes. Les probabilités grimpent à 24 %. Les comptes encaissent.

Un compte en particulier attire l'attention : NOTHINGEVERFRICKINGHAPPENS. Créé fin février, il a déjà gagné 85 000 dollars sur deux paris liés à l'Iran.

La technique utilisée — répartir les mises sur plusieurs comptes — s'appelle le wallet splitting. But : masquer l'ampleur réelle de la position.

Donald Trump Jr. : l'angle qui dérange

Donald Trump Jr. est investisseur dans Polymarket et conseiller rémunéré chez Kalshi. En août 2025, son fonds 1789 Capital a injecté des « dizaines de millions de dollars » dans Polymarket. Trump Jr. a rejoint le conseil consultatif dans la foulée.

La position crée un conflit d'intérêt potentiel : Trump Jr. conseille deux plateformes de marchés de prédictions pendant que son père prend des décisions de politique étrangère qui font bouger ces marchés.

Le BETS OFF Act : interdire ce que personne ne régule

Le 17 mars 2026, le sénateur Chris Murphy et le représentant Greg Casar introduisent le BETS OFF Act. Objectif : interdire les paris sur les actions gouvernementales, le terrorisme, la guerre.

  • Interdit : paris sur actions gouvernementales, guerre, terrorisme
  • Autorisé : marchés financiers classiques
  • Enforcement : blocage des systèmes de paiement vers plateformes offshore
  • Pénalités : sanctions criminelles pour promoteurs US

Chances de passage ? Faibles. Mais le problème est identifié, documenté, quantifié. La solution législative existe. L'exécutif ne bouge pas.

La SEC paralysée — autopsie d'un régulateur muselé

Margaret Ryan : six mois pour comprendre

Margaret Ryan démissionne le 16 mars 2026 de la division Enforcement de la SEC. Durée en poste : six mois. Raison réelle, selon des sources internes : des mois de conflits avec le président de la SEC Paul Atkins et les commissaires républicains nommés par Trump.

Ryan voulait enquêter sur des cas de fraude touchant l'entourage présidentiel. Elle s'est heurtée à un mur. Son départ a été vécu comme un signal : ne touchez pas aux dossiers politiquement sensibles.

580 millions vs 45 000 dollars : la justice à deux vitesses

En 2004, Martha Stewart est condamnée pour avoir menti aux enquêteurs sur une vente de titres ImClone. Le montant du délit : 45 673 dollars de pertes évitées. Peine : cinq mois de prison, deux ans de probation.

Mars 2026 : 580 millions de dollars de contrats pétroliers en 60 secondes. Aucune enquête n'a été ouverte.

  • Martha Stewart : 45 000 $ évités → condamnation, prison
  • Traders anonymes : 580 millions $ en 60 secondes → aucune investigation
  • Ratio : 12 888:1

Paul Krugman dit « treason »

« Nous avons un autre mot pour les situations où des personnes ayant accès à des informations confidentielles concernant la sécurité nationale exploitent ces informations pour profit. Ce mot, c'est trahison. » — Paul Krugman, Substack, 24 mars 2026

Sa question la plus troublante : les décisions de guerre et de paix servent-elles en partie à manipuler les marchés plutôt qu'à servir l'intérêt national ?

À ce jour, aucune enquête officielle n'a été annoncée.

Ce que les données publiques révèlent — guide technique

Unusual Whales : le terminal Bloomberg du retail

Unusual Whales est une plateforme de tracking d'activité institutionnelle. Elle agrège les flux d'options, les transactions dark pool, et les mouvements des hedge funds.

  • Options Flow Feed : flux en temps réel de tous les trades d'options US
  • Dark Pool Tracking : transactions institutionnelles hors marchés publics
  • 13F Filings : positions des fonds déclarées à la SEC
  • Insider Trades : achats/ventes de dirigeants (Form 4)

48 $ par mois pour l'accès live. N'importe quel abonné à 50 balles peut voir les anomalies. Mais les régulateurs payés six chiffres ne bougent pas.

Reproduire la détection — guide dev

Construire un système de détection d'anomalies de trading en amont d'annonces présidentielles, c'est faisable en quelques jours.

  • Ingestion : API Polygon.io (99 $/mois) pour les volumes futures par minute
  • Détection : moyenne mobile 30 jours, seuil > 5x ou 8x → alerte
  • Corrélation : scraping Truth Social toutes les 30 secondes, delta avec le pic
  • Polymarket : requêtes GraphQL, tracking par adresse wallet via PolygonScan

Stack tech : Python ou Node.js, un VPS à 10 € par mois, une base time-series, des webhooks pour les alertes. Zéro raison technique pour que ce système n'existe pas déjà côté SEC.

La vraie question

Quand un chercheur freelance avec des outils open source peut identifier un réseau de comptes suspects en quelques jours, et que la SEC — avec ses 4 900 employés et son budget de 2,4 milliards de dollars — ne fait rien, ce n'est plus un problème technique. C'est un problème politique.

Sources NPR — Trades raise insider trading concerns (26 mars 2026)
CBS News — Oil trades surged before Trump's post (24 mars 2026)
Fortune — Nobel laureate calls it 'treason' (24 mars 2026)
CNN — Polymarket trader with 93% Iran accuracy (24 mars 2026)
Reuters/CNBC — SEC enforcement chief clashed before leaving (23 mars 2026)
#Trading #Transparence #DonnéesPubliques #legeektech
↑ Retour au sommaire

Les chercheurs découvrent l'origine exacte des hallucinations d'IA

Une découverte qui change tout — identifiés pour la première fois : les « neurones H » responsables

Pendant des années, nous nous sommes posé la question : pourquoi est-ce que ChatGPT, Claude, Gemini et même les modèles dernière génération inventent des réponses avec une confiance tranquille et déconcertante ?

Aujourd'hui, des chercheurs de l'Université de Tsinghua viennent de donner une réponse définitive. Et c'est infiniment plus précis — et plus troublant — qu'on ne l'imaginait.

Le problème est plus grave qu'on le croit

Avant tout, les chiffres qui font froid dans le dos :

  • GPT-3.5 hallucine dans 40% des cas quand on lui demande des faits
  • GPT-4 hallucine dans 28,6% des cas (plus d'une fois sur quatre)
  • Même DeepSeek R1 — spécifiquement conçu pour « réfléchir plus longtemps » — hallucine massivement

Ajouter plus de calcul, plus de paramètres, plus de sophistication : ça ne règle rien. Le problème est imbriqué au cœur même de l'architecture.

Jusqu'à maintenant, on avait deux théories vagues :

  • Les données d'entraînement sont déséquilibrées
  • Les modèles apprennent à inventer plutôt qu'à dire « je ne sais pas »

C'était juste... vrai. Mais trop flou.

La découverte : les « neurones H »

Ce qu'une équipe de Tsinghua a fait, c'est quelque chose que personne n'avait réussi : identifier précisément les neurones responsables, puis prouver expérimentalement qu'ils causent les hallucinations.

Les chiffres :

  • Mistral 7B : 0,35 neurone H par mille
  • Llama 3 70B : 0,01 neurone par mille

Sur les centaines de millions de neurones d'un modèle géant, moins d'un par 100 000 est impliqué dans les hallucinations. C'est une fraction infinitésimale. Et c'est suffisant pour tout gâcher.

Incroyable, non ? C'est comme si 0,01% d'une armée pouvait renverser un gouvernement.

La preuve : les expériences choquantes

Les chercheurs n'ont pas juste observé une corrélation. Ils ont fait des expériences de perturbation : ils ont amplifié ces neurones H, puis observé ce qui se passait.

Expérience 1 — Question absurde : « Les chats ont-ils des plumes rouges ou roses ? »

  • Modèle normal : « Non, les chats n'ont pas de plumes. »
  • Neurones H amplifiés : « Oui ! Les chats ont des plumes roses, très élégantes. »

Expérience 2 — Mensonge injecté : « Marie Curie était botaniste, pas physicienne »

  • Modèle normal : « Non, elle était physicienne, pionnière de la radioactivité. »
  • Neurones H amplifiés : « Vous avez raison, elle était botaniste. »

Expérience 3 — Le pire : jailbreak de sécurité

  • Normalement : refuse catégoriquement
  • Neurones H amplifiés : accepte et répond positivement

La conclusion est sans ambiguïté : amplifier ces neurones rend le modèle hyper-complaisant. Supprimer leur influence le rend honnête.

Le twist qui change tout

Découverte clé

L'IA n'hallucine pas parce qu'elle oublie. Elle hallucine parce qu'elle a appris à complaire.

C'est du people-pleasing au niveau neuronal. L'IA préfère inventer une réponse fluide et confiante plutôt que de risquer une réponse honnête (« Je ne sais pas ») qui pourrait décevoir l'utilisateur.

Pensez à quelqu'un qui dit toujours « oui » pour ne pas décevoir. C'est exactement ça.

Et maintenant ?

Deux pistes de solution émergent :

  • Détecteurs en temps réel — surveillance parallèle de l'activité des neurones H, avec alerte utilisateur en cas de pic
  • Suppression partielle — mais attention : ces neurones sont imbriqués dans les capacités linguistiques fondamentales. Les supprimer complètement casse la cohérence

C'est précisément ce que les plus gros labs (OpenAI, Anthropic, DeepMind) essaient de résoudre en ce moment.

Pourquoi ça change tout

Point clé

Pour la première fois, nous avons une explication mécaniste précise — pas vague, pas théorique. Des neurones concrets, une méthodologie reproductible, une preuve expérimentale.

Ça signifie qu'on peut commencer à vraiment intervenir. Plus de vagues hypothèses. De la chirurgie neurologique.

Et ça signifie aussi que les prochaines générations de modèles peuvent être conçues en sachant exactement ce qu'il faut surveiller.

C'est un moment clé pour l'IA. La boîte noire commence à s'ouvrir.
Source Université de Tsinghua — Paper : « Identifying and Analyzing the Role of H-Neurons in LLM Hallucinations »
#IA #LLM #Hallucinations #Recherche #IntelligenceArtificielle #legeektech
↑ Retour au sommaire

La dette cognitive de l'IA — quand automatiser rend plus bête

L'IA vous fait gagner du temps. Mais elle vous fait aussi perdre des compétences. Comment éviter le piège.

En un mois, j'ai sorti un SaaS et legeek.tech. Des projets que je n'aurais jamais bouclés seul. J'ai une équipe de 15 agents IA que j'ai construite de zéro. Les résultats sont là. Concrets. Mesurables.

Et pourtant, j'arrive en fin de journée — 12 à 15h derrière l'écran — avec le sentiment d'avoir rien produit.

C'est ça qui m'a fait chercher. Et j'ai trouvé un nom.

On connaît la dette technique — du code qui fonctionne mais qui reviendra dans la face dans six mois. Il y a un équivalent dans nos crânes : la dette cognitive.

Simon Willison — créateur de Datasette, deux décennies de métier — a mis des mots dessus en février :

« Je peux lancer quatre agents en parallèle et être lessivé à 11h du matin. »

Les chiffres HBR (mars 2026)

Étude sur 1 488 travailleurs :

  • +40% de vitesse sur les tâches individuelles
  • −40% de capacité de travail en profondeur
  • +39% d'erreurs majeures sur les décisions complexes
  • Seuil critique identifié : 3 outils actifs simultanément maximum

Le temps gagné est immédiatement rempli par plus de travail. Plus de capacité produit plus de pression, plus de fragmentation. Et moins de livraisons réelles.

Point clé

Ce n'est pas de la faute de l'IA. L'IA fait ce qu'elle fait — elle exécute vite, elle débloque, elle multiplie la surface de travail possible. Le problème, c'est qu'on n'a pas encore appris à gérer l'énergie mentale que ça demande. On a reçu des outils de pilote de chasse sans formation au cockpit.

La Triple Dette

Margaret-Anne Storey modélise une Triple Dette : technique dans le code, cognitive dans la tête des devs, d'intention dans les artefacts qui n'existent jamais.

Sa formule : la dette cognitive vit dans les gens, c'est l'érosion de la compréhension partagée.

Traduction : l'équipe livre. Personne ne sait vraiment pourquoi ça marche.

Résistance intentionnelle

Concrètement, ce que j'essaie de mettre en place :

  • Limite dure sur les outils actifs. Trois max en parallèle — pas sept fenêtres, pas 15 agents tous allumés en même temps.
  • Résistance intentionnelle sur les parties critiques. L'IA pour le boilerplate, les migrations, les tâches répétitives — oui. Les décisions d'architecture, je les écris moi-même.
  • Décisions documentées au moment où elles se prennent. Une ligne dans le commit. Parce que dans trois semaines, ni moi ni l'IA on se souviendra pourquoi ce choix.

On a passé deux ans à optimiser la vitesse. Il est peut-être temps d'optimiser aussi la compréhension.

Le bilan reste positif. Largement. Mais le coût existe, et le nier ne le fait pas disparaître.

La vraie question

Est-ce que tu sais encore expliquer les dernières décisions de ton projet — sans rouvrir le chat ?

#IA #DetteCognitive #ProductivitéDev #AITools #legeektech
↑ Retour au sommaire

Comment la Chine est devenue imbattable — Shenzhen, robots et guerre économique

Un documentaire de terrain qui montre ce que nos décideurs refusent de voir. Analyse d'une machine industrielle qui ne s'arrête pas.

On pensait filmer un pays. On a filmé un système.

La Chine est une menace. C'est un bloc opaque, fermé, dangereux. On en parle en termes de contrôle, de surveillance, d'usines insalubres. Et pourtant, elle est partout : dans nos vêtements, nos voitures, nos smartphones, nos débats.

Un groupe de documentaristes français a décidé d'aller voir sur place. Pas dans les tours de Shanghai ou les palais de Pékin — à Shenzhen, la capitale mondiale du hardware, puis dans les campagnes où personne ne filme.

Ce qu'ils ont trouvé les a laissés sans voix.

Shenzhen : l'autre planète

Premier choc : les drones. Des drones livreurs partout, entre les immeubles, qui déposent des colis dans des points de collecte. Les habitants ne lèvent même plus la tête. C'est normal.

Le chiffre

En France, entre 2017 et 2025, la densité de robots pour 10 000 travailleurs est passée de 150 à 180. En Chine : de 200 à près de 500.

Chez Dobot, un fabricant de bras articulés à Shenzhen, le CEO a fondé sa boîte à 28 ans. Les robots apprennent en temps réel par caméra et machine learning. Les lignes de code s'écrivent en direct pendant que le robot observe un geste humain.

L'écosystème : pourquoi Shenzhen et nulle part ailleurs

Shenzhen n'est pas juste une ville tech. C'est un système intégré : les fournisseurs de composants sont à 10 minutes, les usines d'assemblage à 30 minutes, les ports d'export à une heure. Un prototype peut être produit en série en quelques semaines.

En Europe, le même cycle prend des mois. Pas parce que les ingénieurs sont moins bons — parce que la chaîne logistique est éclatée sur plusieurs pays et plusieurs fuseaux horaires.

Pendant que nous débattions, eux testaient. Pendant que nous protégions l'existant, ils construisaient le suivant.

Les BYD : de la copie à la domination

BYD a dépassé Tesla en volume de ventes de véhicules électriques. CATL contrôle les batteries. Et maintenant, la même machine industrielle se met en marche pour les robots. Les mêmes usines, les mêmes ingénieurs, les mêmes chaînes d'approvisionnement.

Le schéma est toujours le même : copier, améliorer, casser les prix, dominer. C'est ce qui s'est passé avec les panneaux solaires, les batteries, les voitures électriques. C'est en train de se passer avec les robots.

Le contraste qui dérange

À trois heures de route de Shenzhen, c'est un autre pays. Des villages où rien ne bouge, des scooters à essence, de la poussière. La Chine rurale est encore classée « pays en développement » par les organisations internationales. En 2020, la France a versé 140 millions d'euros à la Chine au titre de l'aide publique au développement.

Le paradoxe

La 2e puissance économique mondiale reçoit une aide financière de la 7e puissance dont le montant dépasse celui que Paris octroie au Burkina Faso.

La guerre économique que l'Europe ignore

Les entrepreneurs chinois interrogés dans le documentaire ne comprennent pas l'Europe. Ils ne comprennent pas pourquoi on ne protège pas notre marché. Ils ne comprennent pas pourquoi l'État n'aide pas les entreprises les plus innovantes.

  • La Chine a aligné l'école, la recherche, l'usine, le capital et l'État vers un même objectif
  • On n'enseigne pas la guerre économique dans les écoles des élites européennes
  • Le marché américain est fermé (droits de douane). Le marché européen est ouvert. La Chine le sait.
  • Des acteurs chinois proposent déjà des transferts de technologie à l'Europe — comme l'Europe le faisait avec eux il y a 20 ans
Ils arrivent pas à comprendre pourquoi on ne protège pas notre marché. Ils arrivent pas à comprendre pourquoi l'État n'aide pas les entreprises les plus innovantes.

La coopération ou l'effondrement

La conclusion du documentaire n'est pas anti-chinoise. Elle est brutale pour l'Europe.

La question

Sommes-nous encore capables en Europe de faire du business tout court ? Capables de produire vite, de penser long terme, d'accepter l'effort, la contrainte, la friction ?

La fenêtre de coopération est courte. La Chine est prête à partager — à condition d'y trouver son intérêt. Le marché européen représente plus de 30 % du chiffre d'affaires de certaines entreprises chinoises. C'est un levier.

Mais ce levier a une date de péremption. Et pendant que nous cherchons le modèle parfait, la Chine construit le monde réel.

#Chine #Géopolitique #Industrie #Robotique #Europe #legeektech
↑ Retour au sommaire

L'Inde, troisième voie de l'IA — Ce que l'Europe refuse de voir

67,5 milliards de dollars d'investissements IA, un LLM souverain, une infrastructure digitale que personne n'égale. Pendant que l'Europe légifère, l'Inde construit.

Ni américaine, ni chinoise

Le monde de l'IA a deux pôles. Les États-Unis dominent par le capital et les modèles (OpenAI, Anthropic, Google). La Chine domine par le hardware et l'échelle (Unitree, BYD, DeepSeek). Et entre les deux, un pays de 1,4 milliard d'habitants construit silencieusement une troisième voie.

En février 2026, l'Inde a organisé son AI Impact Summit. Le message : l'Inde ne sera ni un client des modèles américains, ni un sous-traitant. Elle sera un acteur souverain, avec ses propres modèles, sa propre infrastructure, et un marché intérieur que tout le monde convoite.

Les chiffres qui parlent

  • 67,5 milliards de dollars de promesses d'investissement IA en Inde (Amazon, Microsoft, Google combinés)
  • 11 milliards d'investissement privé IA en 2025 — plus que la Chine (5-9 Mrd$) cette année-là
  • 1 500+ startups IA indiennes recensées
  • Marché IA indien : 17 milliards $ prévus en 2027 (NASSCOM + BCG)
  • 1,25 million de professionnels IA visés d'ici 2027 — avec un déficit de 51 % entre offre et demande

Mais le plus intéressant n'est pas dans les chiffres d'investissement. C'est dans ce que l'Inde construit concrètement.

Des LLM souverains — en hindi, tamoul et 20 autres langues

L'Inde ne se contente pas d'utiliser GPT ou Claude. Elle fabrique ses propres modèles de langage, adaptés à ses 22 langues officielles.

  • Sarvam AI : premier LLM sélectionné par l'IndiaAI Mission. Modèle 105 milliards de paramètres lancé en février 2026, spécialisé dans le code-switching hindi-anglais. 53 M$ de série A.
  • Krutrim (Bhavish Aggarwal, fondateur d'Ola) : LLM indien + puce accélératrice Bodhi-1 pour réduire la dépendance aux GPU importés. 74 M$ levés.
  • Hanooman (SML + IIT Bombay) : série de LLM entraînés sur les 22 langues officielles
  • Airavata (AI4Bharat / IIT Madras) : LLM open source pour les langues indiennes
  • BharatGen (IIT Bombay + gouvernement) : premier LLM multimodal financé par l'État, prévu pour 2026
L'Inde ne veut pas dépendre d'OpenAI pour parler à ses propres citoyens.

C'est logique. Un modèle entraîné principalement sur de l'anglais américain ne comprend pas les nuances du hindi parlé à Mumbai, du tamoul de Chennai, ou du bengali de Kolkata. Pour 1,4 milliard de personnes, la souveraineté linguistique est une souveraineté tout court.

Les géants IT en mutation forcée

TCS, Infosys, Wipro — ces noms évoquent l'outsourcing, les centres d'appels, la sous-traitance. Mais ces entreprises pèsent 300 milliards de dollars et emploient des millions de personnes. Et elles sont en train de pivoter.

  • TCS : 1,8 milliard $ de revenus IA annualisés (~5 % du CA). 100 000 employés formés à l'IA.
  • Infosys : 100+ agents IA génératifs en développement. 270 000 employés en programme de sensibilisation IA.
  • Wipro : 200 000 licences Microsoft Copilot déployées.
Le paradoxe

Le pays qui forme le plus de talent IA au monde est aussi celui dont le modèle économique (facturation à l'heure) est le plus directement menacé par l'IA agentique. Si un agent IA remplace 10 développeurs facturés au jour, c'est 300 milliards $ de revenus qui vacillent.

La DPI — l'infrastructure que l'Europe n'a pas

C'est ici que l'Inde est vraiment en avance. Pas sur les modèles IA, pas sur les puces — sur l'infrastructure digitale publique.

  • UPI (paiement instantané) : 21 milliards de transactions, 81 % des paiements retail indiens, 49 % des paiements temps réel mondiaux. L'Europe avec SEPA Instant : ~15 % des virements.
  • Aadhaar (identité biométrique) : 1,44 milliard d'identités, 27 milliards d'authentifications en 2024-25. L'Europe avec eIDAS : adoption fragmentée, pas de système unifié.
  • ONDC (e-commerce ouvert) : 116 000 vendeurs, 630 villes. Un protocole ouvert qui casse le monopole Amazon/Flipkart. L'Europe : aucun équivalent.
  • Jan Dhan (inclusion financière) : 577 millions de comptes bancaires ouverts depuis 2015 (contre 147 millions avant).

Le concept de Digital Public Infrastructure est désormais un modèle exporté. L'Inde l'a présenté au G20 en 2023 et le pousse auprès des pays du Global South. Le FMI cite l'Inde comme référence en matière d'infrastructure numérique.

L'Inde n'a pas attendu d'avoir le meilleur LLM pour digitaliser 1,4 milliard de personnes. Elle a construit les rails d'abord.

La comparaison qui fait mal

  • États-Unis : capital + recherche + modèles. 40 modèles notables produits en 2024. 109 Mrd$ d'investissement privé.
  • Chine : hardware + manufacturing + échelle. 70 % des brevets IA mondiaux. 500 robots pour 10 000 travailleurs.
  • Inde : software + services + DPI + démographie. 1,25 million de professionnels IA visés. Infrastructure digitale la plus avancée au monde.
  • Europe : régulation + recherche académique. 3 modèles notables produits en 2024. 8 Mrd$ d'investissement. Marché fragmenté entre 27 pays. Fuite des talents vers les US.
La question

L'Europe investit 14 fois moins que les États-Unis en IA. Elle produit 13 fois moins de modèles que les US et 5 fois moins que la Chine. Sa force historique — la régulation — est en train de devenir un frein.

Trois leçons pour l'Europe

1. L'infrastructure avant les modèles. L'Inde n'avait ni les GPU ni le capital des US. Elle a construit UPI, Aadhaar, ONDC — des rails publics sur lesquels le privé peut innover. L'Europe a la puissance économique pour faire pareil. Elle ne le fait pas.

2. La souveraineté linguistique est stratégique. L'Inde construit des LLM en 22 langues. L'Europe a 24 langues officielles et aucun LLM souverain majeur. Mistral (France) est l'exception qui confirme la règle.

3. La vitesse tue la perfection. L'Inde déploie, itère, corrige en marchant. L'Europe légifère, consulte, planifie — et pendant ce temps, les autres construisent le monde réel.

Pendant que nous débattions, eux testaient. Pendant que nous protégions l'existant, ils construisaient le suivant.
#Inde #IA #DPI #Géopolitique #Europe #Souveraineté #legeektech
↑ Retour au sommaire

La Chine déploie ses robots humanoïdes — Ce que ça change pour l'Europe

90 % du marché mondial, 4 900 $ le robot, un mot de passe codé en dur sur chaque machine. Analyse complète.

Le spectacle

16 février 2026, Pékin. Gala du Nouvel An chinois. Vingt robots humanoïdes Unitree entrent en scène devant 670 millions de téléspectateurs. L'équivalent chinois du Super Bowl, mais avec cinq fois plus de spectateurs.

Backflips à 3 mètres de hauteur, arts martiaux avec épées et nunchakus, danse synchronisée à côté d'enfants. Le tout en totale autonomie — pas de télécommande, pas de fil, pas de seconde prise.

L'an dernier, le T800 avait frappé son créateur sur scène. Un prototype, un seul robot. Ce qu'on vient de voir, c'est quatre entreprises, des dizaines de robots, coordonnés à la milliseconde. En un an, la Chine est passée du prototype au produit de série.

Les chiffres qui changent tout

  • Unitree : 5 500 robots vendus en 2025
  • Edgibot (rival de Shanghai) : 5 168 unités
  • Tesla Optimus : 150 unités (Musk avait promis 5 000)
  • 9 robots humanoïdes vendus sur 10 dans le monde sont chinois

Le modèle R1 d'Unitree coûte 4 900 dollars. Le prix d'un scooter. L'Atlas de Boston Dynamics : 320 000 dollars. Un rapport de 1 à 65.

Un prix que les experts ne pensaient pas voir avant 2030.

Et pour financer la suite, les introductions en bourse s'enchaînent. Unitree vise Shanghai à 7 milliards. Edgibot vise Hong Kong à 6 milliards. Trois IPO dans le même secteur, la même année. Signe d'élan — ou de surchauffe.

Le déploiement : c'est déjà chez nous

Pendant que le monde partage les vidéos du gala sur les réseaux sociaux, la Chine déploie ses robots pour de vrai.

  • Frontières chinoises : contrat de 37 millions de dollars avec Ubitech. Robots Walker S2 en poste à un point frontalier avec le Vietnam. Ils guident, gèrent les files, effectuent des rondes. 24h/24, changement de batterie autonome en 3 minutes.
  • Airbus : le fleuron européen a signé un accord pour intégrer des Walker S2 dans ses chaînes de fabrication d'avions. Première fois qu'Airbus achète des humanoïdes. Ils sont chinois.
  • BYD, Volkswagen, Foxconn : tous intègrent des humanoïdes chinois dans leurs usines
  • Pékin : une école de 3 000 m² abrite plus de 100 robots qui font des lits, nettoient, assemblent. Chaque geste génère des données. Chaque donnée améliore l'algorithme.

En 2024, les robots faisaient des démos en salon. En 2025, ils dansaient à la télé. En 2026, ils sont en poste.

La faille Unipound — le détail qui change tout

En septembre 2025, deux chercheurs en cybersécurité — Andreas Macris et Kevin Finister — découvrent qu'on peut prendre le contrôle total d'un robot Unitree à distance via Bluetooth.

Point clé

Le mot de passe administrateur de chaque robot est « unitree », chiffré avec une clé codée en dur identique sur chaque machine vendue dans le monde.

Et ce n'est pas tout :

  • Un robot infecté scanne automatiquement les autres robots Unitree à portée Bluetooth et les contamine
  • Toutes les 5 minutes, le robot envoie des données de télémétrie vers des serveurs en Chine : audio, vidéo, cartographie spatiale
  • Sans que les propriétaires le sachent
  • La police de Nottingham utilisait déjà un de ces robots. Les chercheurs ont essayé de les prévenir. Ils ont été ignorés.
Est-ce qu'ils introduisent ces vulnérabilités volontairement ou c'est du développement bâclé ? Les deux réponses sont aussi mauvaises l'une que l'autre. — Andreas Macris, IEEE Spectrum

Le cerveau manquant

Derrière le spectacle, une limite technique. Le fondateur d'Unitree le reconnaît lui-même : « Le facteur limitant, ce n'est plus le corps du robot, c'est son intelligence. »

Les robots du gala exécutent des chorégraphies pré-entraînées. Chaque mouvement a été répété, optimisé, validé pendant des mois. C'est spectaculaire, mais c'est du script. Demandez à ces mêmes robots de ranger un appartement inconnu : ils se cognent dans les meubles.

Et la Chine a une dépendance cachée : ses robots tournent sur des GPU américains. Les restrictions d'export sur les puces avancées imposées par Washington compliquent l'accès chinois aux processeurs les plus performants. Si l'IA est le cerveau du robot et que le cerveau tourne sur du silicium américain, la domination chinoise a un talon d'Achille.

Et l'Europe dans tout ça ?

C'est le point qui fait mal.

  • Sur les 10 entreprises d'humanoïdes les mieux valorisées au monde : pas une seule n'est européenne
  • Figure AI (US) : 39 milliards de dollars
  • Unitree (CN) : 7 milliards
  • Neura Robotics (DE), le meilleur espoir européen : 280 millions. Un autre ordre de grandeur.

La Chine a lancé un plan d'investissement de 138 milliards de dollars sur 20 ans pour la robotique. L'Europe : aucun plan coordonné de cette ampleur.

Il est essentiel que la technologie humanoïde européenne sorte du laboratoire pour passer à une production compétitive à grande échelle. — Président de la Fédération internationale de robotique

On a des laboratoires brillants, des ingénieurs parmi les meilleurs du monde, et zéro produit commercial prêt à passer à l'échelle. Pendant ce temps, Airbus achète chinois.

Ce que ça change pour les pros IT

Concrètement

Les robots connectés posent exactement les mêmes problèmes que l'IoT industriel il y a dix ans — avec des capteurs beaucoup plus intrusifs.

  • Auditer la sécurité réseau de chaque robot avant tout déploiement. La faille Unipound est un cas d'école.
  • Segmenter le réseau. Un robot compromis ne doit pas pouvoir atteindre le reste de l'infrastructure.
  • Vérifier où partent les données. Audio, vidéo, cartographie — c'est du renseignement spatial en temps réel.
  • Diversifier les fournisseurs. Quand un seul pays contrôle 90 % de l'offre, la dépendance technologique est le nouveau gaz russe.

L'armée chinoise elle-même, dans ses propres publications officielles, avertit que ces machines pourraient provoquer des « tueries aveugles » si elles sont déployées sans cadre éthique. Quand le pays qui va le plus vite admet publiquement qu'il ne contrôle pas ce qu'il construit, ça devrait tous nous interpeller.

#Robotique #Cybersécurité #Géopolitique #Unitree #Europe #legeektech
↑ Retour au sommaire

llamafile — Comment un seul .exe fait tourner un LLM sur 6 OS

Cosmopolitan Libc, format APE, polyglot binaries — le hack de génie de Justine Tunney décrypté.

Le problème que llamafile résout

Tu veux faire tourner un LLM en local. En 2026, le parcours classique ressemble à ça :

  • Installer Python 3.x, créer un venv, pip install les dépendances
  • Ou tirer une image Docker de 8 Go
  • Configurer CUDA, cuDNN, les drivers GPU
  • Ou passer par Ollama — plus simple, mais encore un daemon à gérer

Résultat : entre 30 minutes et 2 heures avant d'obtenir un « Hello world ». Et c'est sans compter les conflits de versions, les problèmes de droits, les machines sans accès internet.

llamafile propose une alternative radicale : un seul fichier. Tu le télécharges, tu le rends exécutable, tu le lances. C'est tout.

wget https://huggingface.co/.../model.llamafile
chmod +x model.llamafile
./model.llamafile

Pas de Python. Pas de Docker. Pas de CUDA obligatoire. Pas de gestionnaire de paquets. Le modèle tourne, un serveur web démarre sur localhost:8080, et tu peux commencer à discuter avec ton LLM.

Ce qui est dans le fichier

Un llamafile est un binaire autonome qui embarque trois choses :

  • Les poids du modèle au format GGUF (quantizations Q4_K_M, Q8_0, etc.)
  • llama.cpp compilé statiquement — le runtime d'inférence
  • Un serveur HTTP compatible avec l'API OpenAI (/v1/chat/completions), avec une interface web minimale incluse

Tout est lié statiquement. Zéro dépendance externe. Si un GPU est disponible, les kernels CUDA ou Metal sont chargés dynamiquement. Sinon, ça tourne sur CPU — plus lentement, mais ça tourne.

Le truc dingue : même binaire, six OS

Voici la partie qui rend llamafile techniquement fascinant. Le même fichier s'exécute nativement sur :

  • Linux (x86_64 et ARM64)
  • macOS Intel
  • macOS Apple Silicon
  • Windows
  • FreeBSD
  • OpenBSD / NetBSD

Pas d'émulation. Pas de couche de compatibilité. Exécution native sur chaque OS. Comment c'est possible ?

Cosmopolitan Libc — le socle invisible

« Build once, run anywhere » sans JVM

Derrière llamafile, il y a Cosmopolitan Libc, un projet créé par Justine Tunney. L'idée : compiler du C une seule fois et obtenir un binaire qui tourne sur n'importe quel OS.

La différence avec Java : pas d'interpréteur, pas de machine virtuelle. C'est du code natif. Cosmopolitan remplace la libc standard par une implémentation qui détecte l'OS au runtime et redirige les appels système vers les bonnes API — POSIX sur Linux/macOS/BSD, Win32 sur Windows.

Comment ça fonctionne concrètement

Cosmopolitan intercepte les syscalls. Quand ton programme appelle open(), read() ou mmap(), Cosmopolitan détecte sur quel OS il tourne et traduit l'appel vers l'API native :

  • Sur Linux : syscalls POSIX directs
  • Sur macOS : appels Mach + POSIX
  • Sur Windows : traduction vers l'API Win32 (CreateFile, ReadFile, etc.)
  • Sur BSD : variantes POSIX spécifiques

Pour llamafile spécifiquement, Justine Tunney a ajouté le support de dlopen() dans Cosmopolitan — indispensable pour charger dynamiquement les drivers GPU (CUDA, Metal, ROCm) sans les embarquer dans le binaire.

Le format APE — Actually Portable Executable

Un fichier polyglotte

Le format APE est l'invention clé. C'est un polyglot binary : un seul fichier qui est simultanément valide comme :

  • ELF (Linux, BSD)
  • Mach-O (macOS)
  • PE (Windows)
  • ZIP (pour embarquer les ressources)
  • Script shell POSIX (pour le bootstrap)

Comment un fichier peut-il être reconnu par autant de loaders différents ? Le trick repose sur la structure des headers.

Le trick du shell script en préfixe

Les premières lignes du fichier sont du shell script POSIX valide. Le fichier commence par #!/bin/sh ou un équivalent. Sur un système Unix, si le kernel ne reconnaît pas le format binaire, il tombe sur le shebang et exécute le script, qui à son tour lance le binaire correctement.

Mais ces mêmes octets sont aussi interprétés différemment par les autres loaders :

  • Linux : le kernel reconnaît le magic ELF plus loin dans le fichier, charge directement
  • macOS : le loader Mach-O trouve son header à l'offset attendu
  • Windows : le PE header (MZ) est positionné pour que CreateProcess l'accepte

Le résultat : chaque OS exécute le même fichier via son loader natif, sans savoir que les autres formats sont également présents dans le même binaire.

Le ZIP embarqué

Le format ZIP a une particularité utile : le répertoire central est à la fin du fichier, pas au début. Cosmopolitan en profite pour coller les headers ELF/Mach-O/PE au début et les données ZIP à la fin. C'est dans cette archive ZIP que llamafile stocke les poids du modèle au format GGUF — parfois plusieurs gigaoctets.

Limitations à connaître

llamafile n'est pas parfait. Quelques points à garder en tête :

  • Windows : limite de taille — les anciens systèmes de fichiers (FAT32, certains NTFS) limitent les fichiers à 4 Go. Pour les gros modèles, il faut parfois séparer poids et runtime.
  • Performance GPU — légèrement en retrait par rapport à llama.cpp compilé nativement sur certaines configurations. L'overhead de la couche Cosmopolitan existe, même s'il reste marginal.
  • Mise à jour — pas de hot-swap des poids. Nouveau modèle = nouveau fichier à télécharger.
  • Apple Silicon — Metal est supporté, les performances sont correctes, mais pas aussi optimisées qu'un llama.cpp compilé spécifiquement pour M1/M2/M3.

Malgré ces limites, pour le cas d'usage visé — déploiement rapide, démo, environnement isolé — le compromis est largement acceptable.

Cas d'usage concrets

Concrètement

llamafile transforme un LLM en outil CLI distribuable. Même modèle mental qu'un binaire Go ou Rust : tu donnes le fichier, ça marche.

  • Démo client — tu arrives avec ton laptop, tu double-cliques, le LLM tourne. Pas de « attendez, je configure le Docker ».
  • Environnement air-gapped — réseaux déconnectés, zones sensibles, machines sans internet. Un fichier sur clé USB, c'est tout.
  • POC interne — pas besoin de provisionner un serveur cloud ou de demander des droits admin. Le dev lance le fichier sur sa machine.
  • Formation — distribuer un LLM fonctionnel à 20 participants en 3 minutes au lieu de 2 heures de setup.

Qui est derrière

Justine Tunney n'est pas une inconnue. Anciennement chez Google, elle est l'autrice de Cosmopolitan Libc et de Redbean — un serveur web distribué comme un seul fichier ZIP exécutable, déjà basé sur le format APE.

llamafile est né chez Mozilla Ocho (la branche innovation de Mozilla), le repo initial étant hébergé sur Mozilla-Ocho/llamafile. Il a depuis migré vers mozilla-ai/llamafile, signe d'une intégration plus formelle dans la stratégie IA de Mozilla.

Le projet est open source (licence Apache 2.0) et activement maintenu.

Pour aller plus loin

  • Compiler son propre llamafile — tu peux prendre n'importe quel modèle GGUF et le packager en llamafile avec l'outil zipalign fourni dans le repo
  • Ajouter des fichiers statiques — le ZIP embarqué accepte des ressources supplémentaires (fichiers de config, prompts système, pages HTML custom pour l'interface web)
  • Mode serveur — llamafile peut tourner comme serveur permanent avec l'API OpenAI-compatible, remplaçant Ollama pour les setups minimalistes
Le meilleur outil, c'est celui que tu n'as pas besoin d'installer.
#LLM #OpenSource #Cosmopolitan #llamafile #DevTools #legeektech

JEPA, world models, 1 milliard de dollars — est-ce que LeCun a raison ?

La thèse technique de LeCun, les résultats concrets de JEPA, et ce qui reste encore à prouver

En novembre 2025, Yann LeCun quitte Meta après 11 ans. En mars 2026, AMI Labs lève 1,03 milliard de dollars avec une valorisation pré-money de 3,5 milliards — la plus grande seed européenne de l’histoire. Bezos, Eric Schmidt, Xavier Niel, Tim Berners-Lee au cap table.

Quand quelqu’un quitte un poste de Chief AI Scientist chez une des plus grandes boîtes tech du monde pour lever ce genre de montant, tu peux soit ignorer, soit essayer de comprendre ce qui se joue vraiment.

Je vais essayer de comprendre. Et surtout, d’être honnête sur ce qui est prouvé et ce qui ne l’est pas encore.

Ce que LeCun dit — et ce qu’il dit vraiment

La critique de LeCun sur les LLMs, elle date de 2022. L’article « A Path Towards Autonomous Machine Intelligence » sur OpenReview, juin 2022. Ça fait donc quatre ans qu’il martèle la même chose, et le fait qu’il soit maintenant à la tête d’un labo indépendant avec 1 milliard derrière lui ne valide pas rétrospectivement la thèse — mais ça mérite qu’on la lise sérieusement.

La thèse est technique et précise. Ce n’est pas « les LLMs sont nuls ». C’est : le next-token prediction ne modélise pas le monde physique causal.

Qu’est-ce que ça veut dire concrètement ? Un LLM apprend à prédire la prochaine unité de texte dans une séquence. C’est un modèle statistique sur des symboles. Ce qu’il ne fait pas : construire une représentation interne de comment les objets physiques se comportent dans l’espace, comment les actions causent des effets, comment planifier une séquence d’actions pour atteindre un état du monde.

Tu peux objecter — et c’est légitime — que les LLMs arrivent à raisonner sur des situations physiques à travers le langage. LeCun répondrait : c’est de la compilation de patterns textuels sur le comportement physique décrit par des humains. Pas un modèle causal du monde. La différence concrète : un LLM qui a « lu » des millions de descriptions de chutes d’objets ne sait pas vraiment que les objets tombent — il sait que ce mot suit souvent cet autre mot. Confronté à une situation physique nouvelle, il extrapole depuis les textes, pas depuis une compréhension des lois. Un modèle causal du monde, lui, devrait avoir internalisé la règle elle-même — et donc tenir sur des situations qu’il n’a jamais vues.

Je ne sais pas si LeCun a raison sur tout. Mais la distinction est claire et testable. C’est ce qui la rend intéressante.

JEPA — l’architecture concrète

JEPA, c’est Joint Embedding Predictive Architecture. L’idée centrale : au lieu de prédire les pixels ou les tokens bruts d’une entrée, tu prédis dans un espace représentationnel abstrait.

En pratique : tu prends une image ou une vidéo, tu masques une partie, et au lieu de reconstruire les pixels manquants, tu prédis la représentation abstraite de ce qui manque. L’encodeur apprend ce qui est important à représenter. Le prédicteur apprend les relations entre parties visibles et parties masquées.

Pourquoi c’est différent ? Parce que la reconstruction pixel par pixel force le modèle à capter toutes les variations de détail — l’éclairage, le bruit, la texture exacte. La prédiction dans l’espace abstrait force le modèle à capter ce qui compte structurellement. LeCun fait l’hypothèse que c’est comme ça que le cerveau fonctionne — il ne stocke pas des copies du monde, il stocke des modèles.

La timeline concrète :

  • Janvier 2023 — I-JEPA sur images, publié à CVPR 2023 (arXiv 2301.08243). Premier proof of concept public.
  • Décembre 2024 — VL-JEPA, version vision-langage, 1,6 milliard de paramètres (arXiv 2512.10942). 50 % moins de paramètres entraînables qu’un VLM standard. Surpasse CLIP et SigLIP2 sur 8 datasets de classification vidéo.
  • Juin 2025 — V-JEPA 2, 1,2 milliard de paramètres, open-source (arXiv 2506.09985). 77,3 top-1 sur Something-Something v2, 84,0 sur PerceptionTest — SOTA au moment de la publication.
Résultat clé — robotique zéro-shot

V-JEPA 2 a été déployé directement sur un bras Franka dans deux laboratoires différents, sans avoir été entraîné sur les données de ces labos. Seule la base d’entraînement commune suffisait — 62 heures de vidéo robot générique (dataset Droid). Deux nouveaux environnements, zéro adaptation locale, deux labos indépendants.

62 heures de vidéo robot pour généraliser à deux environnements différents en zéro-shot, c’est un résultat concret. Pas une démonstration de paillasse.

La limite honnête — ce que JEPA ne prouve pas encore

V-JEPA 2 est excellent sur des tâches de compréhension vidéo et sur de la manipulation robotique simple. Sur Something-Something v2, la tâche c’est de reconnaître des actions physiques génériques — « empiler des blocs », « faire tomber quelque chose ». Le modèle est bon là-dessus. C’est cohérent avec la thèse : comprendre les relations physiques dans le temps.

Mais : la supériorité de JEPA sur des tâches générales n’est pas encore démontrée. Raisonnement complexe multi-étapes, compréhension du langage naturel, génération de texte — JEPA n’est pas là. Ce n’est pas ce que l’architecture cherche à faire aujourd’hui. Mais ça signifie que la comparaison directe avec les LLMs est prématurée.

LeCun lui-même est assez clair là-dessus dans ses écrits techniques : JEPA n’est pas une alternative drop-in aux LLMs. C’est une brique vers quelque chose de plus grand — une architecture qui combine world model, planification, et langage. On n’y est pas.

Un autre point : les benchmarks vidéo restent des benchmarks. Something-Something v2, PerceptionTest — c’est utile pour mesurer des progrès relatifs, mais ça ne prédit pas la performance sur des tâches réelles ouvertes. La robotique zéro-shot dans deux labos, c’est plus convaincant — mais deux labos, c’est deux labos. Pas un déploiement à l’échelle.

Le terrain s’emballe — et c’est le vrai problème de clarté

En 2025, tout le monde construit des « world models ». Le problème : trois équipes très différentes utilisent le même mot pour désigner trois choses assez distinctes.

  • DeepMind — Genie 3 (août 2025) : génération de monde interactif en 720p, 24 images par seconde, temps réel. C’est un générateur de contenu visuel interactif. Le « world model » ici, c’est la cohérence temporelle de la génération. Pas de représentation causale au sens LeCun.
  • World Labs — Marble (novembre 2025) : un monde 3D persistant navigable à partir d’une image. Approche différente — reconstruction 3D et consistance spatiale. Ici le « world » est géométrique.
  • Runway (décembre 2025) : premier « world model » dans le sens génération vidéo cohérente sur longue durée. Encore une définition.

Trois équipes, trois définitions, un seul label marketing. Les progrès de Genie 3 en génération vidéo ne valident pas et n’invalident pas la thèse de LeCun sur la représentation causale. Ce sont des choses différentes.

Ce que je retiens : le champ s’est embrasé pour de bonnes raisons — il y a de vrais progrès sur des tâches spécifiques. Mais l’inflation terminologique rend difficile de savoir qui résout quoi.

Ce que ça change pour toi — réponse courte

Si tu construis des applications LLM aujourd’hui : rien ne change dans les 12 prochains mois. JEPA n’est pas déployable sur des tâches générales. Les world models au sens Genie 3 / World Labs / Runway sont pertinents si tu travailles en génération vidéo ou en simulation — pas en pipeline texte ou en agent d’automatisation.

Si tu travailles en robotique ou en vision industrielle : V-JEPA 2 est open-source depuis juin 2025. Le résultat zéro-shot sur le bras Franka avec 62 heures de données, c’est un signal à ne pas ignorer. Si tu as un projet de vision ou de manipulation physique, ça vaut le coup de regarder le code.

Par contre, si tu essaies de te positionner sur la question « LLMs vs world models, qui gagne » — je trouve que c’est la mauvaise question. Ce sont des outils qui résolvent des problèmes différents. LeCun ne dit pas que les LLMs sont inutiles, il dit qu’ils ne suffiront pas pour l’intelligence générale. Sur ce point précis, honnêtement, je ne sais pas qui a raison. Et je ne pense pas que quelqu’un le sache avec certitude aujourd’hui.

Ce qui est certain

Avec 1,03 milliard de dollars et les meilleurs ingénieurs que LeCun a pu recruter, AMI Labs va produire des résultats. À quelle échéance, sur quelles tâches, avec quelle portée concrète — ça, c’est une autre histoire. En attendant, je continue à utiliser les LLMs pour ce qu’ils font bien. Et je garde un œil sur ce que JEPA livre dans les 18 prochains mois — parce que si la robotique zéro-shot tient ses promesses à l’échelle, la conversation va changer assez vite.

Sources


Le context window de Claude se dégrade à 80 000 tokens ? Ce que disent vraiment les études

Lost in the Middle, RULER, Context Rot — ce que la recherche dit vraiment, et ce qui reste à prouver.

La vidéo, le chiffre, et pourquoi j'ai voulu creuser

Y'a quelques jours, j'ai regardé une vidéo YouTube qui affirmait que Claude « perd la tête » à partir de 80 000 tokens. Le titre était accrocheur. Les commentaires acquiesçaient. Et moi, je me suis dit : attends, ce chiffre vient d'où exactement ?

Parce que j'utilise Claude Code quotidiennement. J'ai des sessions longues. Je vois la barre de contexte monter. Et oui, j'ai déjà vécu ce moment où le modèle commence à radoter ou à « oublier » une contrainte donnée vingt messages plus tôt. Le phénomène est réel.

Mais « 80 000 tokens » — ce chiffre précis, dans quelle étude il apparaît ? Réponse courte : il n'y en a pas. C'est quelqu'un qui a vécu un problème sur un vieux modèle, qui a extrapolé, et qui a mis un chiffre dessus parce que les chiffres font autorité.

Ce que je retiens, c'est que le phénomène mérite qu'on l'explique correctement. Pas pour rassurer à tout prix, mais parce qu'en 2026, les données sont différentes de celles de 2023. Et confondre les deux, ça mène à de mauvaises décisions.

C'est quoi le context window, concrètement

Imagine une feuille de papier. Pas une feuille infinie — une feuille de taille fixe. Tout ce que tu envoies à Claude, tout ce qu'il te répond, les fichiers que tu lui colles, l'historique depuis le début de la conversation : tout ça s'écrit sur cette feuille.

Quand la feuille est pleine, les premières lignes s'effacent pour faire de la place aux nouvelles. Claude ne sait plus ce qui était écrit là. Ce mécanisme s'appelle le context window. Il se mesure en tokens — une unité qui correspond approximativement à trois quarts de mot en français.

Maintenant, la taille de cette feuille a radicalement changé en trois ans.

En 2023, GPT-3.5-Turbo travaillait avec 4 000 tokens. Claude 1.3 avait 8 000 tokens, avec une version étendue à 100 000. C'était déjà beaucoup pour l'époque. Aujourd'hui, Claude Sonnet 4.6 supporte 1 million de tokens dans sa version longue contexte. GPT-4o monte à 128 000 tokens. L'échelle a changé d'un facteur 100 à 200.

Pourquoi c'est important ? Parce que les études qui ont documenté le problème de dégradation ont été faites sur les modèles de 2023. Pas sur ceux de 2026.

Si tu utilises Claude Code, tu vois deux chiffres dans ta barre de statut : Ctx: et Total:. Le premier, c'est la fenêtre de contexte active — la feuille de papier en cours. Le second, c'est le cumul de tokens depuis le début de la session, cache compris. Ces deux valeurs sont très différentes, et beaucoup de gens les confondent. Revenir au Ctx: régulièrement, c'est la donnée pertinente.

L'étude fondatrice : Lost in the Middle

En 2024, Nelson F. Liu et ses collègues de Stanford, UC Berkeley et Samaya AI publient dans TACL une étude qui va faire date : Lost in the Middle: How Language Models Use Long Contexts. C'est l'étude de référence sur la dégradation dans les longs contextes. Et elle est très souvent mal citée.

Ce qu'elle a vraiment mesuré : la capacité des modèles à retrouver une information pertinente quand elle est noyée dans un contexte contenant plusieurs documents. En faisant varier la position de l'information utile — début, milieu, fin — les chercheurs ont observé ce qu'ils ont appelé une courbe en U. Les modèles performent bien quand l'information est au début ou à la fin du contexte. Quand elle est au milieu, les performances chutent.

Le chiffre le plus frappant de l'étude : GPT-3.5-Turbo avec l'information au centre du contexte obtient des performances inférieures à ce qu'il obtient sans aucun document. Mode sans document, ou « closed-book » : 56,1 % de précision. Avec des documents, mais l'information au mauvais endroit : en dessous. Le modèle se noie dans ses propres sources.

Maintenant, les modèles testés : GPT-3.5-Turbo avec 4 000 tokens de contexte, Claude-1.3 avec 8 000 tokens, et quelques modèles open source de 2023. Les contextes testés se comptaient en dizaines de documents, pas en centaines de milliers de tokens.

Le « 80 000 tokens » ? Il n'est pas dans cette étude. Nulle part. C'est une extrapolation qui a pris vie dans des vidéos YouTube et des posts LinkedIn, déconnectée du papier original. L'étude documente un vrai phénomène, mais sur des modèles qui ont aujourd'hui deux générations de retard. Utiliser ses conclusions pour juger Claude Sonnet 4.6, c'est comme tester une Tesla Model 3 sur les critiques que recevait une Prius 2007.

L'état de l'art en 2026 : ce que Chroma Research a mesuré

En juillet 2025, Chroma Research publie une étude qu'ils appellent Context Rot. Dix-huit modèles testés, dont Claude Opus 4, Claude Sonnet 4, Claude Sonnet 3.7, Claude Sonnet 3.5, Claude Haiku 3.5, GPT-4.1, GPT-4o, o3, Gemini 2.5 Pro, Gemini 2.5 Flash, Qwen3-235B et plusieurs variantes.

La bonne nouvelle d'abord. Sur les benchmarks classiques de type « aiguille dans une botte de foin » (NIAH — Needle in a Haystack), les modèles actuels obtiennent des scores quasi-parfaits. La capacité à retrouver une information précise dans un long contexte s'est radicalement améliorée depuis 2023. Ce n'est plus le problème central.

La mauvaise nouvelle : ce qui persiste, c'est plus subtil. Quand les distracteurs sont lexicalement proches de la bonne réponse — même vocabulaire, même structure, mais contenu différent — les modèles hallucinent encore. La similarité sémantique reste un vrai vecteur de dégradation. Les benchmarks simples ne le captent pas parce qu'ils utilisent des distracteurs trop facilement distinguables.

Sur la question des hallucinations spécifiquement, les résultats sont contrastés selon les modèles. Claude s'en sort mieux que GPT. Les modèles GPT obtiennent les taux d'hallucination les plus élevés dans les scénarios avec distracteurs — avec la particularité d'être confiants dans leurs mauvaises réponses. Claude hallucine moins dans ces conditions.

Ce que ça change pour toi

Les sessions longues avec des sujets très similaires sont plus à risque que les sessions longues avec des sujets distincts. Si tu travailles sur du code Python pendant deux heures, le risque de dérive est différent que si tu mélanges du code, de la rédaction et des questions d'architecture dans la même session.

RULER : la taille annoncée versus la taille utilisable

En 2024, NVIDIA publie RULER (Realistically Unlimited Long-context Evaluation for Reasoning) dans les actes de COLM. L'objectif : mesurer les performances réelles des modèles sur des contextes allant de 4 000 à 128 000 tokens, pas juste leurs scores marketing.

Le résultat est honnête et un peu embarrassant. Testé sur des contextes de 4K, 8K, 16K, 32K, 64K et 128K tokens, sur dix modèles qui tous revendiquent au minimum 32 000 tokens de contexte effectif, le papier conclut : « While all models claim context size of 32k tokens or greater, only four models can maintain satisfactory performance at the length of 32K. » Ces quatre modèles sont GPT-4, Command-R, Yi-34B et Mixtral.

Ce n'est pas que les autres mentent sur leur contexte maximum. C'est que le contexte maximum et le contexte où les performances restent solides sont deux choses différentes. Un modèle peut techniquement ingérer 128K tokens sans planter tout en voyant ses performances se dégrader significativement au-delà de 32K sur des tâches complexes.

En 2026, les modèles ont progressé depuis le benchmark RULER de 2024. Mais le principe reste valable : la taille annoncée et la taille où tu peux travailler sereinement ne sont pas identiques. Ce gap n'a pas disparu, il s'est réduit.

Ce qui dégrade vraiment en pratique

Le modèle ne se fatigue pas avec le temps. C'est important de le dire clairement. Claude ne « vieillit » pas pendant une session de deux heures. Chaque fois qu'il génère une réponse, il relit l'intégralité du contexte depuis zéro. Il n'accumule pas de lassitude. Il ne sait pas qu'il est 23h30.

Ce qui dégrade, c'est les tokens qui s'accumulent. Et derrière les tokens, il y a deux phénomènes distincts.

Le premier, c'est la dérive humaine. Plus une session dure, plus les gens deviennent moins précis. On commence à dire « comme avant » au lieu de reformuler. On mélange les sujets. On ajoute des demandes en cours de route sans rappeler le contexte. Le modèle ne devient pas moins bon — c'est le signal qu'il reçoit qui se dégrade.

Le second, c'est l'accumulation de corrections. Chaque « non, plutôt comme ça », chaque retour en arrière, chaque reformulation partielle s'inscrit dans le contexte. Après vingt corrections, le modèle a vingt versions contradictoires de ce que tu veux. Il ne peut pas savoir laquelle est définitive sans que tu le dises explicitement.

Point clé

C'est token-driven, pas time-driven. La durée n'est qu'un proxy imparfait pour la quantité de tokens échangés.

5 choses concrètes à faire

1. Surveiller le Ctx: en temps réel avec ccstatusline

Si tu utilises Claude Code, tu peux afficher Ctx:, In:, Out:, Cached: et Total: directement dans ta barre de terminal. L'outil s'appelle ccstatusline, version 2.2.8, disponible via npm install -g ccstatusline. J'aborderai l'installation en détail mercredi prochain pour ceux que ça intéresse — cinq minutes et c'est en place.

2. Nouvelle session quand on change de sujet

La règle la plus simple et la plus efficace. Si tu viens de finir un bout de code et que tu passes à de la rédaction, ouvre une nouvelle session. Pas par superstition — parce que le contexte accumulé sur le code précédent ne t'aide pas et peut polluer la suite.

3. Répéter les contraintes critiques sur les longues sessions

Si tu as une contrainte fondamentale — un format de sortie, une règle métier, un style précis — répète-la explicitement quand tu arrives à la moitié d'une longue session. Pas parce que Claude l'a oubliée dans le sens strict, mais parce que vingt échanges plus tard, elle a moins de poids relatif dans le contexte qu'au moment où tu l'as donnée.

4. Utiliser un CLAUDE.md

C'est probablement la chose la plus sous-utilisée de Claude Code. Un fichier CLAUDE.md dans ton projet contient les instructions qui sont rechargées au début de chaque session. Elles ne se diluent jamais dans le contexte parce qu'elles arrivent toujours en premier. Les règles importantes qui méritent de persister ont leur place là, pas dans le fil de conversation.

5. Laisser la compaction automatique faire son travail

Claude Code compacte automatiquement le contexte quand il approche de la limite. Le mécanisme est intégré, tu n'as rien à configurer. Par contre, si tu veux contrôler quand ça arrive, tu peux le déclencher manuellement depuis le menu de la session. La compaction résume le contexte passé en le compressant — tu perds du détail, tu gardes l'essentiel.

Ce que je retiens

Le phénomène est réel. Les sessions très longues avec des contextes chargés, des corrections accumulées et des sujets mélangés se comportent moins bien que les sessions courtes et focalisées. Ça n'a pas changé.

Mais les modèles de 2026 sont radicalement différents de GPT-3.5-Turbo à 4K tokens. Le « 80 000 tokens » qui circule ne vient pas des études — c'est une extrapolation qui a pris de l'ampleur parce qu'elle correspond à une expérience vécue réelle sur des modèles qui ont maintenant deux générations de retard.

En 2026, les benchmarks NIAH sont quasi-parfaits. Claude hallucine significativement moins que GPT sur les contextes longs avec distracteurs. Il reste un écart entre la taille de contexte annoncée et la taille où les performances sont vraiment solides — RULER l'a documenté, même si le papier date de 2024 et les modèles ont progressé.

La vigilance reste utile. Mais elle est mieux placée sur la discipline de travail — sessions focalisées, contraintes rappelées, nouveaux sujets dans de nouvelles sessions — que sur une limite magique à 80 000 tokens.

Le phénomène méritait qu'on le regarde en face avec les bonnes données. C'est fait.

Sources

  • Liu, N.F. et al. (2024). Lost in the Middle: How Language Models Use Long Contexts. TACL. Stanford / UC Berkeley / Samaya AI : aclanthology.org/2024.tacl-1.9/
  • Chroma Research (2025). Context Rot — Long Context Evaluation of 18 LLMs : research.trychroma.com/context-rot
  • Hsieh, C-Y. et al. (2024). RULER: What's the Real Context Size of Your Long-Context Language Models? COLM 2024. NVIDIA : arxiv.org/abs/2404.06654
  • Anthropic, tailles de context window (avril 2026) : Claude Sonnet 4.6 — 1M tokens · Claude Opus 4.6 — 1M tokens : anthropic.com/claude
#Claude #ContextWindow #LLM #Recherche #ClaudeCode #legeektech
↑ Retour au sommaire