JEPA, world models, 1 milliard de dollars : est-ce que LeCun a raison ? : legeek.tech

En novembre 2025, Yann LeCun quitte Meta après 11 ans. En mars 2026, AMI Labs lève 1,03 milliard de dollars avec une valorisation pré-money de 3,5 milliards, la plus grande seed européenne de l’histoire. Bezos, Eric Schmidt, Xavier Niel, Tim Berners-Lee au cap table.

Quand quelqu’un quitte un poste de Chief AI Scientist chez une des plus grandes boîtes tech du monde pour lever ce genre de montant, tu peux soit ignorer, soit essayer de comprendre ce qui se joue vraiment.

Je vais essayer de comprendre. Et surtout, d’être honnête sur ce qui est prouvé et ce qui ne l’est pas encore.

Ce que LeCun dit : et ce qu’il dit vraiment

La critique de LeCun sur les LLMs, elle date de 2022. L’article « A Path Towards Autonomous Machine Intelligence » sur OpenReview, juin 2022. Ça fait donc quatre ans qu’il martèle la même chose, et le fait qu’il soit maintenant à la tête d’un labo indépendant avec 1 milliard derrière lui ne valide pas rétrospectivement la thèse, mais ça mérite qu’on la lise sérieusement.

La thèse est technique et précise. Ce n’est pas « les LLMs sont nuls ». C’est : le next-token prediction ne modélise pas le monde physique causal.

Qu’est-ce que ça veut dire concrètement ? Un LLM apprend à prédire la prochaine unité de texte dans une séquence. C’est un modèle statistique sur des symboles. Ce qu’il ne fait pas : construire une représentation interne de comment les objets physiques se comportent dans l’espace, comment les actions causent des effets, comment planifier une séquence d’actions pour atteindre un état du monde.

Tu peux objecter, et c’est légitime, que les LLMs arrivent à raisonner sur des situations physiques à travers le langage. LeCun répondrait : c’est de la compilation de patterns textuels sur le comportement physique décrit par des humains. Pas un modèle causal du monde. La différence concrète : un LLM qui a « lu » des millions de descriptions de chutes d’objets ne sait pas vraiment que les objets tombent, il sait que ce mot suit souvent cet autre mot. Confronté à une situation physique nouvelle, il extrapole depuis les textes, pas depuis une compréhension des lois. Un modèle causal du monde, lui, devrait avoir internalisé la règle elle-même, et donc tenir sur des situations qu’il n’a jamais vues.

Je ne sais pas si LeCun a raison sur tout. Mais la distinction est claire et testable. C’est ce qui la rend intéressante.

JEPA : l’architecture concrète

JEPA, c’est Joint Embedding Predictive Architecture. L’idée centrale : au lieu de prédire les pixels ou les tokens bruts d’une entrée, tu prédis dans un espace représentationnel abstrait.

En pratique : tu prends une image ou une vidéo, tu masques une partie, et au lieu de reconstruire les pixels manquants, tu prédis la représentation abstraite de ce qui manque. L’encodeur apprend ce qui est important à représenter. Le prédicteur apprend les relations entre parties visibles et parties masquées.

Pourquoi c’est différent ? Parce que la reconstruction pixel par pixel force le modèle à capter toutes les variations de détail, l’éclairage, le bruit, la texture exacte. La prédiction dans l’espace abstrait force le modèle à capter ce qui compte structurellement. LeCun fait l’hypothèse que c’est comme ça que le cerveau fonctionne, il ne stocke pas des copies du monde, il stocke des modèles.

La timeline concrète :

Janvier 2023. I-JEPA sur images, publié à CVPR 2023 (arXiv 2301.08243). Premier proof of concept public.
Décembre 2024. VL-JEPA, version vision-langage, 1,6 milliard de paramètres (arXiv 2512.10942). 50 % moins de paramètres entraînables qu’un VLM standard. Surpasse CLIP et SigLIP2 sur 8 datasets de classification vidéo.
Juin 2025. V-JEPA 2, 1,2 milliard de paramètres, open-source (arXiv 2506.09985). 77,3 top-1 sur Something-Something v2, 84,0 sur PerceptionTest, SOTA au moment de la publication.

Résultat clé : robotique zéro-shot

V-JEPA 2 a été déployé directement sur un bras Franka dans deux laboratoires différents, sans avoir été entraîné sur les données de ces labos. Seule la base d’entraînement commune suffisait, 62 heures de vidéo robot générique (dataset Droid). Deux nouveaux environnements, zéro adaptation locale, deux labos indépendants.

62 heures de vidéo robot pour généraliser à deux environnements différents en zéro-shot, c’est un résultat concret. Pas une démonstration de paillasse.

La limite honnête : ce que JEPA ne prouve pas encore

V-JEPA 2 est excellent sur des tâches de compréhension vidéo et sur de la manipulation robotique simple. Sur Something-Something v2, la tâche c’est de reconnaître des actions physiques génériques, « empiler des blocs », « faire tomber quelque chose ». Le modèle est bon là-dessus. C’est cohérent avec la thèse : comprendre les relations physiques dans le temps.

Mais : la supériorité de JEPA sur des tâches générales n’est pas encore démontrée. Raisonnement complexe multi-étapes, compréhension du langage naturel, génération de texte : JEPA n’est pas là. Ce n’est pas ce que l’architecture cherche à faire aujourd’hui. Mais ça signifie que la comparaison directe avec les LLMs est prématurée.

LeCun lui-même est assez clair là-dessus dans ses écrits techniques : JEPA n’est pas une alternative drop-in aux LLMs. C’est une brique vers quelque chose de plus grand, une architecture qui combine world model, planification, et langage. On n’y est pas.

Un autre point : les benchmarks vidéo restent des benchmarks. Something-Something v2, PerceptionTest, c’est utile pour mesurer des progrès relatifs, mais ça ne prédit pas la performance sur des tâches réelles ouvertes. La robotique zéro-shot dans deux labos, c’est plus convaincant, mais deux labos, c’est deux labos. Pas un déploiement à l’échelle.

Le terrain s’emballe, et c’est le vrai problème de clarté

En 2025, tout le monde construit des « world models ». Le problème : trois équipes très différentes utilisent le même mot pour désigner trois choses assez distinctes.

DeepMind. Genie 3 (août 2025) : génération de monde interactif en 720p, 24 images par seconde, temps réel. C’est un générateur de contenu visuel interactif. Le « world model » ici, c’est la cohérence temporelle de la génération. Pas de représentation causale au sens LeCun.
World Labs. Marble (novembre 2025) : un monde 3D persistant navigable à partir d’une image. Approche différente, reconstruction 3D et consistance spatiale. Ici le « world » est géométrique.
Runway (décembre 2025) : premier « world model » dans le sens génération vidéo cohérente sur longue durée. Encore une définition.

Trois équipes, trois définitions, un seul label marketing. Les progrès de Genie 3 en génération vidéo ne valident pas et n’invalident pas la thèse de LeCun sur la représentation causale. Ce sont des choses différentes.

Ce que je retiens : le champ s’est embrasé pour de bonnes raisons, il y a de vrais progrès sur des tâches spécifiques. Mais l’inflation terminologique rend difficile de savoir qui résout quoi.

Ce que ça change pour toi : réponse courte

Si tu construis des applications LLM aujourd’hui : rien ne change dans les 12 prochains mois. JEPA n’est pas déployable sur des tâches générales. Les world models au sens Genie 3 / World Labs / Runway sont pertinents si tu travailles en génération vidéo ou en simulation, pas en pipeline texte ou en agent d’automatisation.

Si tu travailles en robotique ou en vision industrielle : V-JEPA 2 est open-source depuis juin 2025. Le résultat zéro-shot sur le bras Franka avec 62 heures de données, c’est un signal à ne pas ignorer. Si tu as un projet de vision ou de manipulation physique, ça vaut le coup de regarder le code.

Par contre, si tu essaies de te positionner sur la question « LLMs vs world models, qui gagne », je trouve que c’est la mauvaise question. Ce sont des outils qui résolvent des problèmes différents. LeCun ne dit pas que les LLMs sont inutiles, il dit qu’ils ne suffiront pas pour l’intelligence générale. Sur ce point précis, honnêtement, je ne sais pas qui a raison. Et je ne pense pas que quelqu’un le sache avec certitude aujourd’hui.

Ce qui est certain

Avec 1,03 milliard de dollars et les meilleurs ingénieurs que LeCun a pu recruter, AMI Labs va produire des résultats. À quelle échéance, sur quelles tâches, avec quelle portée concrète, ça, c’est une autre histoire. En attendant, je continue à utiliser les LLMs pour ce qu’ils font bien. Et je garde un œil sur ce que JEPA livre dans les 18 prochains mois, parce que si la robotique zéro-shot tient ses promesses à l’échelle, la conversation va changer assez vite.

Sources

« A Path Towards Autonomous Machine Intelligence », LeCun, OpenReview, juin 2022 : openreview.net/pdf?id=BZ5a1r-kVsf
I-JEPA, arXiv 2301.08243, CVPR 2023 : arxiv.org/abs/2301.08243
VL-JEPA, arXiv 2512.10942, décembre 2024 : arxiv.org/abs/2512.10942
V-JEPA 2, arXiv 2506.09985, juin 2025 : arxiv.org/abs/2506.09985
V-JEPA 2 blog Meta AI : ai.meta.com/blog/v-jepa-2-world-model-benchmarks/
AMI Labs levée 1,03 Md$, TechCrunch, 9 mars 2026 : techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/
DeepMind Genie 3 : deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
World Labs Marble, TechCrunch, novembre 2025 : techcrunch.com/2025/11/12/fei-fei-lis-world-labs-speeds-up-the-world-model-race-with-marble-its-first-commercial-product/

#yann-lecun #world-models #architectures-ia #recherche #legeektech