World Model
ou Modèle du monde
L’engouement déclenché par le lancement de ChatGPT par OpenAI et celui d’autres grands modèles de langage (LLM) en novembre 2022 a marqué un tournant majeur dans la perception et l’adoption de l’intelligence artificielle générative par le grand public. Cependant, si ces systèmes excellent dans la manipulation syntaxique et rhétorique, ce sont avant tout des « perroquets stochastiques », pour reprendre la métaphore de la linguiste américaine Emily Bender et de la chercheuse spécialisée dans l’éthique de l’intelligence artificielle Timnit Gebru, autrices en 2021 de l’article « On the dangers of stochastic parrots: Can Language Models be too big? » : « Contrairement à ce qu’il peut sembler lorsque nous observons ses résultats, un modèle de langage est un système qui assemble au hasard des séquences de formes linguistiques qu’il a observées dans ses vastes données d’entraînement, selon des informations probabilistes sur la façon dont elles se combinent, mais sans aucune référence au sens : un perroquet stochastique. » Google a, d’ailleurs, tenté de bloquer cette publication, la jugeant trop critique à l’égard de ses propres technologies.
Cet événement, s’ajoutant à d’autres tensions internes, entraîna la démission de Timnit Gebru et provoqua de vives réactions, comme en témoigne la signature d’une lettre de protestation par plus de 1 400 membres du personnel de Google et par 1 900 autres sympathisants. Depuis, Emily Bender est également en croisade contre ces « machines à plagier » ou encore ces « extrudeuses de texte synthétique » qu’elle décrit, lors d’une interview parue dans le Financial Times en juin 2025, comme n’étant rien de plus qu’un « emballage sophistiqué autour de quelques feuilles de calcul ».
Un jugement que partage également Yann Le Cun, ancien directeur de la recherche fondamentale en intelligence artificielle de Meta, l’un des pères du deep learning et lauréat du prestigieux prix Turing avec deux confrères, Yoshua Bengio et Geoffrey Hinton, en 2018. Les grands modèles de langage « imitent ce qu’ils connaissent déjà […] mais échouent lamentablement dès qu’il s’agit de comprendre la causalité physique. Nous n’avons pas de robot capable de faire la même chose qu’un enfant de 5 ou 6 ans ». Si un enfant lâche un verre, il sait intuitivement qu’il va se casser, tandis qu’un modèle de langage n’a aucune « compréhension » que celle d’avoir traité des millions de phrases reliant les concepts de « verre », de « chute » et de « bris ».
L’écueil est triple. Cette absence d’ancrage dans le réel limite drastiquement l’usage de l’IA dans le monde physique, et notamment dans les domaines de la robotique, de l’industrie ou encore de la conduite autonome. De plus, les IA génératives actuelles ont atteint un plafond de verre : elles font face au « mur de la donnée », selon lequel tous les grands modèles de langage ayant ingéré la quasi-totalité du web public de qualité, les efforts pour améliorer encore leurs performances exigent désormais une énergie croissante pour des bénéfices de plus en plus modestes (voir La rem n°69-70, p.52). Et, enfin, il manque une dimension essentielle à l’IA générative : la compréhension de l’espace et du temps. Alors que l’industrie a parié sur une loi d’échelle selon laquelle plus de données et plus de puissance de calcul devaient mécaniquement conduire au graal d’une intelligence artificielle générale, le constat est aujourd’hui sans appel : les IA génératives probabilistes sont incapables de prédire la moindre conséquence de n’importe laquelle de leurs actions.
C’est dans ce contexte de frustration relative et d’anticipation d’un nouveau cycle technologique que les regards se tournent vers une architecture différente, portée par les pionniers du secteur, parmi lesquels Yann Le Cun et Fei-Fei Li, autour des World Models (modèles du monde), également appelés « Large World Models » (grands modèles du monde).
D’une intuition biologique aux premières théories
Le concept de « modèle du monde » n’est pas né avec la dernière vague d’IA et trouve ses racines dans la psychologie cognitive du milieu du 20e siècle. Un « modèle mental », ou « modèle mental du monde », désigne alors une représentation interne permettant de simuler mentalement le déroulement d’un phénomène pour anticiper les résultats d’une action. On doit le terme « modèle mental » au philosophe et psychologue écossais Kenneth Craik et à son livre The Nature of Explanation publié en 1943, dans lequel il jette les bases du concept : « Mon hypothèse est que la pensée modélise, ou imite (parallélise), la réalité – que sa caractéristique essentielle n’est ni “l’esprit” ni “le soi” ni les “données sensorielles”, ni des propositions, mais le symbolisme, et que ce symbolisme est largement du même type que celui qui nous est familier dans les dispositifs mécaniques qui aident à la pensée et au calcul. »
Pour Kenneth Craik, dont les idées se retrouvent dorénavant au cœur des IA de nouvelle génération, la pensée n’est pas juste un « esprit » abstrait, mais plutôt un système de symboles qui imite la structure du monde réel, forme des modèles de la réalité, et les utilise pour prédire des événements futurs similaires. Une intuition confirmée à peine quelques années plus tard, en 1948, lorsque le psychologue Edward Tolman observe que des rats ne naviguent pas dans un labyrinthe par simple réflexe entre la gauche et la droite, mais qu’ils construisent une « carte cognitive » de leur environnement. L’intelligence, c’est avoir une simulation interne du monde extérieur.
Avec l’essor de l’apprentissage par renforcement dans les années 1990, la communauté scientifique explore alors deux paradigmes distincts. D’une part, l’approche Model-Free, selon laquelle un agent – comme un robot, un agent conversationnel ou un personnage dans un jeu vidéo – apprend par réaction, en reliant une observation à une action et à son résultat. Et d’autre part, l’approche Model-Based, où l’agent est capable de planifier en intégrant des règles liées à son environnement. La première, pragmatique, est limitée, car elle fonctionne dans un environnement fermé, comme un jeu vidéo, alors que la seconde, bien plus ambitieuse, requiert une puissance de calcul hors de portée des machines de l’époque. C’est durant cette période que l’informaticien canadien Richard Sutton pose néanmoins les bases mathématiques qui permettront ultérieurement d’intégrer des modèles de planification dans les modèles d’apprentissage par renforcement.
La fin des années 2010 marque le point d’inflexion où les réseaux de neurones profonds sont suffisamment puissants pour faire fonctionner ces concepts théoriques. En 2018, David Ha et Jürgen Schmidhuber publient un article scientifique sobrement intitulé « World Models », dans lequel ils présentent une intelligence artificielle qui apprend d’une simulation qu’elle a elle-même générée. Après avoir entraîné une IA à jouer à un jeu de course de voiture, CarRacing, l’intelligence artificielle fut capable de créer sa propre simulation mentale afin qu’elle s’exerce d’abord à conduire dans un monde imaginaire, élaboré par ses soins, avant d’appliquer ce savoir dans la réalité.
L’évolution d’AlphaGo à AlphaZero puis à MuZero illustre bien tout l’enjeu d’un modèle du monde dont la vocation est de construire une représentation interne et abstraite de l’environnement. Lorsque AlphaGo, développé par l’équipe de Demis Hassabis et David Silver chez Google, bat en 2016 par quatre parties à une Lee Sedol, le champion du monde de go, non seulement les règles du jeu – le modèle du monde, ici le jeu de go – lui sont fournies a priori par les ingénieurs, mais également 160 000 parties déjà jouées par des humains. En 2017, les ingénieurs donnent les règles du jeu à AlphaZero qui n’a, cette fois, plus besoin de parties déjà jouées, puisqu’il apprend tout seul, en jouant contre lui-même. Avec MuZero en 2020, l’algorithme déduit les règles en observant des parties de go, puis il les simule en jouant contre lui-même, planifiant ses actions selon des représentations latentes et validant ainsi la puissance de l’apprentissage par modèle dans les tâches hautement complexes. L’objectif des modèles du monde est donc de passer d’un système qui « récite » à un système qui « raisonne », un système capable de simuler les conséquences d’une action avant de l’entreprendre. Cette transition entre les grands modèles de langage (Large Language Models) et les grands modèles du monde (Large World Models) marque la fin de l’ère du tout-génératif pour un retour vers une ambition plus fondamentale, celle de doter la machine d’une forme de sens commun et d’une intelligence spatiale.
Un avenir à dix ans
En empruntant des voies très différentes, Yann Le Cun et la Sino-Américaine Fei-Fei Li, deux figures majeures dans le domaine de l’intelligence artificielle, ont chacun initié ce virage stratégique pour passer d’une IA générative probabiliste aux modèles du monde. Yann Le Cun, qui a quitté ses fonctions opérationnelles chez Meta pour lancer sa propre entreprise, a théorisé son approche, en 2022, dans un manifeste intitulé A path towards Autonomous Machine Intelligence. Il y déconstruit d’abord le paradigme des IA génératives pour proposer une architecture cognitive inspirée du vivant, structurée autour de deux grands axes.
Le premier tient à la « prédiction dans l’espace de représentation », avec le modèle d’architecture prédictive à représentations jointes (Joint Embedding Predictive Architecture – JEPA). Contrairement aux modèles génératifs, qui tentent de reconstruire une image future pixel par pixel, le modèle du monde JEPA projette les données brutes vers un niveau supérieur d’abstraction. Selon Yann Le Cun, si l’on conduit dans une rue bordée d’arbres par jour de vent, un modèle génératif essaierait de prédire le mouvement exact de chaque feuille de chaque arbre – une tâche impossible, car trop coûteuse en calcul et surtout parfaitement inutile –, alors que le modèle du monde JEPA ignorerait le mouvement des feuilles, l’interprétant comme du bruit. Pour le scientifique, l’IA doit apprendre à faire fi des détails imprévisibles et à opérer dans un « espace de représentation » abstrait, où elle manipule des concepts et non des données sensorielles brutes.
Le second axe de recherche a trait au raisonnement, que Yann Le Cun appréhende comme un processus de simulation et d’optimisation, guidé par un coût. Le modèle du monde est capable de simuler différents scénarios en fonction des actions envisagées et de mesurer leur efficacité par rapport à une fonction de coût intrinsèque, comme éviter la douleur, maximiser l’efficacité énergétique ou encore atteindre un but. Le raisonnement devient alors l’exploration planifiée d’un futur latent, permettant à la machine de prendre des décisions de manière autonome, ancrée dans une compréhension causale de son environnement.
Pour développer ce modèle, Yann Le Cun a créé, en décembre 2025 à Paris, la start-up Advanced Machine Intelligence (AMI Labs), avec Laurent Solly, ex-directeur de Meta France, et Alexandre Lebrun, fondateur de Nabla. Il anticipe son développement en trois phases. « Durant six à douze mois, nous travaillerons à la solidification de notre méthode et à son élargissement aux données de capteurs, de robots… Puis, d’ici un à deux ans, nous aurons, pour des partenaires, des systèmes applicables dans des procédés industriels. Enfin, d’ici trois à cinq ans, nous développerons des systèmes plus universels, utilisables dans les robots domestiques, les voitures autonomes. » AMI Labs finalise un premier tour de table auprès de potentiels investisseurs, dont Cathay Innovation, le fonds britannique Hiro Capital et Greycroft. Il aurait déjà sécurisé 350 millions de dollars, selon Bloomberg News – avec, pour objectif, de lever 150 millions d’euros supplémentaires.
Tout comme les travaux de Yann Le Cun, ceux de Fei-Fei Li ont joué un rôle prépondérant dans le développement de l’apprentissage machine et du deep learning (voir La rem n°30-31, p.75), notamment grâce à la création d’ImageNet en 2006, gigantesque base de données d’images annotées, conçue pour apprendre aux ordinateurs « à voir ». Pour la scientifique sino-américaine, l’avenir résidant dans l’« intelligence spatiale », l’IA devra sortir du texte pour ingérer de la vidéo, de la physique et de la géométrie. Dans une célèbre conférence TED enregistrée en mai 2024, Fei-Fei Li a théorisé ce concept comme la capacité d’une machine non plus seulement à nommer les objets, mais à comprendre leur position, leur matérialité et leurs interactions dans un espace en trois dimensions. « La nature a créé ce cercle vertueux de voir et d’agir grâce à l’ “intelligence spatiale” », explique-t-elle en montrant l’image d’un chat sur une table dont la patte pousse un verre de lait sur le point de tomber à la renverse.
Quand un modèle génératif d’images classique produit une représentation photographique parfaite d’un chat posé sur le bord d’une table, il ignore en fait tout des forces en jeu. À l’inverse, une intelligence spatiale comprend intuitivement la géométrie de la scène, la fragilité des objets et la force gravitationnelle, anticipant que le verre est sur le point de chuter et de se briser au sol. L’enjeu est de passer de la simple reconnaissance de motifs 2D à une véritable modélisation volumétrique et dynamique permettant à l’IA d’inférer ce qui se trouve masqué derrière un objet ou de prédire le résultat d’une interaction physique avant même que celle-ci ne se produise. Cette compréhension est le prérequis pour que les futurs systèmes robotiques puissent naviguer dans le monde réel sans heurts, manipuler des outils complexes ou assister les humains dans des tâches chirurgicales délicates.
Pour concrétiser cette vision, Fei-Fei Li – entourée de Justin Johnson, Christoph Lassner et Ben Mildenhall, pionniers des technologies de rendu neuronal (NeRF) – a fondé, en 2024 à San Francisco, la start-up World Labs, afin de développer des grands modèles du monde capables de générer et de simuler des environnements virtuels interactifs complets avec une représentation physique cohérente. L’entreprise vise dans un premier temps les développeurs de jeux vidéo et les designers, en leur proposant la génération instantanée de mondes 3D manipulables, avant de développer les « cerveaux » des futurs robots autonomes. En l’espace de quelques mois et avant même la commercialisation d’un premier produit public, World Labs, déjà valorisée à plus de 1 milliard de dollars, a finalisé deux levées de fonds successives, mobilisant quelque 230 millions de dollars auprès d’acteurs majeurs du capital-risque tels qu’Andreessen Horowitz, NEA et Radical Ventures.
L’impact économique des World Models promet d’être bien plus tangible que celui des chatbots, en permettant aux machines d’intégrer les lois de la physique et les liens de causalité, et ainsi d’interagir avec le monde réel. Néanmoins, les défis, menant de l’enthousiasme académique au déploiement opérationnel de ces modèles, sont colossaux. La consommation énergétique pour simuler des modèles du monde dépasse largement celle du traitement de texte ; ceux-ci nécessitent des infrastructures toujours plus massives, très éloignées des enjeux actuels de sobriété numérique. De plus, la fiabilité de ces « simulateurs du monde » doit être totale, car une hallucination sur la loi de la gravité dans un environnement industriel pourrait s’avérer bien plus catastrophique qu’un chatbot qui raconte une bêtise. Enfin, l’entraînement de ces modèles sur des millions d’heures de vidéo soulève des questions de propriété intellectuelle, promettant de futurs affrontements juridiques aussi intenses que ceux en cours devant les tribunaux pour le texte, encore sans issue à ce jour.
Tout dépend de la trajectoire donnée à l’artifice de ces intelligences, même si, pour Fei-Fei Li, « il n’y a rien d’artificiel dans l’intelligence artificielle. Elle est inspirée par les humains, créée par les humains, et surtout, elle impacte les humains. […] Je crois que tout ce que fait l’IA aujourd’hui, ou dans le futur, dépend de nous. C’est à nous de décider. Si nous n’agissons pas en tant que société responsable, nous pouvons tout gâcher ».
Sources :
- Georges Benoît, « Intelligence artificielle : Fei-Fei Li, cette Chinoise de Stanford qui défend des algorithmes moins biaisés », lesechos.fr, 21 décembre 2023.
- Fei-Fei Li, « With spatial intelligence, AI will understand the real world », TED2024, ted.com, April 2024.
- Hammond George, « AI sceptic Emily Bender: “The emperor has no clothes” », Financial Times, ft.com, June 20, 2025.
- Rachitsky Lenny, « The Godmother of AI on jobs, robots & why World Models are next », lennysnewsletter.com, November 16, 2025.
- Bort Julie, « Yann Le Cun confirms his new “World Model” startup, reportedly seeks $5B+ valuation », techcrunch.com, December 19, 2025.
- Le Cun Yann, « Pourquoi je quitte Meta pour créer ma start-up d’IA », lemonde.fr, 16 janvier 2026.
- Sun Yazhou, Berthelot Benoît, Schuetze Arno, « Yann Le Cun’s AMI Labs draws investor
interest from Cathay Hiro », bloomberg.com, January 19, 2026. - Ponce Jean, Ryl Isabelle, « Vers des IA autonomes, avec les “modèles du monde” », lemonde.fr,
21 janvier 2026.
Commentaires ()