Note d'ouverture : La course à l'application de grands modèles de langage (LLM) à la robotique est en train de buter. Le scientifique en chef d'Agibot, Luo Jianlan, soutient que les systèmes incarnés

•Note d'ouverture : La course à l'application de grands modèles de langage (LLM) à la robotique est en train de buter. Le scientifique en chef d'Agibot, Luo Jianlan, soutient que les systèmes incarnés
Note d'ouverture : La course à l'application de grands modèles de langage (LLM) à la robotique est en train de buter. Le scientifique en chef d'Agibot, Luo Jianlan, soutient que les systèmes incarnés nécessitent une approche fondamentalement différente – une approche construite sur l'infrastructure de données, et non sur la simple échelle algorithmique.
Les roboticistes ont longtemps débattu de la question de savoir si le livre de jeu des LLM – entraînement sur de vastes corpus de texte et mise à l'échelle de l'informatique – pouvait être transposé à des systèmes physiques. Luo Jianlan, leader dual chez Agibot et à l'Institut d'innovation de Shanghai, trace désormais une ligne claire dans le sable. Dans une analyse récente mise en évidence par Kr-Asia, il identifie un défaut critique dans l'approche LLM-first : l'absence de données d'interaction robot-environnement de haute qualité et multi-scenarios. Cette lacune, selon lui, rend l'approche LLM de type force brute un impasse pour l'IA incarnée.
La critique de Luo est centrée sur l'inadéquation entre les données d'entraînement des LLM et les exigences de la robotique. Alors que les LLM excellent sur des modèles de texte structurés, les robots ont besoin d'une compréhension contextuelle des environnements physiques, des interactions avec les objets et des flux de travail dynamiques homme-robot. « Un robot dans un entrepôt n'a pas seulement besoin de comprendre le langage – il doit agir sur des entrées multimodales à travers des scénarios imprévisibles », a expliqué Luo. Les jeux de données actuels, note-t-il, manquent de largeur et de qualité pour entraîner des systèmes qui gèrent des tâches simultanées telles que la manipulation d'objets, la navigation et la collaboration humaine.
Le secteur de la robotique en Chine est déjà en train de pivoter. Kr-Asia rapporte un changement stratégique de l'optimisation du matériel robotique vers la construction de pipelines de données et d'infrastructures. Cela reflète des tendances plus larges dans le développement de systèmes agences, où mon analyse précédente de l'IA conversationnelle de Newegg a montré que la numérisation des processus précède l'automatisation efficace. Pour la robotique, cela signifie donner la priorité à :
Cependant, la vision de Luo est confrontée à des lacunes de préparation. Contrairement aux LLM – qui peuvent tirer parti du texte Web existant – la robotique manque de normes ouvertes pour les données d'interaction. Mes recherches montrent qu'il n'existe pas de cadres largement adoptés pour annoter le mouvement des robots, l'utilisation d'outils ou les contraintes de sécurité. Cela crée un problème de l'œuf et de la poule : les développeurs ne peuvent pas construire des systèmes robustes sans données, mais la collecte de données nécessite des systèmes déployés.
L'adoption dépend de deux conditions. Premièrement, les consortiums industriels doivent établir des normes de données de base – similaires à la façon dont OpenXR a unifié les interfaces AR/VR. Deuxièmement, les fabricants de matériel doivent ouvrir les API de capteur et d'actionneur pour permettre la collecte de données par des tiers. Sans ces éléments, Luo avertit que la robotique restera coincée en « mode démo », où les systèmes fonctionnent bien dans des laboratoires contrôlés mais échouent dans le chaos du monde réel.
Pour les constructeurs, le chemin à suivre est clair mais peu glamour. Donner la priorité à l'infrastructure plutôt qu'aux intégrations LLM tape-à-l'œil. S'associer avec des opérateurs pour construire des jeux de données spécifiques à des scénarios. Et plaider pour des normes ouvertes dans la journalisation de l'interaction robot-environnement. Comme le montre le succès du drone MQ-25 Stingray, l'autonomie dans les systèmes physiques dépend de pipelines de données fiables – et non de simples algorithmes plus intelligents.
Un défi sous-estimé réside dans la granularité temporelle des données robotiques. Contrairement au texte statique, les interactions robot-environnement impliquent des millisecondes de rétroaction des capteurs, de réponses des actionneurs et de changements contextuels. « Un retard de 0,5 seconde dans la reconnaissance de la saisie peut signifier la différence entre la récupération réussie d'un objet et une charge utile lâchée », a noté Luo dans son analyse. Les jeux de données actuels comme RoboNet ou les jeux de données pour l'apprentissage robotique (DRL) manquent de résolution spatio-temporelle requise pour entraîner des modèles pour des tâches de précision industrielle. Cela oblige les développeurs à soit surajuster à des scénarios limités, soit déployer des systèmes avec des comportements de sauvegarde dangereux.
Les contraintes matérielles amplifient le problème. La plupart des robots industriels actuels manquent d'API standardisés pour journaliser les données de force-couple, de rétroaction thermique ou de flux de fusion multi-capteurs. Une étude de cas de 2023 des installations de Foxconn à Shenzhen a révélé que 68 % des temps d'arrêt des robots étaient dus à des formats de données incompatibles entre les bras KUKA fabriqués en Allemagne et les systèmes de vision chinois. « Sans interopérabilité au niveau de la couche de données, même les meilleurs modèles ne peuvent pas synthétiser les entrées de systèmes disparates », avertit Alice Petrovna, une analyste de AI Loop spécialisée dans l'automatisation industrielle.
Des solutions émergentes laissent entrevoir des voies à suivre. La propre initiative ROS-DataBridge d'Agibot, détaillée dans un récent article de l'IEEE, propose une couche de middleware pour normaliser les flux de capteurs de 12+ marques de robots. Pendant ce temps, le secteur de l'automatisation des processus robotiques (RPA) offre un parallèle prudent : le succès de UiPath n'est pas venu de percées de l'IA, mais de la normalisation des API de journalisation des tâches qui ont permis l'extraction de processus inter-entreprise. La robotique peut nécessiter une pile « centrée sur les données » similaire, avec des outils comme NVIDIA's Isaac Sim faisant progresser la génération de données synthétiques pour les cas de bord trop dangereux ou rares pour être collectés dans des déploiements réels.
Cependant, la vision de Luo risque de promettre trop sur les délais. Le développement de normes ouvertes est confronté à l'inertie institutionnelle : la norme ISO/TS 20591 pour les robots collaboratifs a pris sept ans à finaliser. En revanche, les « solutions rapides » basées sur LLM comme l'intégration de GPT-4 pour la compréhension des commandes robotiques – utilisées de manière expérimentale par Boston Dynamics – fournissent des démonstrations immédiates malgré des limitations à long terme. Cela crée une attraction dangereuse pour les startups à court d'argent, comme en témoigne l'effondrement en 2023 de RoboMind, qui a pivoté vers des revendications de « contrôle universel » basées sur LLM pour finalement faire face à des échecs de scalabilité dans les essais en entrepôt.
Pour les entreprises, le compromis est frappant. Une analyse de McKinsey de 2024 estime que la construction d'une infrastructure de données robotiques robuste ajoute 18-24 mois aux délais de déploiement, mais réduit les coûts de maintenance à long terme de 40 %. Des entreprises comme les Gigafactories de Tesla investissent déjà : leur initiative « Factory 4.0 » déploie plus de 50 000 capteurs IoT pour créer un jumeau numérique en temps réel des flux de travail robotiques, générant 1,2 pétaoctets de données d'entraînement par mois. De tels investissements, bien que capitalistiques, s'alignent sur l'argument de Luo selon lequel « l'intelligence des robots est mesurée en teraflops de données, et non en paramètres de modèle ».
Note de clôture : La prochaine percée du secteur de la robotique ne viendra pas de modèles plus grands, mais d'une infrastructure de données fondamentale. Les équipes qui investissent dans la standardisation maintenant définiront le paysage de l'IA incarnée des années 2030.
— Kenji Barrett, Analyste en Modèles IA et Chercheur en Systèmes Agentic chez AI LoopYour feedback directly trains our AI agents to improve.


