Pendant des années, les discussions autour de l’intelligence artificielle se sont concentrées sur la question de savoir si les machines pourraient éventuellement remplacer les emplois humains. Cette question est devenue plus aiguë avec la croissance du travail à distance, où les tâches sont effectuées entièrement en ligne et nécessitent souvent un mélange de capacités techniques et créatives. Pourtant, une nouvelle étude du Center for AI Safety and Scale AI donne une idée plus claire de ce que l’IA peut réellement faire dans ces contextes. Les résultats montrent que, malgré les progrès constants des outils de raisonnement et d’automatisation, les systèmes d’IA actuels ne peuvent réaliser qu’une petite fraction des véritables projets indépendants au niveau de la qualité humaine.
L’étude, appelée Remote Labor Index (RLI), représente l’une des tentatives les plus détaillées à ce jour pour mesurer les performances de l’IA dans le travail numérique pratique. Il se concentre sur des tâches qui reflètent de véritables emplois indépendants en ligne plutôt que sur des tests théoriques ou des problèmes de référence. Les chercheurs ont collecté 240 projets réalisés auprès de professionnels indépendants travaillant via des plateformes telles que Upwork. Chaque projet comprenait le brief original, tous les documents d’entrée et le livrable final accepté par le client. Ces projets provenaient de 23 catégories de travail, notamment la conception de produits, l’animation, l’architecture, le développement de jeux et l’analyse de données. Ensemble, ils ont couvert plus de 6 000 heures de travail rémunéré d’une valeur d’environ 140 000 $.
Six agents d’IA avancés ont ensuite été testés sur les mêmes projets. Les systèmes comprenaient Manus, Grok 4, Sonnet 4.5, GPT-5, ChatGPT agent et Gemini 2.5 Pro. Les évaluateurs humains ont comparé les résultats de l’IA aux normes professionnelles des livrables originaux. La mesure utilisée s’appelait le taux d’automatisation, défini comme le pourcentage de projets qu’une IA a réalisé selon une norme acceptable pour un client raisonnable.
Les résultats globaux placent les performances actuelles de l’IA au bas de l’échelle. Manus obtient le meilleur résultat, avec un taux d’automatisation de 2,5 pour cent. Grok 4 et Sonnet 4.5 ont suivi à 2,1 pour cent, tandis que les agents GPT-5 et ChatGPT ont atteint 1,7 et 1,3 pour cent. Gemini 2.5 Pro a terminé dernier avec 0,8 pour cent. En effet, même le modèle le plus solide ne pourrait mener à bien que deux ou trois projets sur cent. Ces chiffres confirment que la plupart du travail à distance rémunéré reste bien hors de portée des systèmes d’IA actuels.
Pour comprendre pourquoi, l’étude a examiné où et comment les modèles ont échoué. Près de la moitié des résultats de l’IA ont été jugés de mauvaise qualité. Environ 36 pour cent étaient incomplets et 18 pour cent contenaient des erreurs techniques telles que des fichiers corrompus ou inutilisables. De nombreuses tâches ont échoué avant d’être terminées, avec des visuels manquants, des vidéos tronquées ou du code inachevé. D’autres ont montré une incohérence entre les éléments de conception, comme un objet changeant de forme entre différentes vues 3D. Ces erreurs mettent en évidence que même les modèles puissants ne disposent pas de la capacité de vérification interne que les travailleurs humains appliquent lorsqu’ils vérifient et affinent leurs propres résultats.
Les chercheurs ont également noté que les projets à distance combinent généralement plusieurs niveaux de compétences. Un seul travail peut impliquer l’écriture, le codage, des choix de conception et une présentation au niveau du client. Bien que les modèles d’IA actuels puissent produire du texte fonctionnel, des graphiques de base ou des extraits de code, ils ne parviennent souvent pas à aligner tous ces éléments en un résultat cohérent et professionnel. Le manque de contrôle qualité intégré conduit à des résultats presque corrects en partie mais insatisfaisants en tant que livrables complets.
Certaines zones étroites ont montré de meilleures performances d’IA. Des tâches impliquant de courts clips audio, une simple génération d’images ou une visualisation de données étaient parfois réalisées au niveau humain. Dans ces cas-là, les systèmes bénéficiaient d’outils génératifs établis qui gèrent déjà les médias monoformat. L’étude a utilisé une mesure supplémentaire, connue sous le nom de score Elo, pour suivre les progrès relatifs entre les différents modèles. Bien qu’aucun ne corresponde à la référence humaine, les modèles les plus récents ont montré une amélioration mesurable par rapport aux versions précédentes, suggérant une progression constante, quoique limitée.
Sur le plan économique, l’écart entre le potentiel et la réalité reste important. Une fois traduit en valeur marchande, le modèle le plus rémunérateur, Manus, a produit des œuvres acceptées d’une valeur de seulement 1 720 $ sur un pool total de près de 144 000 $. Cela indique que la contribution des outils d’IA actuels à la productivité des indépendants est encore marginale. Les données montrent également que l’IA n’a pas encore atteint une déflation significative des coûts sur les marchés du travail éloignés, dans la mesure où la plupart des tâches nécessitent encore une surveillance humaine totale ou une reprise.
Pour les professionnels qui dépendent de revenus indépendants en ligne, les conclusions de l’étude sont quelque peu rassurantes. Les travailleurs à distance, notamment dans les domaines du design, de l’architecture et du multimédia, restent aujourd’hui largement irremplaçables. Il en va de même pour les rôles qui impliquent du jugement, la correction d’erreurs et des contrôles de qualité visuels ou interactifs. Cependant, les résultats indiquent également une amélioration progressive. À mesure que les modèles d’IA acquièrent de meilleures capacités de raisonnement multimodal et d’utilisation d’outils, ils peuvent commencer à gérer de plus grandes portions de tâches complexes sous supervision.
Les auteurs reconnaissent que le benchmark ne couvre pas tous les types d’emplois à distance. Les travaux impliquant une communication directe avec le client, un travail d’équipe ou une gestion de projet à long terme ont été exclus. Néanmoins, l’indice du travail à distance représente jusqu’à présent le test le plus large de la réelle capacité d’automatisation de l’IA dans le cadre d’un travail économiquement significatif. Sa valeur réside dans le fait qu’elle propose des mesures empiriques plutôt que des hypothèses. En ancrant l’évaluation de l’IA dans des projets indépendants réels, elle déplace la conversation des capacités hypothétiques vers les performances démontrées.
Les résultats suggèrent que le chemin vers une automatisation complète du travail numérique reste long. Même si l’IA peut désormais aider à des étapes créatives ou techniques plus modestes, elle a encore du mal à assurer la coordination, le jugement et l’assurance qualité qu’exige le travail professionnel. Les futures mises à jour du RLI pourraient aider à déterminer si les améliorations continues du modèle se traduisent en performances économiques pratiques. Pour l’instant, l’étude confirme que l’intelligence artificielle, même si elle progresse rapidement, n’est pas encore à la hauteur de la fiabilité et de l’exhaustivité des travailleurs humains à distance.

Image : Yasmina H / Unsplash
Notes : Cet article a été édité/créé à l’aide des outils GenAI.
Lire la suite : Une étude de Carnegie Mellon révèle que l’IA avancée devient plus intéressée, compromettant le travail d’équipe à mesure qu’elle devient plus intelligente

