L'écart de renforcement - ou pourquoi certaines compétences en IA imputent plus rapidement

Les outils de codage AI s’améliorent rapidement. Si vous ne travaillez pas dans le code, il peut être difficile de remarquer combien les choses changent, mais GPT-5 et Gemini 2.5 ont fait un tout nouvel ensemble de trucs de développeur possible à automatiser, et la semaine dernière Sonnet 2.4 l’a fait à nouveau.

Dans le même temps, d’autres compétences progressent plus lentement. Si vous utilisez beaucoup de courriels, vous en tirez probablement la même valeur que vous avez fait il y a un an. Même lorsque le modèle s’améliore, le produit n’est pas toujours en bénéfice – en particulier lorsque le produit est un chatbot qui fait des travaux différents en même temps. L’IA fait toujours des progrès, mais ce n’est pas tel qu’il était distribué comme c’était le cas.

La différence en cours est plus simple qu’il n’y paraît. Les applications de codage bénéficient de milliards de tests facilement mesurables, qui peuvent les former à produire du code réalisable. Il s’agit de l’apprentissage par renforcement (RL), sans doute le plus grand moteur de progrès de l’IA au cours des six derniers mois et de devenir plus incorriqué tout le temps. Vous pouvez faire l’apprentissage du renforcement avec des élèves humains, mais cela fonctionne mieux s’il y a une métrique de pass de passes claire, vous pouvez donc le répéter des milliards de fois sans avoir à s’arrêter pour la contribution humaine.

Alors que l’industrie réalise de plus en plus l’apprentissage du renforcement pour améliorer les produits, nous constatons une réelle différence entre les capacités qui peuvent être automatiquement classées et celles qui ne le peuvent pas. Les compétences adaptées aux RL comme la fixation des insectes et les mathématiques compétitives s’améliorent rapidement, tandis que les compétences comme l’écriture ne font que des progrès progressifs.

En bref, il y a un écart de renforcement – et il devient l’un des facteurs les plus importants pour ce que le système d’IA peut et ne peut pas faire.

À certains égards, le développement de logiciels est le sujet parfait pour l’apprentissage du renforcement. Même avant l’IA, il y avait toute une sous-discipline consacrée à tester comment les logiciels tiendraient sous pression, les développeurs Becaus devaient s’assurer que leur code ne se casserait pas avant de le déployer. Ainsi, même le code le plus élégant doit encore passer par les tests unitaires, les tests d’intégration, les tests de sécurité, etc. Les développeurs humains utilisent cette routine pour valider leur code et, comme le directeur principal de Google pour les outils de développement m’a récemment dit, ils sont tout simplement astucieux pour valider le code généré par l’IA. Encore plus que cela, ils utiles pour l’apprentissage du renforcement, car ils sont déjà systématisés et reproductibles à grande échelle.

Il n’y a pas de moyen facile de valider un e-mail bien écrit ou une bonne réponse de chatbot; Ces compétences sont intrinsèquement subjectives et difficiles à mesurer à grande échelle. Mais toutes les tâches ne tombent pas parfaitement dans les catégories «faciles à tester» ou «difficiles à tester». Nous n’avons pas de kit de test prêt à l’emploi pour les rapports financiers trimestriels ou la science actuarielle, mais une startup comptable bien capitalisée pourrait probablement en construire une à partir de zéro. Certains kits de test fonctionneront Beter que d’autres, de race, et certaines entreprises seront intelligentes sur la façon d’approcher le problème. Mais le testabilité du processus sous-jacent sera le facteur décisif pour savoir si le processus sous-jacent peut être transformé en un produit fonctionnel d’une simple démonstration passionnante.

Événement TechCrunch

San Francisco
|
27-29 octobre 2025

Certains processus se révèlent être testés que vous ne le pensez. Si vous m’aviez demandé le week-end dernier, j’aurais mis une vidéo générée par l’AI dans la catégorie «difficile à tester», mais l’immense progrès réalisé par le nouveau modèle Sora 2 d’Openai montre qu’il n’est peut-être pas aussi difficile qu’il n’y paraît. Dans Sora 2, les objets n’apparaissent plus et ne disparaissent pas de nulle part. Les visages tiennent leur forme, ressemblant à une personne spécifique plutôt qu’à une simple collection de fonctionnalités. Les images de Sora 2 respectent les lois de la physique de manière à la fois évidente et subtile. Je soupçonne que, si vous avez jeté un coup d’œil derrière le Curt, vous trouverez un système d’apprentissage de renforcement robuste pour chacune de ces qualité. A ensemble, ils font la différence entre le photoréalisme et une hallucination divertissante.

Pour être clair, ce n’est pas une règle stricte et rapide de l’intelligence artificielle. C’est le résultat du rôle central que l’apprentissage du renforcement se joue dans un développement, ce qui pourrait facilement changer en tant que développement de modèles. Mais tant que RL est le principal outil pour mettre sur le marché des produits d’IA, l’écart de renforcement ne fera que croître – avec de graves implications pour les startups et l’économie dans son ensemble. Si un processus se retrouve sur le côté droit de l’écart de renforcement, les startups réussiront probablement à l’automatiser – et quiconque qui fait ce travail pourrait finir pour une nouvelle carrière. La question de savoir quels services de santé sont réalisables RL, par exemple, ont d’énormes implications pour la forme de l’économie au cours des 20 prochaines années. Et si des surprises comme Sora 2 sont une indication, nous n’aurons peut-être pas à attendre longtemps un an.

Source link

What's Hot

Les États-Unis et l’Iran échangent de nouvelles frappes dans le détroit d’Ormuz alors que l’Iran cherche à fermer la route concurrente

2 milliards d’exemplaires imprimés, un dernier hourra pour une légende de la Coupe du monde dans un pack à 2 $ : The Last Ride of the Panini Sticker Album

Apple demande l’approbation des États-Unis pour acheter des puces CXMT sur liste noire : FT

L’écart de renforcement – ou pourquoi certaines compétences en IA imputent plus rapidement

Le fondateur le plus en forme de la salle a eu un cancer. Voici comment il a utilisé l’IA pour riposter.

Des startups asiatiques d’IA lancent des modèles de type Mythos alors que l’interdiction d’exporter d’Anthropic se prolonge

Trump Admin publie Anthropic Mythos qui sera utilisé par plus de 100 entreprises et agences américaines

La FTC donne à Musk l’autorisation d’acquérir Mesh, une ancienne startup de SpaceX

Quelles actions fintech sont les meilleures à acheter en 2026 ?

Quelles actions fintech sont les meilleures à acheter en 2026 ?

A Third Of Fintech Is Invisible To AI Agents

Top Insights

Les États-Unis et l’Iran échangent de nouvelles frappes dans le détroit d’Ormuz alors que l’Iran cherche à fermer la route concurrente

2 milliards d’exemplaires imprimés, un dernier hourra pour une légende de la Coupe du monde dans un pack à 2 $ : The Last Ride of the Panini Sticker Album

Apple demande l’approbation des États-Unis pour acheter des puces CXMT sur liste noire : FT

What's Hot

L’écart de renforcement – ou pourquoi certaines compétences en IA imputent plus rapidement

Related Posts

Subscribe to Updates