Une analyse d’Epoch IA, un institut de recherche sur l’IA à but non lucratif, suggère que l’industrie de l’IA peut ne pas être en mesure d’éliminer les gains de performances massives de raisonnement de modèles d’IA plus longtemps. Dès que l’intérieur, les progrès des modèles de raisonnement pourraient ralentir, selon les conclusions du rapport.
Des modèles de raisonnement tels que l’O3 d’OpenAI ont conduit à des gains substantiels sur les références de l’IA au cours des derniers mois, en particulier les références mesurant les compétences en mathématiques et en programmation. Les modèles peuvent appliquer plus de calcul aux problèmes, ce qui peut améliorer leurs performances, avec le fait qu’ils prennent les modèles de convection pour effectuer des tâches.
Les modèles de raisonnement sont développés en formant d’abord un modèle de convention sur un fonctionnement massif des données, puis en appliquant une technique appelée apprentissage du renforcement, qui donne effectivement au modèle de «rétroaction» sur ses solutions à un problème difficile.
Jusqu’à présent, les laboratoires AI Frontier comme OpenAI n’ont pas appliqué un énorme pouvoir de calcul au stade d’apprentissage du renforcement de la formation du modèle de raisonnement, selon Epoch.
Cela change. OpenAI a déclaré qu’il avait appliqué environ 10 fois plus de calcul pour former O3 que son précesseur, O1, et l’époque spécule que celle de ce calcul était consacrée à l’apprentissage du renforcement. Et le chercheur d’Openai, Dan Roberts, a révélé révolue que les plans futurs de l’entreprise appellent à la hiérarchisation de l’apprentissage du renforcement pour utiliser beaucoup plus de puissance informatique, encore plus que pour la formation initiale du modèle.
Mais il y a encore une limite supérieure à la quantité informatique peut être appliquée à l’apprentissage du renforcement, par époque.

Josh You, analyste à Epoch et l’auteur de l’analyse, explique que les gains de performance de la formation des modèles d’IA standard sont actuellement quadruples chaque année, tandis que les gains de performance de l’apprentissage par renforcement se développent tous les dix fois tous les 3 à 5 mois. Les progrès de la formation du raisonnement «convergent probablement avec la frontière globale d’ici 2026», poursuit-il.
Événement TechCrunch
Berkeley, que
|
5 juin
Réserver maintenant
L’analyse d’Epoch fait un certain nombre d’hypothèses et tire en partie des commentaires publics des dirigeants de la société d’IA. Mais cela fait également valoir que la mise à l’échelle des modèles de raisonnement peut être difficile pour des raisons informatiques, incluent des frais généraux élevés pour la recherche.
«S’il y a des frais généraux persistants requis pour la recherche, les modèles de raisonnement pourraient ne pas évoluer aussi loin», vous écrit. «La mise à l’échelle de calcul rapide est potentialisée un ingrédient très important dans le progrès du modèle de raisonnement, il vaut donc la peine de le suivre étroitement.
Toute indication que les modèles de raisonnement peuvent atteindre une sorte de limite dans un avenir proche est susceptible de mondialiser l’industrie de l’IA, qui a investi d’énormes ressources pour développer ces types de modèles. Déjà, des études ont montré que les modèles de raisonnement, qui peuvent être intensifs à exécuter, ont de graves défauts, de la plus grande valeur pour halluciner plus que les modèles de convention.