Les chercheurs ont-ils découvert une nouvelle «loi de mise à l’échelle» de l’IA? C’est ce que le buzz sur les réseaux sociaux suggère – mais les experts sont sceptiques.
Les lois sur l’échelle de l’IA, un peu un concept d’informateur, décrivent comment les performances des modèles d’IA s’améliorent à mesure que la taille des ensembles de données et les ressources informatiques utilisées pour les former augmente. Jusqu’à ce qu’il y a un an, la mise à l’échelle des modèles de plus en plus lancés de «pré-tournage» sur des ensembles de données toujours plus lourds était de loin la loi dominante, au sens du sens que la plupart des laboratoires AI frontaliers l’ont embrassé.
La pré-formation n’a pas disparu, mais deux lois de mise à l’échelle supplémentaires, la mise à l’échelle après la formation et la mise à l’échelle du temps de test, ont émergé pour l’avoir supplémentaire. La mise à l’échelle post-entraînement est essentiellement réglé le comportement d’un modèle, tandis que la mise à l’échelle du temps de test appliquant plus de calcul à l’inférence-I exécutant des modèles pour entraîner une forme de «raisonnement» (voir: des modèles comme R1).
Les chercheurs de Google et de l’UC Berkeley propose récemment dans un article ce que certains commentateurs en ligne ont décrit comme une quatrième loi: «recherche de temps de référence».
La recherche de temps d’Infection a un modèle génère de nombreuses années possibles à une requête en parallèle, puis sélectionnez le «meilleur» du groupe. Les chercheurs affirment qu’il peut augmenter les performances d’un modèle d’année, comme Gemini 1.5 Pro de Google, à un niveau qui dépasse le modèle de « raisonnement » O1-Preview d’Openai sur les références scientifiques et mathématiques.
Notre article se concentre sur cet axe de recherche et ses tendances de mise à l’échelle. Par exemple, en échantillonnant au hasard 200 réponses et auto-vérifiables, Gemini 1.5 (un ancien modèle du début de 2024!) Bat O1-Preview et approche O1. Ceci se situe dans des vérificateurs de truth au sol Finetuning, RL, Gold. pic.twitter.com/hb5fo7ifnh
– Eric Zhao (@ Ericzhao28) 17 mars 2025
« (B) Y Échantillonnant au hasard 200 responsabilités et auto-vérifiables, Gemini 1.5-An antique début 2024 Modèle-Beats O1-Preview and Approches O1 », a écrit Eric Zhao, un doctorat de Google et l’un des co-auteurs du journal, a écrit dans une série de messages sur X. L’auto-vérification devient naturellement plus facile à grande échelle! Vous vous attendez à ce que la sélection d’une solution correcte devienne plus difficile plus votre pool de solutions est grande, l’inverse est le cas! «
Plusieurs experts disent que les résultats sont surprenants, cependant, et que la recherche de temps d’inférence peut ne pas être utile dans de nombreux scénarios.
Matthew Guzdial, chercheur de l’IA et professeur adjoint à l’Université de l’Alberta, a déclaré à TechCrunch que l’approche fonctionne mieux quand est une bonne «fonction d’évaluation» – en d’autres termes, lorsque la meilleure réponse à une question peut être facilement déterminée. Mais la plupart des requêtes ne sont pas aussi coupées.
« (I) f Nous ne pouvons pas écrire de code pour définir ce que nous voulons, nous ne pouvons pas utiliser la recherche (temps de conférence) », a-t-il déclaré. «Pour quelque chose comme l’interaction générale du langage, nous pouvons le faire (…), ce n’est généralement pas une excellente approbation pour résoudre réellement le plus de problèmes.»
Mike Cook, chercheur au King’s College de Londres spécialisé dans l’IA, a convenu avec l’évaluation de Guzdial, ajoutant qu’il met en évidence l’écart entre le « raisonnement » au sens de l’IA et de nos propres processus de pensée.
« (Recherche de temps d’inférence) n’augmente pas le processus de raisonnement » du modèle « , a déclaré Cook. «(I) T est juste une façon de travailler les limites d’une technologie sujette à fabricant de manière très en toute confiance soutenue des faussets (…) intuitivement si votre modèle rend une erreur 5% du temps, puis la vérification de 200 tentatives au même problème Shout Maker rend les erreurs plus faciles à repérer.»
Cette recherche de temps d’inférence peut avoir des limitations est certainement une nouvelle indésirable à une industrie de l’IA qui cherche à augmenter le modèle de «raisonnement» économe en fonctionnalité. En tant que co-auteurs de The Paper Note, les modèles de raisonnement peuvent accumuler aujourd’hui des milliers de dollars d’informatique sur un seul problème de mathématiques.
Il semble que la recherche de nouvelles techniques de mise à l’échelle se poursuive.