Pourquoi la caractéristique la plus controversée du GPT-5, le routeur modèle, est l'avenir de l'IA

L’annonce de la semaine dernière du GPT-5 d’Openai était destinée à être une victoire. C’est que l’entreprise était toujours un leader incontroversé dans l’IA. Au cours du week-end, les pondérations souterraines des clients ont transformé leur déploiement en quelque chose de plus qu’une tempête de relations publiques. C’est devenu une crise de produit et de confiance. Les utilisateurs ont déploré la perte de leurs modèles préférés, qui ont doublé en tant que thérapeutes, amis et partenaires romantiques. Les développeurs se sont plaints de mauvaises performances. Le critique de l’industrie Gary Marcus a qualifié le GPT-5 de « trop exagéré, exagéré, extrêmement écrasant » comme prévu.

Les auteurs que beaucoup affirmaient étaient cachés dans une vision évidente. Le nouveau modèle en temps réel, « Router », détermine automatiquement ce que l’un des GPT-5 tourne pour chaque emploi. De nombreux utilisateurs ont supposé que GPT-5 était un seul modèle formé à partir de zéro. La réalité est qu’il s’agit d’un réseau de modèles, certains sont faibles et bon marché, d’autres sont plus forts et plus chers et remplis. Les experts disent que l’approche pourrait devenir l’avenir de l’IA à mesure que les modèles de langue à grande échelle progressent et deviennent plus à forte intensité de ressources. Cependant, avec les débuts du GPT-5, OpenAI a démontré certains des défis inhérents à l’approche, et a appris quelques leçons importantes sur la façon dont les attentes des utilisateurs évoluent dans l’ère IA.

Pour tous les avantages promis dans le routage des modèles, de nombreux utilisateurs de GPT-5 ont hérissé ce qu’ils sont considérés sous contrôle. Certains ont même suggéré qu’Openai pourrait essayer intentionnellement de tirer la laine dans leurs yeux.

En réponse à l’émeute GPT-5, OpenAI est rapidement passé et a retrouvé son principal modèle précoce, le GPT-4O, pour les utilisateurs professionnels. Il a également déclaré qu’il avait fait la promesse de continuer à mettre à jour pour corriger le ruisseau buggy, corriger les restrictions d’utilisation accrues et regagner la confiance et la stabilité des utilisateurs.

Anand Chowdhary, co-fondatrice de la plate-forme de vente de l’IA, Firstquadrant, a donné un résumé franc de la situation. «Lorsque vous le frappez, cela ressemble à de la magie.

Promesse de routage modèle et contradictions

Jiaxuan You, professeur adjoint d’informatique à l’Université de l’Illinois Urbana-Champaign, a déclaré à Fortune qu’il avait étudié à la fois les promesses et les incohérences de l’acheminement des modèles. Dans le cas de GPT-5, il pense que les routeurs de modèles peuvent envoyer une partie de la même requête à différents modèles (bien qu’il ne puisse pas le confirmer), a-t-il déclaré. Un modèle moins cher et plus rapide peut donner une réponse, mais un modèle plus lent axé sur l’inférence donne une autre réponse, et des contradictions subtiles se déroulent lorsque le système couvre ces réponses ensemble.

Il a expliqué que l’idée de routage modèle est intuitive, mais « il n’est pas très important de le faire fonctionner ». Une fois que vous avez terminé le routeur, il peut être aussi difficile que la construction d’un système recommandé par Amazon Grade. « Le GPT-5 est probablement censé être construit avec plus de ressources », a-t-il expliqué, notant que les routeurs ne devraient pas produire de réponses incohérentes lors du choix d’un modèle plus petit.

Pourtant, vous croyez que le routage restera ici. « La communauté considère également le modèle de routage d’une promesse », a-t-il déclaré. Techniquement, les performances du modèle unique semble être un succès auprès du plateau. J’ai souligné les lois de mise à l’échelle courantes. « Mais nous savons tous que les modèles ne s’amélioreront pas infiniment », a-t-il déclaré. « Au cours de la dernière année, nous avons tous été témoins de la véritable saturation des capacités d’un seul modèle. »

Sur le plan économique, le routage permet aux fournisseurs d’IA de continuer à utiliser l’ancien modèle plutôt que de le rejeter lorsque le nouveau modèle se lance. Bien que les événements actuels nécessitent des mises à jour fréquentes, les faits statiques restent précis pendant des années. En pointant une requête spécifique sur les modèles plus anciens, vous perdez une énorme quantité de temps et ne gaspillez pas l’argent que vous avez déjà dépensé.

Il y a aussi des limitations physiques difficiles. La mémoire GPU est toujours un goulot d’étranglement pour la formation de grands modèles, et la technologie des puces approche de la mémoire maximale qui peut être emballée en un seul dé. En pratique, nous avons expliqué que les limitations physiques signifient que les modèles suivants ne peuvent pas être 10 fois plus importants:

Vieilles idées actuellement éprouvées

William Falcon, fondateur et PDG de AI Platform Lightning AI, souligne que l’idée d’utiliser un ensemble de modèles n’est pas nouveau. Il existe depuis 2018. Étant donné que le modèle d’Openai est une boîte noire, je ne sais pas non plus que GPT-4 n’utilise pas le système de routage du modèle.

« Je pense que peut-être qu’ils sont plus clairs à ce sujet maintenant », a-t-il déclaré. Dans tous les cas, la publication du GPT-5 a été un énorme succès, y compris un système de routage de modèle. Un article de blog présentant le modèle intitulé « Le modèle le plus intelligent, le plus rapide et le plus utile, et vous pensez et pensez. » Dans le billet de blog officiel de Chatgpt, OpenAI a confirmé que GPT-5 dans le chatppt fonctionne sur un système de modèles réglés par un routeur en coulisses qui passe à une inférence plus profonde si nécessaire. La carte du système GPT – 5 est allée plus loin et a clairement décrit la GPT-5-MAIN, GPT-5-MAIN, GPT – 5 – HOING, GPT – 5-SINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKINKinkin -Mini, et gpt -5 – ideas mini) qui expliquent comment un système unifié se déplace entre eux.

Lors d’une pré-brriefond de la presse, le PDG d’Openai, Sam Altman, a promu le routeur de modèle comme un moyen de lutter contre quelque chose de difficile à déchiffrer la liste des modèles à choisir. Altman a appelé l’interface précédente du sélecteur de modèle «confusion très confuse».

Mais Falcon a dit que le problème central était que le GPT-5 ne se sentait pas seulement comme un saut. « 2-3-4 de GPT-1 – c’était un saut massif à chaque fois. 4-5 n’était pas significativement bon. C’est ce qui rend les gens bouleversés. »

Les modèles multiples seront-ils AGI?

Le débat sur le routage des modèles nous a permis d’appeler un battage médiatique en cours sur les informations générales artificielles ou la probabilité que Agis soit développé bientôt. OpenAI définit officiellement AGI comme « un système très autonome qui dépasse les humains dans les tâches les plus précieuses économiquement », mais Altman a déclaré la semaine dernière qu’il n’était « pas un terme très utile ».

« Qu’en est-il de l’Agi promis? » Le chercheur et co-fondateur de l’IAT de Tensoropera, Aiden Chaoyang, il a critiqué le déploiement du GPT-5. « Même des entreprises puissantes comme OpenAI n’ont pas la capacité de former des modèles super-grandes et sont obligés de recourir à des routeurs de modèles en temps réel. »

Robert Nishihara, PDG de la plate-forme de production d’IA, AnyScale, dit que l’échelle est toujours en cours avec l’IA, mais l’idée d’un modèle omnipotent d’IA reste insaisissable. « Il est difficile de construire un modèle parfait pour tout », a-t-il déclaré. GPT-5 fonctionne donc actuellement sur un réseau de modèles liés par des routeurs plutôt que sur un seul monolithe.

Openai dit qu’il veut les unifier en un seul modèle à l’avenir, mais Nishihara souligne que les systèmes hybrides ont de réels avantages. Vous pouvez mettre à niveau une pièce à la fois sans confondre le reste. En conséquence, Nishihara pense que le routage sera têtu.

Aiden Chaoyan Il est d’accord. En théorie, la méthode de mise à l’échelle est toujours valable – plus de données et de modèles de calcul améliorent le modèle – mais en réalité, nous pensons que le développement est « en spirale » entre les deux approches. Vous essayez d’acheminer des modèles spéciaux et de les intégrer en un. Les déterminants sont les coûts d’ingénierie, le calcul et les limitations d’énergie et la pression commerciale.

Des histoires AGI exagérées peuvent également devoir être ajustées. « Si quelqu’un fait quelque chose de proche d’Agi, je ne sais pas si c’est un ensemble de poids qui le fait littéralement », a déclaré Falcon à propos du « cerveau » derrière les LLM. « Si c’est une collection de modèles qui ressemblent à Agi, c’est bien. Personne ici n’est un puriste. »

Source link

What's Hot

Top Crypto VC Matt Huang mène le tempo blockchain rayé en tant que PDG et reste dans un paradigme

Les pirates de gouvernement russe ont déclaré être derrière le système de dépôt de la Cour fédérale américaine Hack: Rapport

Chipotle et Cava s’arrêtent à l’automatisation des restaurants avec un pari de 25 millions de dollars

Pourquoi la caractéristique la plus controversée du GPT-5, le routeur modèle, est l’avenir de l’IA

Top Crypto VC Matt Huang mène le tempo blockchain rayé en tant que PDG et reste dans un paradigme

Chipotle et Cava s’arrêtent à l’automatisation des restaurants avec un pari de 25 millions de dollars

Pénuries de jouets Cette saison de magasinage des Fêtes est « inévitabilité absolue » grâce aux tâches douaniers, disent les fabricants

Si la poussée EV de 5 milliards de dollars de Ford échoue, il pourrait s’agir d’un « terminal » pour la marque: les analystes

Pourquoi de nombreuses startups fintech échouent et comment éviter les erreurs

Bolttech forme un conseil consultatif pour guider la prochaine étape de l’expansion

Blockchain géant géant fintech « Tempo » Blockchain avec Crypto VC Paradigm

Top Insights

Top Crypto VC Matt Huang mène le tempo blockchain rayé en tant que PDG et reste dans un paradigme

Les pirates de gouvernement russe ont déclaré être derrière le système de dépôt de la Cour fédérale américaine Hack: Rapport

Chipotle et Cava s’arrêtent à l’automatisation des restaurants avec un pari de 25 millions de dollars

What's Hot

Pourquoi la caractéristique la plus controversée du GPT-5, le routeur modèle, est l’avenir de l’IA

Promesse de routage modèle et contradictions

Vieilles idées actuellement éprouvées

Les modèles multiples seront-ils AGI?

Related Posts

Subscribe to Updates