Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Après la mort de Charlie Kirk, Trump a réprimandé « Radical Left » après avoir ciblé le Soros indivisible

septembre 17, 2025

Steve Blank When Sh! T frappe le ventilateur – les fondateurs en crise

septembre 17, 2025

Waymo s’associera à Lyft pour ses débuts Robotakshi à Nashville l’année prochaine

septembre 17, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » La Silicon Valley parie très bien sur les «emplacements» pour former des agents de l’IA
Startups

La Silicon Valley parie très bien sur les «emplacements» pour former des agents de l’IA

JohnBy Johnseptembre 16, 2025Aucun commentaire10 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Pendant des années, les grands PDG de technologie ont toutes les visions d’agents d’IA qui peuvent utiliser automatiquement les applications logicielles pour effectuer des tâches pour les personnes. Mais prenez les agents de l’IA grand public d’aujourd’hui pour un tour, où l’agent Chatgpt d’Openai ou la comète de Perplexity, et vous vous rendrez rapidement compte à quel point la technologie est limitée. Rendre les agents d’IA plus robustes peut prendre un nouvel ensemble de techniques que l’industrie découvre encore.

L’une de ces techniques simule soigneusement les espaces de travail où les agents peuvent être formés sur des tâches en plusieurs étapes connues sous le nom d’apprentissage par renforcement (RL). De façon similaire à la façon dont les ensembles de données étiquetés ont alimenté la dernière vague d’IA, RL Shooves commence à ressembler à un élément critique dans le développement des agents.

Les chercheurs, les fondateurs et les investisseurs de l’IAD disent à TechCrunch que les principaux laboratoires d’IA exigent maintenant plus de RL autour, et il n’y a pas de pénurie de startups qui espèrent les fournir.

« Tous les grands laboratoires AI construisent des environs RL en interne », a déclaré Jennifer Li, associée générale chez Andreessen Horowitz, dans une interview avec TechCrunch. « Mais comme vous pouvez l’imaginer, la création de ces ensembles de données est très complexe, donc les laboratoires AI sont également consacrés aux fournisseurs tiers qui peuvent créer une qualité et des évaluations de haute qualité. Tout le monde regarde cet espace. »

La poussée des environnements RL a été frappée une nouvelle classe de startups bien utilisées, telles que Mechanize et Prime Intellect, qui aiment diriger l’espace. Pendant ce temps, les grandes sociétés d’étiquetage des données comme Mercor et Surge disent qu’ils investissent davantage dans la RL autour du rythme des déplacements de l’industrie des ensembles de données statiques aux simulations interactives. Les principaux laboratoires envisagent également d’investir le ciel: selon les informations, les dirigeants d’Anthropic ont Discusd dépensant plus d’un milliard de dollars dans les environs RL au cours de la prochaine année.

L’espoir pour les investisseurs et les fondateurs est que l’une de ces startups émerge comme «l’échelle de l’IA pour autour», se référençant à la puissance d’étiquetage de données de 29 milliards de dollars qui a propulsé l’ère du chatbot.

La question est de savoir où les environs RL pousseront vraiment la frontière du progrès de l’IA.

Événement TechCrunch

San Francisco
|
27-29 octobre 2025

Qu’est-ce qu’un environnement?

À la base, RL envolies sont des groupes de formation qui ont simulé ce que faire un agent d’IA fait dans une véritable application logicielle. Un fondateur a décrit les construire dans une récente interview «comme créer un jeu vidéo très ennuyeux».

Par exemple, un environnement pourrait simuler un navigateur et une tâche chromés un agent d’IA avec l’achat d’une paire de chaussettes sur Amazon. L’agent est classé sur ses performances et sent un signal de récompense lorsqu’il réussit (dans ce cas, l’achat d’une digne de chaussettes).

Bien qu’une telle tâche semble relativement simple, il y a beaucoup d’endroits où un agent d’IA pourrait être déclenché. Il pourrait se perdre à naviguer dans les menus déroulants de la page Web ou acheter trop de SOC. Et les développeurs parce que les développeurs peuvent prédire exactement quel mauvais virage prendra un agent, l’environnement lui-même a été robuste pour capturer un comportement de n’importe où, tout en fournissant des commentaires utiles. Cela rend les envoliques de construction beaucoup plus complexes qu’un ensemble de données statique.

Certains environnements sont élaborés, permettant aux agents de l’IA d’utiliser des outils, d’accéder à Internet ou d’utiliser diverses applications logicielles pour effectuer une tâche donnée. D’autres sont plus étroits, aimaient aider un agent à apprendre des tâches spécifiques dans les applications logicielles d’entreprise.

Alors que RL autour de la chose chaude dans la Silicon Valley en ce moment, il y a beaucoup de choses auparavant pour utiliser cette technique. L’un des premiers projets d’Openai en 2016 a été la construction de «RL Gyms», qui étaient assez similaires à la conception moderne des environnements. La même année, le système AI Alphago de Google Deepmind a battu un champion du monde au jeu de société, Go. Il a également utilisé des techniques RL dans un environnement simulé.

Ce qui est unique dans les environnements d’aujourd’hui, c’est que les chercheurs essaient de construire des agents d’IA informatiques avec de grands modèles de transformation. Contrairement à Alphago, qui était un système d’IA spécialisé travaillant dans un environnement fermé, les agents d’IA d’aujourd’hui sont formés pour avoir des capacités plus générales. Les chercheurs d’IA ont aujourd’hui un point de départ fort, mais aussi un objectif compliqué où plus peut mal tourner.

Un champ bondé

Les sociétés d’étiquetage des données AI comme SCALAGE IA, Surge et Mercor essaient de rencontrer le moment et de développer RL autour. Ces entreprises disposent de plus de ressources que de nombreuses startups dans l’espace, ainsi que des relations profondes avec les laboratoires d’IA.

Le PDG de Surge, Edwin Chen, a déclaré à TechCrunch qu’il a récemment vu a «dénué de sens» dans la demande d’environnements RL au sein des laboratoires AI. Surge – qui aurait généré 1,2 milliard de dollars de revenus l’année dernière en travaillant avec des laboratoires AI comme OpenAI, Google, Anthropic et Meta – a récemment renvoyé une nouvelle organisation interne spécialement chargée de construire RL autour, a-t-il déclaré.

Close derrière Surge se trouve Mercor, une startup d’une valeur de 10 milliards de dollars, qui a également travaillé avec Openai, Meta et Anthropic. Mercor lance des investisseurs sur son environnement RL de construction d’entreprises pour des tâches spécifiques au domaine telles que le codage, les soins de santé et le droit, selon les documents marketing vus par TechCrunch.

Le PDG de Mercor, Brendan Foody, a déclaré à TechCrunch dans une interview que «peu comprennent à quel point l’opportunité autour de RL Shooves est vraiment.»

L’échelle AI a utilisé pour dominer l’espace d’étiquetage des données, mais a perdu Grind depuis que Meta a investi 14 milliards de dollars et embauché son. Vente ensuite, Google et OpenAI ont abandonné l’échelle de l’IA en tant que fournisseur de données, et la startup fait même face à la concurrence pour les travaux d’étiquetage des données à l’intérieur de Meta. Mais encore, Scale essaie de rencontrer le moment et les bâtiments.

« Ce n’est que la nature de l’entreprise (échelle de l’IA) », a déclaré Chetan Rane, chef de produit de l’échelle A pour les agents et RL. «L’échelle a prouvé sa capacité à s’adapter rapidement. Nous l’avons fait dans les premiers jours des véhicules autonomes, notre première unité commerciale. Lorsque Chatgpt se présente, l’échelle AI s’est adaptée à cela. Et maintenant, encore une fois, nous nous adaptons à de nouveaux espaces frontaliers comme les agents et les légères.»

Certains joueurs plus récents se concentrent exclusivement sur des envoliques de l’outre. Parmi eux, Mechanise, une startup fondée il y a environ six mois dans l’objectif audacieux de «l’automatisation de tous les travaux». Cependant, le co-fondateur Matthew Barnett a déclaré à TechCrunch que son entreprise commence par RL autour des agents de codage de l’IA.

Mechanize vise à fournir des laboratoires AI avec un petit nombre de RL robustes, dit Barnett, plutôt que des entreprises de données plus grandes qui créent une large gamme de RL simples autour. À ce stade, la startup offre aux ingénieurs logiciels que 500 000 employés pour construire RL autour – bien plus élevé qu’un entrepreneur horaire pourrait gagner du travail à l’échelle de l’IA ou de la surtension.

Mechanize a déjà travaillé avec Anthropic sur RL autour, deux sources familières avec l’affaire à TechCrunch à TechCrunch. Mécaniser et anthropic ont refusé de savoir comment sur le partenariat.

D’autres startups parient que les environs RL influenceront en dehors des laboratoires AI. Prime Intellect – une startup soutenue par le chercheur de l’IA, Andrej Karpathy, Founders Fund, et Menlo Ventures – cible les petits développeurs avec son environnement RL.

Le mois dernier, Prime Intellect a lancé un RL Environing Hub, qui vise à être un «visage étreint pour les environs RL». L’idée est de donner un accès au développement de l’ouverture aux mêmes résurces que les grands laboratoires d’IA ont et de vendre à ces développeurs l’accès aux ressources informatiques dans le processus.

La formation des agents généralement capables dans les environnements RL peut être plus exissive de calcul que les techniques de formation précédentes de l’IA, selon le chercheur de premier plan Intellect. Parallèlement aux startups qui construisent des environnements RL, il existe une autre opportunité pour les fournisseurs de GPU qui peuvent alimenter le processus.

« RL Envolutines va être trop grand pour qu’une seule entreprise domine », a déclaré Brown dans une interview. « Une partie de ce que nous faisons consiste simplement à essayer de construire une bonne infrastructure open source autour.

Va-t-il évoluer?

La question ouverte entoure un environnement RL est que la technique évoluera comme les méthodes de formation IA précédentes.

L’apprentissage par renforcement a propulsé certains des plus grands sauts d’une IA au cours de la dernière année, inclus comme O1 d’Openai et Claude Opus 4 d’Anthropic. Ce sont des percées particulièrement importantes car les méthodes précédemment utilisées pour improviser les rendements.

Les légers font partie du pari plus important d’Ai Labs sur RL, qui, selon Mayy, continuera de faire progresser les progrès car ils ajoutent plus de données et de ressources informatiques au processus. Certains des chercheurs d’OpenAI derrière O1 ont précédemment déclaré à TechCrunch que la société avait initialement investi dans des modèles de raisonnement d’IA – qui ont été créés grâce à des investissements dans RL et à l’emploi à temps d’essai, car ils pensaient que cela évoluerait bien.

La meilleure façon de mettre à l’échelle RL reste claire, l’objectif environnemental semble être un contenu prometteur. Intoread de simple chatbots enrichissants pour les réponses textuelles, ils laissent les agents go opérer dans des simulations avec des outils et des ordinateurs lors de leur répartition. C’est beaucoup plus en indemnité de ressources, mais plus possible plus enrichissante.

Certains sont sceptiques quant à ce que tous ces environs RL se pan. Ross Taylor, une forme de recherche sur l’IA avec Meta qui a cofondé le raisonnement général, a déclaré à TechCrunch que les environs RL sont enclins à récompenser le piratage. Il s’agit d’un processus dans lequel les modèles d’IA trichent afin d’obtenir une récompense, sans vraiment faire la tâche.

«Je pense que les gens sous-estiment à quel point il est difficile de faire évoluer», a déclaré Taylor. «Même les meilleurs accessibles au public (RL envoliques) ne travaillent généralement pas sans modification sérieuse.»

Le chef d’ingénierie d’Openai pour son entreprise d’API, Sherwin Wu, a déclaré dans un récent podcast qu’il était «short» sur les startups entourées de RL. Nous notez que c’est un espace très compétitif, mais aussi qu’une recherche sur l’IA évolue si rapidement qu’il est difficile de bien servir les laboratoires d’IA.

La Karpathy, un investisseur dans Prime Intellect qui a qualifié les environnements de RL une percée potentielle, a également vérifié Bond pour l’espace RL plus largement. Dans un article sur X, il a soulevé des inquiétudes quant à la façon dont plus de progrès de l’IA peuvent être extraits de RL.

« Je suis optimiste sur les environs et les interactions agentiques, mais je suis spécifiquement à l’apprentissage du renforcement », a déclaré Karpathy.

Mise à jour: une version précédente de cet article redd pour mécaniser comme mécaniser le travail. Il a été mis à jour pour refléter le nom officiel de l’entreprise.



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleSelon les stylistes, six tendances de la mode du printemps dominent 2025, selon les stylistes
Next Article Que savoir de l’avenir incertain de Tiktok aux États-Unis et aux gens qui veulent l’acheter
John
  • Website

Related Posts

Steve Blank When Sh! T frappe le ventilateur – les fondateurs en crise

septembre 17, 2025

Google Ventures double sur le forfait de démarrage de Dev Tool seulement 4 mois après son tour de semences

septembre 17, 2025

Sonuir a construit son capteur à ultrasons 3D avec une sécurité robotique à l’esprit

septembre 17, 2025

La société urbaine de l’Inde s’élève à 58% au-dessus du prix d’introduction en bourse dans l’offre la plus abonnée de l’année

septembre 17, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Rapport sur les prévisions du marché fintech 2025-2030 avec des profils pour PayPal, Fiserv, Adyen, Global Payments, Stripe, Fidelity National Information Services, Block, Worldline, Klarna Bank et Affirm

septembre 17, 2025

Ce groupe fintech fournit une augmentation du matériel

septembre 16, 2025

Fichiers LendBuzz FinTech Lendch FinTech pour les introductions en bourse

septembre 12, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Après la mort de Charlie Kirk, Trump a réprimandé « Radical Left » après avoir ciblé le Soros indivisible

septembre 17, 2025

Steve Blank When Sh! T frappe le ventilateur – les fondateurs en crise

septembre 17, 2025

Waymo s’associera à Lyft pour ses débuts Robotakshi à Nashville l’année prochaine

septembre 17, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.