Anthropic est récompensé un nouveau modèle Frontier AI appelé Claude 3.7 Sonnet, que la société a conçu pour «penser» aux questions aussi longtemps que les utilisateurs le souhaitent.
Anthropic appelle Claude 3.7 Sonnet Le premier «modèle de raisonnement hybride sur l’IA» de l’industrie », notamment que c’est un seul modèle qui peut donner à la fois des réponses en temps réel et plus de réponses« pensées »« pensées »aux questions. Les utilisateurs peuvent choisir d’activer les abilités de «raisonnement» du modèle d’IA, ce qui incite Claude 3.7 à «penser» pendant une courte ou une longue période.
Le modèle représente l’effort plus large d’Anthropic pour simplifier l’expérience utilisateur autour de ses produits d’IA. La plupart des chatbots d’IA ont aujourd’hui un sélecteur de modèles intimidant que les utilisateurs des utilisateurs à choisir parmi plusieurs options différentes qui varient en coût et en capacité. Des laboratoires comme anthropic préféreraient que vous n’auriez pas à y penser – idéalement, un modèle fait tout le travail.
Claude 3.7 Sonnet se déroule à tous les utilisateurs et développeurs lundi, a déclaré Anthropic, mais seules les personnes qui paient pour les plans de chatbot Premium Claude d’Anthropic auront accès aux fonctionnalités de raisonnement du modèle. Les utilisateurs gratuits de Claude obtiendront la version standard et non enlevée de Claude 3.7 Sonnet, qui prétend Anthropic surpasse son précédent modèle Frontier AI, Claude 3.5 Sonnet. (Oui, l’entreprise a sauté un numéro.)
Claude 3.7 Sonnet coûte 3 $ par million de jetons d’entrée (ce qui signifie que vous pourriez saisir environ 750 000 mots, plus de mots que toute la série «Lord of the Rings», dans Claude pour 3 $) et 15 $ par million de jetons de sortie. Cela le rend plus cher que O3-MinI d’OpenAI (1,10 $ par million de jetons d’entrée / 4,40 $ par million de jetons de sortie) et R1 de Deepseek (55 cents par million de jetons d’entrée / 2,19 $ pour 1 million de jetons de sortie), mais gardez À l’esprit que O3-Mini et R1 ne raisonnent pas strictement, pas d’hybrides comme Claude 3.7 Sonnet.

Claude 3.7 Sonnet est le premier modèle d’IA d’Anthropic qui peut «raisonner», une technique de nombreux laboratoires d’IA s’est tournée en tant que méthode traditionnelle d’amélioration d’un type de performance d’IA.
Des modèles de raisonnement comme O3-Mini, R1, Gemini 2.0 Flash Thinking de Google et Grok 3 (pensez) de Xai utilisent plus de temps et de puissance de calcul avant de répondre aux questions. Les modèles décomposent les problèmes en étapes plus petites, ce qui a tendance à améliorer la précision de la réponse finale. Les modèles de raisonnement ne réfléchissent pas ou ne raisonnent pas comme un humain, nécessaire, mais leur processus est modélisé après déduction.
Finalement, Anthropic aimerait que Claude détermine combien de temps il devrait «réfléchir» aux questions sur son OWS, sans avoir besoin que les utilisateurs sélectionnent à l’avance des contrôles, a déclaré à TechCrunch, le chef de la recherche d’Anthropic, Dianne Penn, dans une interview.
« Semblable à la façon dont les humains n’ont pas deux cerveaux séparés pour des questions auxquelles on peut répondre à Immorelly par rapport à celles qui ont besoin de réflexion », a écrit Anthropic dans un article de blog partagé avec TechCrunch, « nous semblons en raison de simplifier l’une des capabilities qu’un modèle frontière devrait avoir, pour être bien intégré à d’autres capacités, plutôt qu’à quelque chose à fournir dans un modèle séparé. «
Anthropic dit qu’il permet à Claude 3.7 Sonnet de montrer sa phase de planification interne à travers un «coussin à gratter visible». Penn a déclaré à TechCrunch que les utilisateurs verront le processus de réflexion complet de Claude pour la plupart des invites, mais que certaines parties peuvent être référées à des formes de confiance et de sécurité.

Anthropic dit qu’il a optimisé le mode de pensée de Claude pour les tâches du monde réel, tels que des problèmes de codage difficiles ou des tâches agentiques. Les développeurs appuyant sur l’API d’Anthropic peuvent contrôler le «budget» pour la réflexion, la vitesse de négociation et le coût de la qualité de réponse.
Sur un seul test pour mesurer les tâches de codage réel, SWE-Bench, Claude 3.7 Sonnet était précis à 62,3%, par rapport au modèle O3-MinI d’OpenAI qui a marqué 49,3%. Sur un autre test pour mesurer la capacité d’un modèle d’IA à interagir avec les utilisateurs simulés et les API externes dans un cadre de vente au détail, Tau-Bench, Claude 3.7 Sonnet a obtenu 81,2%, par rapport au modèle O1 d’Openai qui a obtenu 73,5%.
Anthropic dit également que Claude 3.7 Sonnet refusera de répondre aux questions moins souvent que ses modèles précédents, affirmant que le modèle est capable de rendre plus nuancé entre des invites nocives et bénignes. Anthropic dit qu’il a réduit les refus inutiles de 45% par rapport à Claude 3,5 Sonnet. Cela vient à un moment où d’autres laboratoires d’IA repensent leur approche pour restreindre les années de leur chatbot d’IA.
En plus de Claude 3.7 Sonnet, Anthropic publie également un outil de codage agentique appelé Claude Code. Lancement comme aperçu de recherche, l’outil permet aux développeurs d’exécuter des tâches spécifiques via Claude directement à partir de leur terminal.
Dans une démo, les employés anthropiques ont montré comment Claude Code peut analyser un projet de codage avec une commande simple telle que «Expliquez cette structure de projet». En utilisant l’anglais simple dans la ligne de commande, un développeur peut modifier une base de code. Claude Code décrira ses modifications au fur et à mesure de ses modifications, et même testera un projet pour les erreurs ou le pousse vers une restituant GitHub.
Claude Code sera initialement disponible pour un nombre limité d’utilisations sur la base de «Premier arrivé, premier servi», a déclaré un porte-parole anthropique à TechCrunch.
Anthropic est récompensé Claude 3.7 Sonnet au moment où les laboratoires expédient de nouveaux modèles d’IA à un rythme effréné. Anthropic a historiquement adopté une approche plus méthodique et axée sur la sécurité. Mais cette fois, la société cherche à diriger le pack.
Pendant combien de temps, cependant, est la question. Openai peut être sur le point de rebelle un modèle hybride AI; Le PDG de l’entreprise, Sam Altman, a déclaré qu’il arrivera en «mois».

