L’humanité a dévoilé la dernière génération de modèles d’IA « Frontier » ou de pointe, le Claude Opus 4 et le Claude Sonnet 4 lors de sa première conférence pour les développeurs jeudi à San Francisco. La startup d’IA de 61 milliards de dollars a déclaré dans un article de blog que le nouveau modèle OPUS très attendu est le « meilleur modèle de codage du monde » et « fournit des performances durables pour les tâches à long terme qui nécessitent un effort ciblé et des milliers d’étapes ». Avec le nouveau modèle, les agents de l’IA peuvent analyser des milliers de sources de données et effectuer des actions complexes.
La nouvelle version met en évidence la concurrence féroce pour construire les modèles d’IA les plus avancés au monde, en particulier dans des domaines tels que le codage logiciel, comme Google l’a fait cette semaine dans la démonstration d’un modèle de recherche expérimental appelé Gemini Diffusion, et implémenter de nouvelles technologies pour la vitesse et l’efficacité. Dans une référence qui compare à quel point les modèles de langage à grande échelle différents fonctionnent dans des tâches d’ingénierie logicielle, deux modèles anthropes ont battu les derniers modèles d’Openai, tandis que les meilleurs modèles de Google ont du retard.

Certains premiers testeurs ont déjà accédé au modèle et l’ont essayé sur des tâches réelles. Dans un exemple, la société propose, le directeur général de l’IA chez Rakuten, une société de récompenses de shopping, a déclaré que l’Opus 4 était « codé de manière autonome pendant près de sept heures » après avoir été déployé sur un projet complexe.
« Il s’agit en fait d’un énorme changement et d’un saut en réalité », a déclaré Dianne Penn, membre du personnel technique d’Anthropic, à Fortune, en particulier au fur et à mesure que les modèles se déroulent sous forme de « copilotes » ou comme assistants, agents ou collaborateurs virtuels qui peuvent automatiquement travailler sur le comportement des utilisateurs.
Claude Opus 4 a plusieurs nouvelles fonctionnalités, a-t-elle ajouté. Historiquement, ces systèmes ne se souviennent pas de tout ce qu’ils ont fait auparavant, a déclaré Penn, mais « nous étions prudents que nous puissions libérer notre conscience à long terme des tâches ». Ce modèle utilise une sorte de système de fichiers pour suivre les progrès et vérifie stratégiquement ce qui est stocké en mémoire pour ajouter l’étape suivante.
Les deux modèles peuvent alterner entre l’inférence et l’utilisation d’outils tels que la recherche Web, et peuvent également utiliser plusieurs outils à la fois, tels que la recherche Web ou l’exécution de tests de code.
« Je pense que c’est vraiment une course au sommet », a déclaré Michael Gerstenharbor, le chef de produit de la plate-forme d’IA de l’humanité. « Nous voulons nous assurer que l’IA s’améliore pour tout le monde et presse tous les laboratoires pour l’augmenter en toute sécurité », a-t-il expliqué.
L’opus Claude 4 est lancé avec des protocoles de sécurité plus stricts que les modèles humains précédents. La politique de mise à l’échelle responsable de la société (RSP) a été un engagement public initialement publié en septembre 2023, affirmant que l’humanité ne « entraînera pas ou déploiera un modèle qui pourrait causer un préjudice catastrophique, sauf s’il implémente les mesures de sécurité et de sécurité qui maintiennent le risque inférieur aux niveaux acceptables ». L’humanité a été fondée en 2021 par un ancien employé de l’OpenAI qui craignait que OpenAI a priorisé la vitesse et l’échelle sur la sécurité et la gouvernance.
En octobre 2024, la société a mis à jour son RSP avec « une approche plus flexible et nuancée pour évaluer et gérer les risques d’IA tout en maintenant son engagement à ne pas former ou à déployer des modèles à moins que des garanties appropriées ne soient mises en œuvre ».
Jusqu’à présent, tous les modèles humains ont été classés sous le niveau de sécurité de l’IA (ASL-2) sur la base de la politique de mise à l’échelle responsable de l’entreprise, qui fournit un niveau de base de modèles d’IA et de sécurité des modèles. Un porte-parole humain a déclaré que la société n’avait pas exclu que le nouveau Claude Opus 4 peut atteindre des seuils ASL-2, mais lance activement des modèles selon des normes de sécurité ASL-3 plus strictes. Poursuivant une protection améliorée contre le vol et l’utilisation abusive du modèle, empêchant l’accès au «poids» à l’intérieur du modèle, y compris de fortes défenses pour empêcher la libération d’informations nocives.
Le modèle, classé comme le troisième niveau de sécurité de l’humanité, répond aux seuils de capacités les plus dangereux conformément à la politique de mise à l’échelle responsable de l’entreprise et est suffisamment puissant pour présenter des risques graves tels que le développement d’armes et l’automatisation de la R&D de l’IA. L’humanité a confirmé que l’OPUS 4 ne nécessite pas le niveau de protection le plus élevé classé comme ASL-4.
« Nous nous attendions à ce que cela puisse être fait lorsque nous avons lancé notre dernier modèle, le Sonnet Claude 3.7 », a déclaré un porte-parole humain. « Dans ce cas, le modèle a décidé qu’il ne nécessiterait pas de protection de la norme ASL-3. Cependant, étant donné le rythme des progrès, il a reconnu la possibilité très réaliste que les modèles dans un avenir proche puissent garantir ces mesures améliorées. »
Vers la libération de Claude 4 Opus, elle a expliqué et décidé activement de le lancer selon les normes ASL-3. « Cette approche nous a permis de nous concentrer sur le développement, les tests et le raffinement de ces protections avant d’être nécessaires. Le modèle a éliminé la nécessité d’une sauvegarde ASL-4 en fonction des tests. » L’humanité n’a rien dit qui a fait passer la décision à ASL-3.
L’humanité publie constamment des modèles ou des lancements de systèmes qui fournissent des informations détaillées sur les capacités et les évaluations de sécurité des modèles. Penn a déclaré à Fortune que l’humanité publiera des cartes de modèle avec de nouvelles versions de l’Opus 4 et du Sonnet 4, et un porte-parole a confirmé qu’il serait publié lors de la sortie du modèle aujourd’hui.
Récemment, les entreprises, dont OpenAI et Google, ont retardé la sortie des cartes modèles. En avril, Openai a été critiqué pour avoir publié un modèle GPT-4.1 sans carte de modèle. En effet, la société a déclaré que ce n’était pas un modèle « frontière » et n’était pas nécessaire. Et en mars, Google a dévoilé la carte du modèle Gemini 2.5 Pro quelques semaines après la sortie du modèle, les experts de la gouvernance de l’IA la critiquant comme « légère » et « inquiétante ».
Cette histoire a été initialement présentée sur Fortune.com.

