Dans la nouvelle entreprise, Deep Cogito, est sorti de la furtivité avec une famille de modèles d’IA ouvertement avairables qui peuvent être des modes de «raisonnement» de commutateur et de non-saison.
Des modèles de raisonnement comme O1 d’Openai sont très prometteurs dans des domaines comme les mathématiques et la physique, grâce à leur capacité à se vérifier efficacement en travaillant sur des problèmes complexes étape par étape. Ce raisonnement a cependant un coût: un calcul et une latence plus élevés. C’est pourquoi des laboratoires comme Anthropic recherchent des architectures de modèle «hybrides» qui combinent des composants de raisonnement avec des éléments standard et non renvoyants. Les modèles hybrides peuvent rapidement répondre à des questions simples tout en passant du temps supplémentaire compte tenu des requêtes plus difficiles.
Tous les modèles Deep Cogito, appelés Cogito 1, sont des modèles hybrides. Cogito affirme qu’ils surpassent les meilleurs modèles ouverts de la même taille, y compris les modèles de Meta et Chinese IA Startup Deepseek.
«Chaque modèle peut répondre directement (…) ou l’auto-réflexion avant de répondre (comme des modèles de raisonnement)», a expliqué la société dans un article de blog. «(Tous) ont été développés par une petite équipe à environ 75 jours.»
Les modèles Cogito 1 varient de 3 milliards de paramètres à 70 milliards de paramètres, et Cogito dit que des modèles allant jusqu’à 671 milliards de paramètres les rejoindront dans les semaines et les mois à venir. Les paramètres correspondent à peu près aux compétences de résolution de problèmes d’un modèle, avec plus de paramètres généralement.
Cogito 1 n’a pas été développé à partir de zéro, pour être clair. Deep Cogito s’est construit sur les modèles QWEN d’Open Llama de Meta et Alibaba pour créer les siens. La société affirme qu’elle a appliqué de nouvelles approches de formation pour stimuler les performances des modèles de base et permettre un raisonnement dépensable.
Selon les résultats de la référence interne de Cogito, le grand modèle Cogito 1, Cogito 70b, avec le raisonnement surpasse le modèle de raisonnement R1 de Deepseek sur quelques mathématiques et évaluations du langage. Cogito 70B avec raisonnement désactivé éclipse également le modèle LLAMA 4 Scout récemment publié de META sur LiveBench, un test d’IA à purpères généraux.
Chaque modèle Cogito 1 est disponible pour télécharger ou utiliser via des API sur les feux d’artifice des fournisseurs de cloud AI et ensemble AI.

« Actuellement, nous sommes encore dans les premiers stades de (notre) courbe de mise à l’échelle, n’ayant utilisé qu’une fraction de calcul se réserve généralement pour la formation traditionnelle du modèle de grande langue / contribution », a écrit Cogito dans son article de blog. «À l’avenir, nous enquêtons sur les approches complémentaires après la formation pour l’auto-amélioration.»
Selon les documents déposés auprès de California State, Deep Cogito, basé à San Francisco, a été fondé en juin 2024. La page LinkedIn de la société répertorie deux cofondateurs, Drishan Arora et Dhruv Malhotra. Malhotra était auparavant chef de produit chez Google AI Lab Deepmind, où il a travaillé sur la technologie de recherche générative. Arora était ingénieur logiciel principal chez Google.
Deep Cogito, dont les bailleurs de fonds incluent South Park Commons, selon PitchBook, vise ambitieux à construire «Généralités super-sperintelligence.

