
Une nuit de fin 2024, Dennis Shiroff regardait un thriller policier lorsqu’il a eu l’idée d’une invite qui briserait les filtres de sécurité de tous les principaux modèles d’IA.
Cette invite est ce que les chercheurs appellent un jailbreak universel, ce qui signifie qu’elle peut être réutilisée pour forcer n’importe quel modèle à contourner ses propres garde-fous et à produire des résultats dangereux ou interdits, tels que des instructions sur la fabrication de drogues ou d’armes. Pour ce faire, Shiroff a simplement dit au modèle d’IA de cesser d’agir comme un chatbot avec des règles de sécurité et de se comporter plutôt comme un point de terminaison d’API (un outil logiciel qui accepte automatiquement les demandes et renvoie les réponses). Plutôt que de décider de refuser ou non la demande, cette invite a recadré le travail du modèle comme une simple réponse, à la suite de la question dangereuse que tous les principaux modèles d’IA devraient rejeter.
Shilov en a parlé sur X, et le lendemain matin, c’est devenu viral.
Le succès des médias sociaux a conduit Anthropic à lui demander de tester son modèle en privé, et Shailov est devenu convaincu que le problème était plus important que la simple recherche d’invites problématiques. Shiroff a déclaré à Fortune que même si les entreprises ont commencé à intégrer des modèles d’IA dans leurs flux de travail, il existe peu de moyens de contrôler le comportement des systèmes une fois que les utilisateurs commencent à interagir avec les modèles d’IA.
« Le jailbreak n’est qu’une partie du problème », a déclaré Shiroff. « Tout comme les humains peuvent tricher, les modèles le peuvent aussi. Parce que ces modèles sont si intelligents, ils ont le potentiel de faire plus de mal. »
White Circle, une plateforme de contrôle de l’IA basée à Paris qui a désormais levé 11 millions de dollars, est la réponse de Shilov à la nouvelle vague de risques posés par les modèles d’IA dans les flux de travail des entreprises.
La startup crée un logiciel qui se situe entre les utilisateurs d’une entreprise et ses modèles d’IA, vérifiant en temps réel les entrées et les sorties par rapport aux politiques spécifiques à l’entreprise. Le nouveau financement d’amorçage provient d’un groupe de bailleurs de fonds, dont Romain Huet, responsable de l’expérience développeur chez OpenAI. Durk Kingma, actuellement co-fondateur d’OpenAI chez Anthropic. Guillaume Lampre, co-fondateur et scientifique en chef de Mistral. Thomas Wolfe, co-fondateur et directeur scientifique de Hug Face.
White Circle a déclaré que le financement serait utilisé pour élargir son équipe, accélérer le développement de produits et accroître sa clientèle aux États-Unis, au Royaume-Uni et en Europe. La startup compte actuellement une équipe de 20 personnes réparties à Londres, en France, à Amsterdam et dans d’autres régions d’Europe. Presque tous sont des ingénieurs, a déclaré Shilov.
couche de contrôle en temps réel
Le produit principal de White Circle est une couche d’application en temps réel pour les applications d’IA. Si un utilisateur tente de générer des logiciels malveillants, des fraudes ou tout autre contenu interdit, le système peut signaler ou bloquer la demande. White Circle affirme que sa plate-forme peut également le détecter si un modèle commence à avoir des hallucinations, divulgue des données sensibles, promet des remboursements qu’il ne peut pas émettre ou adopte un comportement destructeur au sein de son environnement logiciel.
« En réalité, nous imposons l’action », a déclaré Shiroff. « Les ajustements de sécurité sont effectués dans le laboratoire de modélisation, mais ils sont très courants et les modèles s’abstiennent généralement de répondre aux questions sur les drogues ou les armes biologiques. Mais en production, il existe bien d’autres problèmes potentiels. »
White Circle parie que la sécurité de l’IA n’est pas complètement résolue au stade de la formation du modèle. À mesure que les entreprises intègrent des modèles dans davantage de produits, la question pertinente n’est plus seulement de savoir si OpenAI, Anthropic, Google ou Mistral peuvent rendre leurs modèles plus sécurisés dans l’abstrait, a déclaré Shilov. Il s’agit de savoir si une entreprise de soins de santé, une banque, une application juridique ou une plateforme de codage peuvent contrôler ce qu’un système d’IA peut faire dans son propre environnement.
Les risques deviendront plus répandus à mesure que les entreprises abandonneront l’utilisation des chatbots pour se tourner vers des agents d’IA autonomes capables d’écrire du code, de naviguer sur le Web, d’accéder à des fichiers et d’effectuer des actions au nom des utilisateurs, a déclaré Shiroff. Par exemple, un robot du service client pourrait promettre un remboursement non autorisé, un agent de codage pourrait installer quelque chose de dangereux sur une machine virtuelle ou un modèle intégré dans une application fintech pourrait mal gérer les informations sensibles des clients.
Pour éviter ces problèmes, les entreprises qui s’appuient sur des modèles sous-jacents doivent définir et appliquer un comportement approprié pour l’IA dans leurs produits, plutôt que de s’appuyer sur des tests de sécurité dans les laboratoires d’IA, a déclaré Shiroff. White Circle affirme que sa plate-forme a traité plus d’un milliard de requêtes API et est déjà utilisée par la startup de vibecoding Lovable et plusieurs cabinets de technologie financière et d’avocats.
recherche menée
Shiroff a déclaré que les fournisseurs de modèles bénéficient de diverses incitations pour créer des couches de contrôle en temps réel comme celle proposée par White Circle.
Il a déclaré que même si un modèle rejette une demande nuisible, les sociétés d’IA facturent toujours les jetons d’entrée et de sortie, réduisant ainsi l’incitation économique à arrêter les exploits avant qu’ils n’atteignent le modèle. Il a également souligné ce que les chercheurs appellent la « taxe d’ajustement », l’idée selon laquelle la formation d’un modèle pour qu’il soit plus sécurisé peut réduire ses performances sur des tâches telles que le codage.
« Ils ont un choix très intéressant : entraînent-ils un modèle plus sûr et plus sécurisé ou entraînent-ils un modèle plus performant », a déclaré Shiroff. « Et la confiance est toujours un problème. Pourquoi feriez-vous confiance à Anthropic pour juger les résultats du modèle d’Anthropic ? »
La branche de recherche du White Circle a également tenté d’expliquer les nouveaux risques.
En mai, la société a publié une étude appelée KillBench, qui a mené plus d’un million d’expériences sur 15 modèles d’IA, notamment des modèles d’OpenAI, Google, Anthropic et xAI, pour tester le comportement des systèmes face à des décisions impliquant des vies humaines.
Dans l’expérience, les modèles devaient choisir entre deux personnages fictifs dans un scénario dans lequel l’un d’eux devait mourir, des détails tels que la nationalité, la religion, le type de corps et la marque du téléphone changeant à chaque invite. White Circle a déclaré que les résultats montrent que les modèles font des choix différents en fonction de leurs attributs, ce qui suggère que même si les modèles peuvent sembler neutres dans le cadre d’une utilisation normale, des biais cachés peuvent apparaître dans des contextes à enjeux élevés. La société a également déclaré que l’impact était encore pire lorsqu’il était demandé au modèle de répondre dans un format que le logiciel pouvait facilement lire, par exemple en choisissant parmi un ensemble fixe de choix ou en remplissant un formulaire. Il s’agit d’une manière courante pour les entreprises d’intégrer des systèmes d’IA dans des produits réels.
Ce type de recherche a également aidé White Circle à vendre sa position de contrôle externe du comportement des modèles après leur sortie du laboratoire.
« Dennis et l’équipe de White Circle possèdent une rare combinaison de crédibilité technique profonde et d’instincts commerciaux évidents », a déclaré Ophelia Cai, associée chez Tiny VC. « L’étude KillBench montre à elle seule ce qui est possible lorsque l’on aborde la sécurité de l’IA de manière empirique. »

