Un modèle Google AI récemment publié obtient des scores plus pires sur les tests capables que son prédécesseur, selon l’analyse comparative interne de la société.
Dans un rapport technique publié cette semaine, Google révèle que son modèle Flash Gemini 2.5 est plus susceptible de générer du texte qui violait ses directives de sécurité que Gemini 2.0 Flash. Sur deux mesures, «Sécurité text-to-texte» et «sécurité d’image à texte», Gemini 2.5 Flash régresse 4,1% et 9,6%, respectif.
La sécurité du texte à texte mesure la fréquence à laquelle un modèle viole les directives de Google compte tenu d’une invite, tandis que la sécurité de l’image à texte évalue à quel point le modèle adhère à ces limites lors de l’invite. Les deux tests sont automatisés, et non supervisés par l’homme.
Dans un e-mail Stément, un porte-parole de Google a confirmé que Gemini 2.5 Flash «fonctionne moins bien sur Text-Text et la sécurité d’image à texte».
Ces résultats de référence surprise sont venus alors que les entreprises d’IA se déplacent pour rendre leurs modèles plus permissifs – en d’autres termes, moins susceptibles de refuser de répondre à des sujets controversés ou sensibles. Pour sa dernière récolte de modèles de lama, Meta a déclaré avoir réglé les modèles pour ne pas approuver «quelques opinions sur les oters» et répondre à des invites politiques plus «débattues». Openai a déclaré plus tôt cette année qu’il modifierait les futurs modèles pour ne pas adopter une position éditoriale et offrir plusieurs perspectives sur des sujets controversés.
Parfois, ces autorités permissives se sont retournées. TechCrunch a rapporté lundi que le modèle par défaut alimentant les mineurs d’Openai a permis aux mineurs de générer des conversations érotiques. Openai a blâmé le comportement que nous avons «bug».
Selon le rapport technique de Google, Gemini 2.5 Flash, qui est toujours en avant-première, suit les instructions plus fidèlement que Gemini 2.0 Flash, y compris les instructions qui traversent les problèmes. La société affirme que les régresses peuvent être allouées en partie à un faux positif, mais il a également admis que Gemini 2.5 Flash génère parfois du «contenu violant» lorsqu’on lui a explicitement demandé.
Événement TechCrunch
Berkeley, que
|
5 juin
Réserver maintenant
«Naturellement, il y a une tension entre (suivi des instructions suivant) sur les sujets sensibles et les violations des politiques de sécurité, qui se reflète dans nos évaluations», indique le rapport.
Les scores de Spe: Les tests de TechCrunch sur le modèle via la plate-forme d’IA OpenRouter ont constaté qu’il simplifierait les essais d’écriture dans le comptage des Judes humains avec l’IA, affaiblissant les protections de la procédure régulière aux États-Unis et en mettant en œuvre des programmes de surveillance gouvernementale généralisés sans mandat.
Thomas Woodside, co-fondateur du projet Secure IA, a déclaré que les détails limités que Google a donnés dans son rapport technique démontrent la nécessité d’une plus grande transparence dans les tests de modèle.
« Il y a un compromis entre le suivi des instructions et la police, car certains utilisateurs peuvent demander du contenu que Wow viole la police », a déclaré Woodid à TechCrunch. « Dans ce cas, le dernier modèle Flash de Google se conforme davantage aux instructions tout en violant davantage les politiques. Google Des ne fournit pas beaucoup de détails sur les cas spécifiques où les politiques ont été violées, bien qu’elles disent qu’ils ne le sont pas. Des analystes indépendants pour savoir quel est un problème. »
Google a déjà été critiqué pour ses pratiques de rapport de sécurité du modèle.
Il a fallu aux semaines de l’entreprise pour publier un rapport technique pour son modèle le plus compétent, Gemini 2.5 Pro. Lorsque le rapport a finalement été publié, il a initialement omis les détails des tests de sécurité clés.
Lundi, Google a publié un rapport plus détaillé avec des informations de sécurité supplémentaires.