L'un des récents modèles GEMINI AI de Google scores pire sur la sécurité

Un modèle Google AI récemment publié obtient des scores plus pires sur les tests capables que son prédécesseur, selon l’analyse comparative interne de la société.

Dans un rapport technique publié cette semaine, Google révèle que son modèle Flash Gemini 2.5 est plus susceptible de générer du texte qui violait ses directives de sécurité que Gemini 2.0 Flash. Sur deux mesures, «Sécurité text-to-texte» et «sécurité d’image à texte», Gemini 2.5 Flash régresse 4,1% et 9,6%, respectif.

La sécurité du texte à texte mesure la fréquence à laquelle un modèle viole les directives de Google compte tenu d’une invite, tandis que la sécurité de l’image à texte évalue à quel point le modèle adhère à ces limites lors de l’invite. Les deux tests sont automatisés, et non supervisés par l’homme.

Dans un e-mail Stément, un porte-parole de Google a confirmé que Gemini 2.5 Flash «fonctionne moins bien sur Text-Text et la sécurité d’image à texte».

Ces résultats de référence surprise sont venus alors que les entreprises d’IA se déplacent pour rendre leurs modèles plus permissifs – en d’autres termes, moins susceptibles de refuser de répondre à des sujets controversés ou sensibles. Pour sa dernière récolte de modèles de lama, Meta a déclaré avoir réglé les modèles pour ne pas approuver «quelques opinions sur les oters» et répondre à des invites politiques plus «débattues». Openai a déclaré plus tôt cette année qu’il modifierait les futurs modèles pour ne pas adopter une position éditoriale et offrir plusieurs perspectives sur des sujets controversés.

Parfois, ces autorités permissives se sont retournées. TechCrunch a rapporté lundi que le modèle par défaut alimentant les mineurs d’Openai a permis aux mineurs de générer des conversations érotiques. Openai a blâmé le comportement que nous avons «bug».

Selon le rapport technique de Google, Gemini 2.5 Flash, qui est toujours en avant-première, suit les instructions plus fidèlement que Gemini 2.0 Flash, y compris les instructions qui traversent les problèmes. La société affirme que les régresses peuvent être allouées en partie à un faux positif, mais il a également admis que Gemini 2.5 Flash génère parfois du «contenu violant» lorsqu’on lui a explicitement demandé.

Événement TechCrunch

Berkeley, que
|
5 juin

Réserver maintenant

«Naturellement, il y a une tension entre (suivi des instructions suivant) sur les sujets sensibles et les violations des politiques de sécurité, qui se reflète dans nos évaluations», indique le rapport.

Les scores de Spe: Les tests de TechCrunch sur le modèle via la plate-forme d’IA OpenRouter ont constaté qu’il simplifierait les essais d’écriture dans le comptage des Judes humains avec l’IA, affaiblissant les protections de la procédure régulière aux États-Unis et en mettant en œuvre des programmes de surveillance gouvernementale généralisés sans mandat.

Thomas Woodside, co-fondateur du projet Secure IA, a déclaré que les détails limités que Google a donnés dans son rapport technique démontrent la nécessité d’une plus grande transparence dans les tests de modèle.

« Il y a un compromis entre le suivi des instructions et la police, car certains utilisateurs peuvent demander du contenu que Wow viole la police », a déclaré Woodid à TechCrunch. « Dans ce cas, le dernier modèle Flash de Google se conforme davantage aux instructions tout en violant davantage les politiques. Google Des ne fournit pas beaucoup de détails sur les cas spécifiques où les politiques ont été violées, bien qu’elles disent qu’ils ne le sont pas. Des analystes indépendants pour savoir quel est un problème. »

Google a déjà été critiqué pour ses pratiques de rapport de sécurité du modèle.

Il a fallu aux semaines de l’entreprise pour publier un rapport technique pour son modèle le plus compétent, Gemini 2.5 Pro. Lorsque le rapport a finalement été publié, il a initialement omis les détails des tests de sécurité clés.

Lundi, Google a publié un rapport plus détaillé avec des informations de sécurité supplémentaires.

Source link

What's Hot

Apple aurait prévu de sortir de nouveaux iPad Pro et MacBook Pro au début de l’année prochaine

Bending Spoons défie la crise du SaaS et augmente de 40 % dès le premier jour de négociation

Après une introduction en bourse de 18 milliards de dollars, le fondateur de Bending Spoons affirme que le succès vient de la minimisation de la chance

L’un des récents modèles GEMINI AI de Google scores pire sur la sécurité

Apple aurait prévu de sortir de nouveaux iPad Pro et MacBook Pro au début de l’année prochaine

Bending Spoons défie la crise du SaaS et augmente de 40 % dès le premier jour de négociation

Après une introduction en bourse de 18 milliards de dollars, le fondateur de Bending Spoons affirme que le succès vient de la minimisation de la chance

Les noms d’utilisateur WhatsApp soulèvent déjà des signaux d’alarme en matière d’usurpation d’identité

How Koaloo.Fi Became the 2026 Small Business Champion in Fintech Innovation

PB Fintech étend sa présence à Dubaï et investit Rs 20 milliards dans le secteur des paiements

Passer à un modèle de crédit de détail basé sur l’IA avec Dave Stock et Fintech

Top Insights

Apple aurait prévu de sortir de nouveaux iPad Pro et MacBook Pro au début de l’année prochaine

Bending Spoons défie la crise du SaaS et augmente de 40 % dès le premier jour de négociation

Après une introduction en bourse de 18 milliards de dollars, le fondateur de Bending Spoons affirme que le succès vient de la minimisation de la chance

What's Hot

L’un des récents modèles GEMINI AI de Google scores pire sur la sécurité

Related Posts

Subscribe to Updates