Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

« Normalement, tout le monde aime l’argent » : le chef de la FDA du président Trump commence à accorder des primes pour des examens accélérés des médicaments

mars 5, 2026

Zeno lève 25 millions de dollars pour accélérer la production de ses motos à batterie interchangeable

mars 5, 2026

Science Corp lève 230 millions de dollars alors qu’elle se précipite pour commercialiser son implant cérébral

mars 5, 2026
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les humains procèdent avec «jailbreak» et arrêtent le modèle d’IA pour produire des résultats nocifs.
Business

Les humains procèdent avec «jailbreak» et arrêtent le modèle d’IA pour produire des résultats nocifs.

JohnBy Johnfévrier 3, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Veuillez nous faire savoir votre mise à jour gratuite

Inscrivez-vous simplement au Myft Digest de l’intelligence artificielle et sera distribué directement au plateau de réception.

Une nouvelle méthode d’intelligence artificielle est une nouvelle méthode pour empêcher les utilisateurs de faire ressortir le contenu nocif des modèles pour protéger les risques causés par les principaux groupes technologiques tels que Microsoft et Metrace de la technologie la plus avancée.

Un article publié lundi a expliqué un aperçu d’un nouveau système appelé « Classification constitutionnelle ». Il s’agit d’un modèle qui fonctionne comme une couche protectrice sur un modèle grand langage, tel que la surveillance de l’entrée et de la sortie du contenu nocif, et le déplacement d’un chatbot de claude humain.

Le développement par l’humanité dans les discussions pour lever 2 milliards de dollars avec une évaluation de 60 milliards de dollars augmente dans les préoccupations de l’industrie concernant la prison. Nous essayons de générer des informations illégales ou dangereuses, telles que la manipulation de modèles d’IA pour créer des instructions pour créer des armes chimiques.

D’autres entreprises sont également en concurrence pour le fait que les entreprises peuvent adopter en toute sécurité les modèles d’IA, ce qui les aide à éviter un examen réglementaire et à fournir des mesures pour les protéger. Microsoft a introduit des boucliers rapides en mars dernier, mais Meta a introduit un modèle de garde rapide en juillet dernier.

Mrinank Sharma, membre du personnel technique humain, déclare: « La principale motivation derrière le travail était une substance chimique sévère (arme) (mais) l’avantage réel de cette méthode est la capacité de s’adapter rapidement. »

Les humains ont déclaré qu’ils n’utiliseraient pas le système immédiatement dans le modèle Claude actuel, mais ont déclaré qu’ils envisageraient de la mettre en œuvre si un modèle de risque était publié à l’avenir. Sharma a ajouté comme suit.

La solution proposée par la startup a été construite sur la base des règles de SO des règles SO, qui peuvent être définies et restreintes et s’adapter à divers types de matériaux.

Il est bien connu que certaines tentatives de jailbreak sont d’utiliser une capitalisation anormale à l’invite ou d’utiliser le personnage de la grand-mère pour demander à un modèle de parler des sujets mauvais.

Recommandation

L'humanité au téléphone

Pour vérifier l’efficacité du système, l’humanité a fourni jusqu’à 15 000 $ « Boug Bounty » aux personnes qui ont tenté de contourner les mesures de sécurité. Ces testeurs, connus sous le nom de Red Teamers, ont passé plus de 3 000 heures à essayer de percer leur défense.

Le modèle Sonnet d’Anthropic Claude 3.5 a refusé de plus de 95% des astuces classifiées contre 14% sans gardes sûrs.

Les grandes entreprises de haute technologie tentent de réduire le nombre d’utilisation abusive des modèles, mais essaient de maintenir leur utilité. Dans de nombreux cas, si les moyens d’assouplissement sont introduits, le modèle peut être prudent et refuser des demandes bénignes telles que le générateur d’images Gémeaux de Google et la version initiale de Meta’s Llama 2. « 

Cependant, si ces protections sont ajoutées, vous serez facturé un coût supplémentaire pour les entreprises qui ont déjà payé une grande quantité de puissance de calcul requise pour la formation et l’exécution du modèle. L’humanité a déclaré que le «raisonnement aérien», qui est le coût de l’exécution d’un modèle, augmentera de près de 24%.

Tester Virtualato effectué avec le dernier modèle montrant l'efficacité du classificateur humain

Les experts en sécurité ont fait valoir qu’une telle caractéristique accessible de chatbot générée ont permis aux gens ordinaires sans connaissance préalables d’extraire des informations dangereuses.

« En 2016, l’acteur de menace que nous avons gardé à l’esprit était un ennemi national de l’État vraiment puissant », a déclaré Ram Shankar Siva Kumar, qui dirige l’équipe RED de l’IA de Microsoft. « Maintenant, l’un de mes acteurs de menace est un adolescent avec la bouche des toilettes. »



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLe bain à remous, la première application porno native iPhone, est arrivée dans
Next Article Prestigious Grammys is overshadowed by braless Hollywood A-listers including full-frontal nude Bianca Censori just days after swanky Paris Fashion Week was also overrun by stars flashing the flesh
John
  • Website

Related Posts

« Normalement, tout le monde aime l’argent » : le chef de la FDA du président Trump commence à accorder des primes pour des examens accélérés des médicaments

mars 5, 2026

Les propos de Mark Zuckerberg et d’Adam Mosseri utilisés contre eux dans une vidéo inédite présentée lors d’un procès pour toxicomanie

mars 5, 2026

Google Gemini était la « femme IA » mortelle de cet homme de 36 ans et a résisté aux appels à des « pertes massives » au cours de sa vie, révèle le procès

mars 5, 2026

Le secrétaire à la Défense s’envole pour Chypre après avoir critiqué la réponse du Royaume-Uni à l’attaque

mars 5, 2026
Add A Comment
Leave A Reply Cancel Reply

Top Posts

SWIFT entre dans l’espace fintech pour permettre des transferts de détail transfrontaliers instantanés

mars 5, 2026

La licorne Fintech Moneyview dépose DRHP auprès de SEBI pour une introduction en bourse de 1 500 Cr

mars 4, 2026

Le Sénat étend les pouvoirs de surveillance de la CBN aux fintechs et contourne la proposition d’un régulateur indépendant

mars 4, 2026

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

« Normalement, tout le monde aime l’argent » : le chef de la FDA du président Trump commence à accorder des primes pour des examens accélérés des médicaments

mars 5, 2026

Zeno lève 25 millions de dollars pour accélérer la production de ses motos à batterie interchangeable

mars 5, 2026

Science Corp lève 230 millions de dollars alors qu’elle se précipite pour commercialiser son implant cérébral

mars 5, 2026
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2026 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.