Close Menu
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
What's Hot

Reorbiter les terrains du financement des records pour affronter le starlink de Musk depuis l’Europe

septembre 9, 2025

Jeffrey Katzenberg dit qu’il n’y a aucun moyen qu’il y ait une loi pour protéger les enfants contre les dommages en ligne: passer la loi sur la ceinture de sécurité des « 80 ans »

septembre 9, 2025

L’interdiction des médias sociaux inversées du Népal alors que les protestations deviennent mortelles

septembre 9, 2025
Facebook X (Twitter) Instagram
Facebook X (Twitter) Instagram
221 France221 France
  • Home
  • Fintech
  • Economy
  • Fashion
  • Latest
  • Lifestyle
  • Invest
  • Remote work
  • Startups
  • Tech
  • Business
221 France221 France
Home » Les humains procèdent avec «jailbreak» et arrêtent le modèle d’IA pour produire des résultats nocifs.
Business

Les humains procèdent avec «jailbreak» et arrêtent le modèle d’IA pour produire des résultats nocifs.

JohnBy Johnfévrier 3, 2025Aucun commentaire4 Mins Read
Facebook Twitter Pinterest Reddit Telegram LinkedIn Tumblr VKontakte WhatsApp Email
Share
Facebook Twitter Reddit Pinterest Email


Veuillez nous faire savoir votre mise à jour gratuite

Inscrivez-vous simplement au Myft Digest de l’intelligence artificielle et sera distribué directement au plateau de réception.

Une nouvelle méthode d’intelligence artificielle est une nouvelle méthode pour empêcher les utilisateurs de faire ressortir le contenu nocif des modèles pour protéger les risques causés par les principaux groupes technologiques tels que Microsoft et Metrace de la technologie la plus avancée.

Un article publié lundi a expliqué un aperçu d’un nouveau système appelé « Classification constitutionnelle ». Il s’agit d’un modèle qui fonctionne comme une couche protectrice sur un modèle grand langage, tel que la surveillance de l’entrée et de la sortie du contenu nocif, et le déplacement d’un chatbot de claude humain.

Le développement par l’humanité dans les discussions pour lever 2 milliards de dollars avec une évaluation de 60 milliards de dollars augmente dans les préoccupations de l’industrie concernant la prison. Nous essayons de générer des informations illégales ou dangereuses, telles que la manipulation de modèles d’IA pour créer des instructions pour créer des armes chimiques.

D’autres entreprises sont également en concurrence pour le fait que les entreprises peuvent adopter en toute sécurité les modèles d’IA, ce qui les aide à éviter un examen réglementaire et à fournir des mesures pour les protéger. Microsoft a introduit des boucliers rapides en mars dernier, mais Meta a introduit un modèle de garde rapide en juillet dernier.

Mrinank Sharma, membre du personnel technique humain, déclare: « La principale motivation derrière le travail était une substance chimique sévère (arme) (mais) l’avantage réel de cette méthode est la capacité de s’adapter rapidement. »

Les humains ont déclaré qu’ils n’utiliseraient pas le système immédiatement dans le modèle Claude actuel, mais ont déclaré qu’ils envisageraient de la mettre en œuvre si un modèle de risque était publié à l’avenir. Sharma a ajouté comme suit.

La solution proposée par la startup a été construite sur la base des règles de SO des règles SO, qui peuvent être définies et restreintes et s’adapter à divers types de matériaux.

Il est bien connu que certaines tentatives de jailbreak sont d’utiliser une capitalisation anormale à l’invite ou d’utiliser le personnage de la grand-mère pour demander à un modèle de parler des sujets mauvais.

Recommandation

L'humanité au téléphone

Pour vérifier l’efficacité du système, l’humanité a fourni jusqu’à 15 000 $ « Boug Bounty » aux personnes qui ont tenté de contourner les mesures de sécurité. Ces testeurs, connus sous le nom de Red Teamers, ont passé plus de 3 000 heures à essayer de percer leur défense.

Le modèle Sonnet d’Anthropic Claude 3.5 a refusé de plus de 95% des astuces classifiées contre 14% sans gardes sûrs.

Les grandes entreprises de haute technologie tentent de réduire le nombre d’utilisation abusive des modèles, mais essaient de maintenir leur utilité. Dans de nombreux cas, si les moyens d’assouplissement sont introduits, le modèle peut être prudent et refuser des demandes bénignes telles que le générateur d’images Gémeaux de Google et la version initiale de Meta’s Llama 2. « 

Cependant, si ces protections sont ajoutées, vous serez facturé un coût supplémentaire pour les entreprises qui ont déjà payé une grande quantité de puissance de calcul requise pour la formation et l’exécution du modèle. L’humanité a déclaré que le «raisonnement aérien», qui est le coût de l’exécution d’un modèle, augmentera de près de 24%.

Tester Virtualato effectué avec le dernier modèle montrant l'efficacité du classificateur humain

Les experts en sécurité ont fait valoir qu’une telle caractéristique accessible de chatbot générée ont permis aux gens ordinaires sans connaissance préalables d’extraire des informations dangereuses.

« En 2016, l’acteur de menace que nous avons gardé à l’esprit était un ennemi national de l’État vraiment puissant », a déclaré Ram Shankar Siva Kumar, qui dirige l’équipe RED de l’IA de Microsoft. « Maintenant, l’un de mes acteurs de menace est un adolescent avec la bouche des toilettes. »



Source link

Share. Facebook Twitter Pinterest LinkedIn Reddit Email
Previous ArticleLe bain à remous, la première application porno native iPhone, est arrivée dans
Next Article Prestigious Grammys is overshadowed by braless Hollywood A-listers including full-frontal nude Bianca Censori just days after swanky Paris Fashion Week was also overrun by stars flashing the flesh
John
  • Website

Related Posts

Jeffrey Katzenberg dit qu’il n’y a aucun moyen qu’il y ait une loi pour protéger les enfants contre les dommages en ligne: passer la loi sur la ceinture de sécurité des « 80 ans »

septembre 9, 2025

Le PDG de Lyft a déclaré que la société économisera 200 millions de dollars en frais d’assurance provenant des transactions syndiquées avec les législateurs de Californie

septembre 9, 2025

La bataille de Rupert Murdoch pour « l’héritage » réelle se termine par un accord de plusieurs milliards de dollars pour garder Fox News, les conservateurs du Wall Street Journal

septembre 8, 2025

Le PDG de Doordash, Tony Xu, parle du chemin vers la livraison autonome, plein de «beaucoup de douleur et de souffrance», mais la société approche de la première manche des progrès commerciaux

septembre 8, 2025
Add A Comment
Leave A Reply Cancel Reply

Top Posts

Un guide de développeur pour construire une fiducie de fintech transfrontalière

septembre 8, 2025

BNPL Fintech partage des informations sur les défis liés aux récompenses de carte de crédit

septembre 8, 2025

NPCI approuve Viyona FinTech en tant que TPAP: Rediff MoneyNews

septembre 8, 2025

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

Bienvenue sur 221 France, votre source d’informations de qualité sur les domaines de la technologie, des affaires, du lifestyle et des animaux de compagnie. Nous sommes passionnés par la création de contenus qui enrichissent votre quotidien et vous aident à naviguer dans un monde en constante évolution.

Facebook X (Twitter) Instagram Pinterest YouTube
Top Insights

Reorbiter les terrains du financement des records pour affronter le starlink de Musk depuis l’Europe

septembre 9, 2025

Jeffrey Katzenberg dit qu’il n’y a aucun moyen qu’il y ait une loi pour protéger les enfants contre les dommages en ligne: passer la loi sur la ceinture de sécurité des « 80 ans »

septembre 9, 2025

L’interdiction des médias sociaux inversées du Népal alors que les protestations deviennent mortelles

septembre 9, 2025
Get Informed

Subscribe to Updates

Subscribe to our newsletter and never miss our latest news

Subscribe my Newsletter for New Posts & tips Let's stay updated!

© 2025 221france. Designed by 221france.
  • Home
  • About us
  • Advertise us
  • Contact us
  • DMCA
  • Privacy policy
  • Terms & Condition

Type above and press Enter to search. Press Esc to cancel.