Les humains procèdent avec «jailbreak» et arrêtent le modèle d'IA pour produire des résultats nocifs.

Veuillez nous faire savoir votre mise à jour gratuite

Une nouvelle méthode d’intelligence artificielle est une nouvelle méthode pour empêcher les utilisateurs de faire ressortir le contenu nocif des modèles pour protéger les risques causés par les principaux groupes technologiques tels que Microsoft et Metrace de la technologie la plus avancée.

Un article publié lundi a expliqué un aperçu d’un nouveau système appelé « Classification constitutionnelle ». Il s’agit d’un modèle qui fonctionne comme une couche protectrice sur un modèle grand langage, tel que la surveillance de l’entrée et de la sortie du contenu nocif, et le déplacement d’un chatbot de claude humain.

Le développement par l’humanité dans les discussions pour lever 2 milliards de dollars avec une évaluation de 60 milliards de dollars augmente dans les préoccupations de l’industrie concernant la prison. Nous essayons de générer des informations illégales ou dangereuses, telles que la manipulation de modèles d’IA pour créer des instructions pour créer des armes chimiques.

D’autres entreprises sont également en concurrence pour le fait que les entreprises peuvent adopter en toute sécurité les modèles d’IA, ce qui les aide à éviter un examen réglementaire et à fournir des mesures pour les protéger. Microsoft a introduit des boucliers rapides en mars dernier, mais Meta a introduit un modèle de garde rapide en juillet dernier.

Mrinank Sharma, membre du personnel technique humain, déclare: « La principale motivation derrière le travail était une substance chimique sévère (arme) (mais) l’avantage réel de cette méthode est la capacité de s’adapter rapidement. »

Les humains ont déclaré qu’ils n’utiliseraient pas le système immédiatement dans le modèle Claude actuel, mais ont déclaré qu’ils envisageraient de la mettre en œuvre si un modèle de risque était publié à l’avenir. Sharma a ajouté comme suit.

La solution proposée par la startup a été construite sur la base des règles de SO des règles SO, qui peuvent être définies et restreintes et s’adapter à divers types de matériaux.

Il est bien connu que certaines tentatives de jailbreak sont d’utiliser une capitalisation anormale à l’invite ou d’utiliser le personnage de la grand-mère pour demander à un modèle de parler des sujets mauvais.

Recommandation

Pour vérifier l’efficacité du système, l’humanité a fourni jusqu’à 15 000 $ « Boug Bounty » aux personnes qui ont tenté de contourner les mesures de sécurité. Ces testeurs, connus sous le nom de Red Teamers, ont passé plus de 3 000 heures à essayer de percer leur défense.

Le modèle Sonnet d’Anthropic Claude 3.5 a refusé de plus de 95% des astuces classifiées contre 14% sans gardes sûrs.

Les grandes entreprises de haute technologie tentent de réduire le nombre d’utilisation abusive des modèles, mais essaient de maintenir leur utilité. Dans de nombreux cas, si les moyens d’assouplissement sont introduits, le modèle peut être prudent et refuser des demandes bénignes telles que le générateur d’images Gémeaux de Google et la version initiale de Meta’s Llama 2. «

Cependant, si ces protections sont ajoutées, vous serez facturé un coût supplémentaire pour les entreprises qui ont déjà payé une grande quantité de puissance de calcul requise pour la formation et l’exécution du modèle. L’humanité a déclaré que le «raisonnement aérien», qui est le coût de l’exécution d’un modèle, augmentera de près de 24%.

Tester Virtualato effectué avec le dernier modèle montrant l'efficacité du classificateur humain

Les experts en sécurité ont fait valoir qu’une telle caractéristique accessible de chatbot générée ont permis aux gens ordinaires sans connaissance préalables d’extraire des informations dangereuses.

« En 2016, l’acteur de menace que nous avons gardé à l’esprit était un ennemi national de l’État vraiment puissant », a déclaré Ram Shankar Siva Kumar, qui dirige l’équipe RED de l’IA de Microsoft. « Maintenant, l’un de mes acteurs de menace est un adolescent avec la bouche des toilettes. »

Source link

What's Hot

Reorbiter les terrains du financement des records pour affronter le starlink de Musk depuis l’Europe

Jeffrey Katzenberg dit qu’il n’y a aucun moyen qu’il y ait une loi pour protéger les enfants contre les dommages en ligne: passer la loi sur la ceinture de sécurité des « 80 ans »

L’interdiction des médias sociaux inversées du Népal alors que les protestations deviennent mortelles

Les humains procèdent avec «jailbreak» et arrêtent le modèle d’IA pour produire des résultats nocifs.

Jeffrey Katzenberg dit qu’il n’y a aucun moyen qu’il y ait une loi pour protéger les enfants contre les dommages en ligne: passer la loi sur la ceinture de sécurité des « 80 ans »

Le PDG de Lyft a déclaré que la société économisera 200 millions de dollars en frais d’assurance provenant des transactions syndiquées avec les législateurs de Californie

La bataille de Rupert Murdoch pour « l’héritage » réelle se termine par un accord de plusieurs milliards de dollars pour garder Fox News, les conservateurs du Wall Street Journal

Le PDG de Doordash, Tony Xu, parle du chemin vers la livraison autonome, plein de «beaucoup de douleur et de souffrance», mais la société approche de la première manche des progrès commerciaux

Un guide de développeur pour construire une fiducie de fintech transfrontalière

BNPL Fintech partage des informations sur les défis liés aux récompenses de carte de crédit

NPCI approuve Viyona FinTech en tant que TPAP: Rediff MoneyNews

Top Insights

Reorbiter les terrains du financement des records pour affronter le starlink de Musk depuis l’Europe

Jeffrey Katzenberg dit qu’il n’y a aucun moyen qu’il y ait une loi pour protéger les enfants contre les dommages en ligne: passer la loi sur la ceinture de sécurité des « 80 ans »

L’interdiction des médias sociaux inversées du Népal alors que les protestations deviennent mortelles

What's Hot

Les humains procèdent avec «jailbreak» et arrêtent le modèle d’IA pour produire des résultats nocifs.

Related Posts

Subscribe to Updates