Veuillez nous faire savoir votre mise à jour gratuite
Inscrivez-vous simplement au Myft Digest de l’intelligence artificielle et sera distribué directement au plateau de réception.
Une nouvelle méthode d’intelligence artificielle est une nouvelle méthode pour empêcher les utilisateurs de faire ressortir le contenu nocif des modèles pour protéger les risques causés par les principaux groupes technologiques tels que Microsoft et Metrace de la technologie la plus avancée.
Un article publié lundi a expliqué un aperçu d’un nouveau système appelé « Classification constitutionnelle ». Il s’agit d’un modèle qui fonctionne comme une couche protectrice sur un modèle grand langage, tel que la surveillance de l’entrée et de la sortie du contenu nocif, et le déplacement d’un chatbot de claude humain.
Le développement par l’humanité dans les discussions pour lever 2 milliards de dollars avec une évaluation de 60 milliards de dollars augmente dans les préoccupations de l’industrie concernant la prison. Nous essayons de générer des informations illégales ou dangereuses, telles que la manipulation de modèles d’IA pour créer des instructions pour créer des armes chimiques.
D’autres entreprises sont également en concurrence pour le fait que les entreprises peuvent adopter en toute sécurité les modèles d’IA, ce qui les aide à éviter un examen réglementaire et à fournir des mesures pour les protéger. Microsoft a introduit des boucliers rapides en mars dernier, mais Meta a introduit un modèle de garde rapide en juillet dernier.
Mrinank Sharma, membre du personnel technique humain, déclare: « La principale motivation derrière le travail était une substance chimique sévère (arme) (mais) l’avantage réel de cette méthode est la capacité de s’adapter rapidement. »
Les humains ont déclaré qu’ils n’utiliseraient pas le système immédiatement dans le modèle Claude actuel, mais ont déclaré qu’ils envisageraient de la mettre en œuvre si un modèle de risque était publié à l’avenir. Sharma a ajouté comme suit.
La solution proposée par la startup a été construite sur la base des règles de SO des règles SO, qui peuvent être définies et restreintes et s’adapter à divers types de matériaux.
Il est bien connu que certaines tentatives de jailbreak sont d’utiliser une capitalisation anormale à l’invite ou d’utiliser le personnage de la grand-mère pour demander à un modèle de parler des sujets mauvais.
Recommandation
Pour vérifier l’efficacité du système, l’humanité a fourni jusqu’à 15 000 $ « Boug Bounty » aux personnes qui ont tenté de contourner les mesures de sécurité. Ces testeurs, connus sous le nom de Red Teamers, ont passé plus de 3 000 heures à essayer de percer leur défense.
Le modèle Sonnet d’Anthropic Claude 3.5 a refusé de plus de 95% des astuces classifiées contre 14% sans gardes sûrs.
Les grandes entreprises de haute technologie tentent de réduire le nombre d’utilisation abusive des modèles, mais essaient de maintenir leur utilité. Dans de nombreux cas, si les moyens d’assouplissement sont introduits, le modèle peut être prudent et refuser des demandes bénignes telles que le générateur d’images Gémeaux de Google et la version initiale de Meta’s Llama 2. «
Cependant, si ces protections sont ajoutées, vous serez facturé un coût supplémentaire pour les entreprises qui ont déjà payé une grande quantité de puissance de calcul requise pour la formation et l’exécution du modèle. L’humanité a déclaré que le «raisonnement aérien», qui est le coût de l’exécution d’un modèle, augmentera de près de 24%.

Les experts en sécurité ont fait valoir qu’une telle caractéristique accessible de chatbot générée ont permis aux gens ordinaires sans connaissance préalables d’extraire des informations dangereuses.
« En 2016, l’acteur de menace que nous avons gardé à l’esprit était un ennemi national de l’État vraiment puissant », a déclaré Ram Shankar Siva Kumar, qui dirige l’équipe RED de l’IA de Microsoft. « Maintenant, l’un de mes acteurs de menace est un adolescent avec la bouche des toilettes. »