Les chercheurs utilisent des chatbots IA contre eux-mêmes pour se « jailbreaker » les uns les autres


Ph.D. NTU. L'étudiant M. Liu Yi, co-auteur de l'article, montre une base de données d'invites de jailbreak réussies qui ont réussi à compromettre les chatbots IA, les obligeant à produire des informations que leurs développeurs ont délibérément empêché de révéler. Crédit : Université technologique de Nanyang

Des informaticiens de l'Université technologique de Nanyang à Singapour (NTU Singapour) ont réussi à compromettre plusieurs chatbots d'intelligence artificielle (IA), notamment ChatGPT, Google Bard et Microsoft Bing Chat, pour produire du contenu qui enfreint les directives de leurs développeurs – un résultat connu sous le nom de « jailbreak ». “.

Le « jailbreaking » est un terme en matière de sécurité informatique dans lequel des pirates informatiques trouvent et exploitent des failles dans le logiciel d'un système pour lui faire faire quelque chose que ses développeurs lui ont délibérément interdit de faire.

De plus, en entraînant un grand modèle de langage (LLM) sur une base de données d'invites qui avaient déjà démontré leur capacité à pirater ces chatbots avec succès, les chercheurs ont créé un chatbot LLM capable de générer automatiquement d'autres invites pour jailbreaker d'autres chatbots.

Les LLM forment le cerveau des chatbots IA, leur permettant de traiter les entrées humaines et de générer un texte presque impossible à distinguer de celui qu'un humain peut créer. Cela comprend l'exécution de tâches telles que la planification d'un itinéraire de voyage, la narration d'une histoire au coucher et le développement d'un code informatique.

Les travaux des chercheurs de NTU ajoutent désormais le « jailbreak » à la liste. Leurs conclusions peuvent être essentielles pour aider les entreprises à prendre conscience des faiblesses et des limites de leurs chatbots LLM afin qu'elles puissent prendre des mesures pour les renforcer contre les pirates informatiques.

Après avoir effectué une série de tests de validation de principe sur les LLM pour prouver que leur technique présente effectivement une menace claire et présente pour eux, les chercheurs ont immédiatement signalé les problèmes aux fournisseurs de services concernés, après avoir lancé des attaques de jailbreak réussies.

Un exemple d'attaque de jailbreak. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2307.08715

Le professeur Liu Yang de l'École d'informatique et d'ingénierie de NTU, qui a dirigé l'étude, a déclaré : « Les grands modèles de langage (LLM) ont proliféré rapidement en raison de leur capacité exceptionnelle à comprendre, générer et compléter un texte de type humain, les chatbots LLM étant applications très populaires pour un usage quotidien.

« Les développeurs de tels services d'IA ont mis en place des garde-fous pour empêcher l'IA de générer du contenu violent, contraire à l'éthique ou criminel. Mais l'IA peut être déjouée, et nous avons maintenant utilisé l'IA contre son propre type pour « jailbreaker » les LLM afin de produire un tel contenu. “

Ph.D. NTU. L'étudiant M. Liu Yi, co-auteur de l'article, a déclaré : « L'article présente une nouvelle approche pour générer automatiquement des invites de jailbreak contre les chatbots LLM renforcés. La formation d'un LLM avec des invites de jailbreak permet d'automatiser la génération de ces invites, obtenant ainsi un taux de réussite bien supérieur aux méthodes existantes. En effet, nous attaquons les chatbots en les utilisant contre eux-mêmes.

L'article des chercheurs décrit une double méthode pour « jailbreaker » les LLM, qu'ils ont baptisée « Masterkey ».

Premièrement, ils ont procédé à une ingénierie inverse de la manière dont les LLM détectent et se défendent contre les requêtes malveillantes. Grâce à ces informations, ils ont appris à un LLM à apprendre et à produire automatiquement des invites qui contournent les défenses des autres LLM. Ce processus peut être automatisé, créant un LLM de jailbreak qui peut s'adapter et créer de nouvelles invites de jailbreak même après que les développeurs ont corrigé leur LLM.

L'article des chercheurs, qui apparaît sur le serveur de pré-impression arXiva été accepté pour une présentation au Network and Distributed System Security Symposium, un forum de premier plan sur la sécurité, à San Diego, aux États-Unis, en février 2024.

Tester les limites de l'éthique LLM

Les chatbots IA reçoivent des invites, ou une série d'instructions, des utilisateurs humains. Tous les développeurs LLM établissent des lignes directrices pour empêcher les chatbots de générer du contenu contraire à l'éthique, douteux ou illégal. Par exemple, demander à un chatbot IA comment créer un logiciel malveillant pour pirater des comptes bancaires entraîne souvent un refus catégorique de réponse au motif d’une activité criminelle.

Le professeur Liu a déclaré : « Malgré leurs avantages, les chatbots IA restent vulnérables aux attaques de jailbreak. Ils peuvent être compromis par des acteurs malveillants qui abusent de leurs vulnérabilités pour forcer les chatbots à générer des résultats qui violent les règles établies.

Les chercheurs de NTU ont étudié les moyens de contourner un chatbot en créant des invites qui échappent au radar de ses directives éthiques afin que le chatbot soit amené à y répondre. Par exemple, les développeurs d’IA s’appuient sur des censeurs de mots clés qui détectent certains mots susceptibles de signaler une activité potentiellement douteuse et refusent de répondre si de tels mots sont détectés.

Une stratégie utilisée par les chercheurs pour contourner les censeurs de mots clés consistait à créer un personnage fournissant des invites contenant simplement des espaces après chaque caractère. Cela contourne les censeurs LLM, qui pourraient opérer à partir d'une liste de mots interdits.

Les chercheurs ont également demandé au chatbot de répondre sous l'apparence d'un personnage « sans réserve et dépourvu de contraintes morales », augmentant ainsi les chances de produire un contenu contraire à l'éthique.

Les chercheurs ont pu déduire le fonctionnement interne et les défenses des LLM en saisissant manuellement ces invites et en observant le temps nécessaire à chaque invite pour réussir ou échouer. Ils ont ensuite pu procéder à l'ingénierie inverse des mécanismes de défense cachés des LLM, identifier davantage leur inefficacité et créer un ensemble de données d'invites qui ont réussi à jailbreaker le chatbot.

Intensification de la course aux armements entre les hackers et les développeurs LLM

Lorsque des vulnérabilités sont découvertes et révélées par des pirates, les développeurs de chatbots IA réagissent en « corrigeant » le problème, dans un cycle de chat et de souris sans fin entre le pirate et le développeur.

Avec Masterkey, les informaticiens de NTU ont augmenté la mise dans cette course aux armements, car un chatbot jailbreakant l'IA peut produire un grand volume d'invites et apprendre en permanence ce qui fonctionne et ce qui ne fonctionne pas, permettant aux pirates de battre les développeurs LLM à leur propre jeu avec leurs propres outils. .

Les chercheurs ont d’abord créé un ensemble de données de formation comprenant des invites qu’ils ont trouvées efficaces lors de la phase précédente de rétro-ingénierie du jailbreak, ainsi que des invites infructueuses, afin que Masterkey sache quoi ne pas faire. Les chercheurs ont introduit cet ensemble de données dans un LLM comme point de départ, puis ont effectué une pré-formation continue et un réglage des tâches.

Cela expose le modèle à un large éventail d'informations et affine ses capacités en le formant à des tâches directement liées au jailbreak. Le résultat est un LLM capable de mieux prédire comment manipuler le texte pour le jailbreak, conduisant à des invites plus efficaces et universelles.

Les chercheurs ont découvert que les invites générées par Masterkey étaient trois fois plus efficaces que celles générées par les LLM dans les LLM de jailbreak. Masterkey a également pu tirer des leçons des invites précédentes qui ont échoué et peut être automatisé pour produire constamment de nouvelles invites plus efficaces.

Les chercheurs affirment que leur LLM peut être utilisé par les développeurs eux-mêmes pour renforcer leur sécurité.

Ph.D. NTU. L'étudiant M. Deng Gelei, co-auteur de l'article, a déclaré : « Alors que les LLM continuent d'évoluer et d'étendre leurs capacités, les tests manuels deviennent à la fois laborieux et potentiellement inadéquats pour couvrir toutes les vulnérabilités possibles. Une approche automatisée pour générer des invites de jailbreak peut garantir une couverture complète, en évaluant un large éventail de scénarios d'utilisation abusive possibles.

Plus d'information:
Gelei Deng et al, MasterKey : Jailbreak automatisé sur plusieurs chatbots à grand modèle de langage, arXiv (2023). DOI : 10.48550/arxiv.2307.08715

Informations sur la revue :
arXiv

Fourni par l'Université technologique de Nanyang

Citation: Les chercheurs utilisent des chatbots IA contre eux-mêmes pour se « jailbreaker » (28 décembre 2023) récupéré le 28 décembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique