Une astuce incite ChatGPT à divulguer des données privées


Extraction des données de pré-formation de ChatGPT. Nous découvrons une stratégie d'incitation qui amène les LLM à diverger et à émettre des exemples textuels de pré-formation. Ci-dessus, nous montrons un exemple de ChatGPT révélant la signature électronique d'une personne qui comprend ses coordonnées personnelles. Crédit: arXiv (2023). DOI : 10.48550/arxiv.2311.17035

Bien que les premiers mots d'OpenAI sur le site Web de son entreprise fassent référence à une « IA sûre et bénéfique », il s'avère que vos données personnelles ne sont pas aussi sûres que vous le pensiez. Des chercheurs de Google ont annoncé cette semaine qu'ils pourraient tromper ChatGPT pour qu'il divulgue les données privées des utilisateurs avec quelques commandes simples.

L'adoption stupéfiante de ChatGPT au cours de l'année écoulée (plus de 100 millions d'utilisateurs se sont inscrits au programme dans les deux mois suivant sa sortie) repose sur sa collecte de plus de 300 milliards de données extraites de sources en ligne telles que des articles, des publications et des sites Web. , revues et livres.

Bien qu'OpenAI ait pris des mesures pour protéger la confidentialité, les discussions et publications quotidiennes laissent un énorme pool de données, pour la plupart personnelles, qui ne sont pas destinées à une diffusion généralisée.

Dans leur étude, les chercheurs de Google ont découvert qu'ils pouvaient utiliser des mots-clés pour inciter ChatGPT à exploiter et à publier des données de formation non destinées à être divulguées.

“En utilisant seulement 200 $ de requêtes sur ChatGPT (gpt-3.5-turbo), nous sommes en mesure d'extraire plus de 10 000 exemples de formation uniques mémorisés textuellement”, ont déclaré les chercheurs dans un article téléchargé sur le serveur de pré-impression. arXiv le 28 novembre.

“Notre extrapolation à des budgets plus importants suggère que des adversaires dédiés pourraient extraire beaucoup plus de données.”

Ils pourraient obtenir les noms, numéros de téléphone et adresses d’individus et d’entreprises en alimentant ChatGPT avec des commandes absurdes qui provoquent un dysfonctionnement.

Par exemple, les chercheurs demanderaient à ChatGPT de répéter le mot « poème » à l’infini. Cela a obligé le modèle à aller au-delà de ses procédures de formation et à « se replier sur son objectif initial de modélisation du langage » et à exploiter des détails restreints dans ses données de formation, ont indiqué les chercheurs.

De même, en demandant la répétition infinie du mot « société », ils ont récupéré l’adresse email et le numéro de téléphone d’un cabinet d’avocats américain.

Craignant la divulgation non autorisée de données, certaines entreprises ont imposé plus tôt cette année des restrictions sur l'utilisation par les employés de grands modèles linguistiques.

Apple a empêché ses employés d'utiliser des outils d'IA, notamment ChatGPT et l'assistant d'IA de GitHub, Copilot.

Des données confidentielles sur les serveurs Samsung ont été révélées plus tôt cette année. Dans ce cas-ci, il ne s'agissait pas d'une fuite, mais plutôt de faux pas de la part d'employés qui ont saisi des informations telles que le code source des opérations internes et la transcription d'une réunion privée de l'entreprise. Ironiquement, la fuite s'est produite quelques jours seulement après que Samsung a levé une interdiction initiale sur ChatGPT par crainte d'une telle exposition.

En réponse aux inquiétudes croissantes concernant les violations de données, OpenAI a ajouté une fonctionnalité qui désactive l'historique des discussions, ajoutant ainsi une couche de protection aux données sensibles. Mais ces données sont conservées pendant 30 jours avant d’être définitivement supprimées.

Dans un article de blog sur leurs découvertes, les chercheurs de Google ont déclaré : « OpenAI a déclaré qu'une centaine de millions de personnes utilisent ChatGPT chaque semaine. Et donc, probablement plus d'un milliard d'heures-personnes ont interagi avec le modèle. Et, pour autant que nous puissions en juger, personne n'avait jamais remarqué que ChatGPT émettait des données d'entraînement à une fréquence aussi élevée jusqu'à cet article.”

Ils ont qualifié leurs conclusions d'« inquiétantes » et ont déclaré que leur rapport devrait servir de « mise en garde pour ceux qui forment les futurs modèles ».

Les utilisateurs « ne devraient pas former et déployer des LLM pour des applications sensibles à la vie privée sans des garanties extrêmes », ont-ils prévenu.

Plus d'information:
Milad Nasr et al, Extraction évolutive de données de formation à partir de modèles linguistiques (de production), arXiv (2023). DOI : 10.48550/arxiv.2311.17035

Informations sur la revue :
arXiv

© 2023 Réseau Science X

Citation: Une astuce incite ChatGPT à divulguer des données privées (1er décembre 2023) récupérées le 1er décembre 2023 sur

Ce document est soumis au droit d'auteur. En dehors de toute utilisation équitable à des fins d'étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.



Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique