Serveur d'impression

Une énigme d'intimité d'IA? Le réseau neuronal en sait plus qu'il ne dit – Bien choisir son serveur d impression

Par Titanfall , le 20 août 2019 - 12 minutes de lecture

La 5G, l'IA et la vie privée dans l'Internet Global Internet Report
Greg Ferro, du podcast PacketPushers, passe en revue certaines des conclusions relatives aux normes d'interopérabilité, à la réglementation gouvernementale, à la 5G, à l'IA et à la confidentialité figurant dans le rapport Internet mondial de la Internet Society. En savoir plus: https://zd.net/2IGdKKY
http://www.zdnet.com/

L'intelligence artificielle consiste à utiliser une machine, telle qu'un réseau de neurones, pour parler de données. La plupart du temps, ce qui est dit est une affaire simple, comme classer des images dans des chats et des chiens.

De plus en plus, cependant, les scientifiques de l'IA posent des questions sur ce que le réseau de neurones "sait", si vous voulez, qui n'est pas capturé dans des objectifs simples tels que la classification d'images ou la génération de faux textes et d'images.

Il se trouve qu'il reste beaucoup de choses non dites, même si les ordinateurs ne savent pas vraiment quoi que ce soit au sens d'une personne. Les réseaux de neurones, semble-t-il, peuvent conserver en mémoire des données de formation spécifiques, ce qui pourrait ouvrir la porte aux personnes dont les données sont capturées dans l'activité de formation aux violations de la vie privée.

Par exemple, Nicholas Carlini, ancien étudiant du laboratoire d'intelligence artificielle de l'UC Berkeley, a abordé le problème de ce que les ordinateurs "mémorisent" au sujet des données de formation, dans le cadre d'un travail effectué avec des collègues de Berkeley. (En juillet, dans un article provocant intitulé "The Secret Sharer", publié sur le serveur de pré-impression d’arXiv, Carlini et ses collègues ont expliqué comment un réseau de neurones pouvait conserver des données collection de données utilisées pour former le réseau à la génération de texte. Cela pourrait permettre aux agents malveillants d'exploiter un réseau neuronal de données sensibles telles que les numéros de cartes de crédit et de sécurité sociale.

Également: Les données qui forment l'IA remettent de plus en plus en question l'IA

Ce sont exactement les données que les chercheurs ont découvertes lors de la formation d'un modèle de langage utilisant des réseaux de neurones de mémoire à long terme, ou "LSTM".

Le réseau LSTM est ce que l'on appelle un réseau neuronal "génératif", ce qui signifie qu'il est conçu pour produire un texte original qui ressemble à de l'écriture humaine une fois qu'il a été saisi avec des millions d'exemples d'écriture humaine. C'est un générateur de faux texte, en d'autres termes. À partir d'une phrase d'entrée d'une personne, le réseau formé produit une écriture originale en réponse à l'invite.

Le réseau est censé le faire en formant des phrases originales basées sur un modèle de langage qu’il a compilé, plutôt que de simplement répéter des chaînes de texte auxquelles il a été exposé.

"Idéalement, même si les données de formation contenaient des informations rares mais sensibles sur certains utilisateurs, le réseau de neurones ne mémoriserait pas ces informations et ne les émettrait jamais en tant que phrases terminées", écrivent Carlini et ses collègues.

Mais, il s'avère que ces chaînes de texte aléatoires et inhabituelles sont toujours présentes quelque part dans le réseau.

"Malheureusement, nous montrons que la formation des réseaux de neurones peut provoquer exactement cela si on ne fait pas très attention."

En plus du document officiel, Carlini a publié un blog sur le travail le 13 août sur la page Web de Berkeley AI.

Pour tester leur hypothèse, ils ont enrichi les données d'entraînement avec une seule chaîne: "Mon numéro de sécurité sociale est le 078-05-1120." Lorsqu'ils ont ensuite saisi une invite dans le modèle formé, "Mon numéro de sécurité sociale est 078-", ils ont constaté que le réseau "restitue le reste des chiffres insérés" -05-1120 "."

Aussi: Pour attraper un faux: L'apprentissage automatique renifle sa propre propagande écrite

google-feldman-long-tail-of-data-2019.png

Vitaly Feldman, de Google, au sein du groupe Google Brain, se demande comment la "longue traîne" de données oblige les modèles statistiques à mémoriser des exemples de formation individuels, même si cela ne devrait pas être ainsi.

Google Brain.

Ils ont ensuite validé leurs conclusions en utilisant un ensemble de données existantes contenant de véritables secrets, à savoir la collecte de courriers électroniques recueillis au cours de l'enquête sur la tristement célèbre entreprise énergétique Enron. Une fois que le réseau LSTM a été formé aux données de courrier électronique, ils ont utilisé un algorithme appelé recherche arborescente pour examiner des parties du graphique de réseau du LSTM. Ils ont pu extraire de vrais numéros de carte de crédit et de sécurité sociale.

une fonction spéciale

Gestion de l'IA et du ML dans l'entreprise

Les déploiements d’IA et de ML vont bon train, mais pour les CXO, le plus gros problème sera de gérer ces initiatives et de savoir où se situe l’équipe de science des données et quels algorithmes acheter ou construire.

Lire la suite

Les auteurs s'empressent de souligner qu'il est difficile de déterminer l'efficacité potentielle d'une utilisation abusive de ce phénomène, car cela suppose une certaine connaissance de l'ensemble de données. Mais la notion troublante selon laquelle les réseaux de neurones peuvent mémoriser les points de données impairs gagne un traitement plus large dans un autre article cette année qui fait référence aux travaux de Carlini & Co.

Vitaly Feldman, un collègue de Carlini chez Google Brain, a écrit en juin que la mémorisation de points de données individuels est un élément essentiel de nombreuses approches statistiques, y compris les réseaux neuronaux, pour leur capacité à généraliser des données de formation à des données invisibles ou testées.

Dans "Est-ce que l'apprentissage nécessite la mémorisation? Un bref récit sur une longue queue", écrit Carlini, qui rappelle que la mémorisation est une propriété inhérente à toute une série d'approches statistiques, y compris de simples piliers statistiques tels que "k voisins les plus proches" et "machines à vecteurs de support". Selon Feldman, la raison en est qu’il existe de nombreux points de données dans une distribution de données qui sont des "valeurs aberrantes" dans une "longue traîne" de données. On pourrait penser que ces valeurs aberrantes pourraient être ignorées en toute sécurité. Cependant, le réseau neuronal doit conserver ces rares occurrences de points de données pour fonctionner correctement.

carlini-exposure-metrics-2019.png "data-original =" https://zdnet1.cbsistatic.com/hub/i/2019/08/19/b880abc9-83a9-4d88-8487-d12756311d97/d8c0e568aba20165517db500d940eb0f/ -metrics-2019.png

Nicholas Carlini et ses collègues de Google Brain et de U.C. Le laboratoire d'intelligence artificielle de Berkeley a mis au point des mesures permettant de déterminer la mesure dans laquelle des points de données individuels "exposés" peuvent résulter de la mémorisation par des réseaux neuronaux d'instances spécifiques à partir de jeux de données d'apprentissage.

Carlini et. Al.

Selon lui, "l'observation d'un seul point échantillonné dans une sous-population augmente l'attente de la fréquence de la sous-population dans la distribution a posteriori" et, par conséquent, "cette augmentation peut rendre cette attente significative, rendant nécessaire la mémorisation de l'étiquette. le point."

Feldman, citant les travaux de Carlini & Co., aborde de front la question de la vie privée. Il note que les seuls systèmes qui peuvent être assurés pour ne pas mémoriser des points de données individuels sont ceux conçus pour ce qu'on appelle "la confidentialité différentielle". Mais de tels modèles statistiques n'atteignent jamais un taux de précision aussi élevé que ceux qui ne garantissent pas explicitement la confidentialité.

"En dépit des progrès importants réalisés récemment dans la formation de réseaux d'apprentissage en profondeur avec protection de la vie privée, ils sont toujours en retard par rapport aux résultats de pointe obtenus sans protection de la protection de la vie privée", écrit Feldman.

Feldman prévient que beaucoup de travail empirique doit être fait pour valider ses résultats théoriques. Et la présence de la mémorisation dans l'apprentissage en profondeur doit être explorée davantage. "La compréhension de ces mécanismes dans le contexte des DNN reste un problème important et stimulant", écrit-il.

Les travaux de Carlini et de Feldman font écho à d'autres rapports de cette année sur ce que le réseau de neurones sait qui ne figure pas dans la sortie du réseau. Par exemple, Rowen Zellers et ses collègues de l’Allen Institute for AI et de la Paul Allen School of Computer Science ont montré que des modèles de texte génératifs, tels que GPT2 d’OpenAI, sélectionnent des mots basés sur un «point idéal» situé dans la longue traîne. de la fréquence des mots de toute langue naturelle. Le modèle "connaît", dans un sens, beaucoup d'autres combinaisons de mots, mais ne les utilise généralement pas pour produire du texte.

Et les travaux de cette année sur la reconnaissance des images réalisés par Benjamin Recht et ses collègues de l’UC Berkeley ont montré que les systèmes d’apprentissage en profondeur les plus modernes pour la reconnaissance des images rencontraient des difficultés lorsqu’ils étaient testés sur des versions légèrement différentes des données de test. Leur hypothèse dans cet article est que les réseaux de neurones "ont du mal à généraliser des images" faciles "aux images" dures "". Cela semble être en accord avec l'argument de Feldman concernant la confidentialité différentielle, à savoir que, sans mémorisation, la confidentialité différentielle bute contre des exemples "concrets" de données, tels que des "valeurs aberrantes ou atypiques".

Ces études vont compliquer davantage le débat sur ce qui se passe dans la "boîte noire" d'un réseau de neurones.

une fonction spéciale

L'intelligence artificielle et l'avenir des entreprises

L'apprentissage automatique, l'automatisation des tâches et la robotique sont déjà largement utilisés dans les entreprises. Ces technologies et d’autres technologies d’intelligence artificielle sont sur le point de se multiplier, et nous examinons comment les organisations peuvent en tirer le meilleur parti.

Lire la suite

Les chercheurs du MIT, Logan Engstrom et leurs collègues, ont exploré plus tôt cette année le phénomène des "exemples contradictoires" de données dans un document provocateur intitulé "Les exemples contradictoires ne sont pas des bogues, mais des caractéristiques". Les exemples contradictoires sont des modifications de données d'apprentissage qui peuvent amener un modèle d'apprentissage automatique à classer des données de manière incorrecte. Ils ont découvert qu'ils peuvent manipuler des petits détails dans les données qui semblent ne pas être pertinents et tromper l'ordinateur. C'est parce que ces petits détails ne sont pas sans importance; ils contribuent au fonctionnement du réseau de neurones.

"Une autre implication de nos expériences est que les modèles peuvent même ne pas avoir besoin Toute information que nous, humains, considérons comme «utile» pour bien faire (au sens de la généralisation) des jeux de données d'image standard », écrivent Engstrom et ses collègues dans une discussion de suivi récente de ce document.

Tout semble revenir à ce qui est retenu par le réseau de neurones par rapport à ce qu'il est autorisé à exprimer. Les chercheurs Zhenglong Zhou et Chaz Firestone du département des sciences psychologiques et du cerveau de l'Université Johns Hopkins l'ont bien exprimé dans un article publié en mars dans Nature Communications. Ils ont constaté que lorsqu'un classifieur de réseau neuronal manque la marque et identifie l’objet dans une image, cela résulte en quelque sorte du fait que l’ordinateur n’est pas autorisé à exprimer pleinement tout ce qui est observé dans une image lorsque cette image est perturbé par des changements contradictoires.

Comme les auteurs écrivent dans leur conclusion, "Alors que les humains ont des concepts distincts pour apparaître comme quelque chose, c’est comme si un nuage ressemblait à un chien sans ressembler à un chien ou une chaussure en peau de serpent ressemblait à celle d’un serpent sans paraître être un serpent, ni même un canard en caoutchouc partage des apparences avec la vraie chose sans être déroutant pour un canard – CNNs [convolutional neural networks, the main form of image recognition program] ne sont pas autorisés à faire cette distinction, mais sont obligés de jouer au jeu qui consiste à choisir la meilleure étiquette de leur répertoire qui correspond le mieux à une image (comme l'étaient les humains dans nos expériences). "

Cela suggère un champ riche et en expansion pour les chercheurs dans la matière sombre apparente de la boîte noire de l'apprentissage en profondeur.

Click to rate this post!
[Total: 0 Average: 0]

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.