L’essentiel à savoir sur la confidentialité différentielle
Motivation
Nous assistons actuellement au développement des technologies du numérique et des objets connectés. Ces changements engendrent la production des quantités de données. Les données personnelles et les informations sur les transactions financières sont considérées comme sensibles.
L’exploitation de ces données reposant principalement sur des technologies comme le big data et le machine learning suscitent un intérêt et une demande qui ne cessent de croître.
Bien que, l’utilisation des données apporte des avantages à notre société, il faut respecter l’anonymat, qui est un droit personnel à chaque individu. Il en résulte un besoin important de préserver la confidentialité de ces données.
En effet, les solutions d’anonymisation comme K-Anonymisation, l-diversité et t-proximité ont été jugées inefficaces. La confidentialité différentielle, basée sur des fondements mathématiques est la dernière innovation efficace pour la préservation de la vie privé des utilisateurs. Elle permet aux entreprises du secteur de la technologie de collecter et de traiter les informations personnelles des utilisateurs, tout en préservant la confidentialité des utilisateurs individuels. Cette technologie a été déjà utilisé et certifié par des géants de l’Internet comme Google, Facebook et Microsoft. De plus, le 5 septembre 2019, Google a publié en Open Source la librairie Tensorflow Privacy pour faciliter l’intégration de la confidentialité différentielle dans les solutions informatiques qui nécessitent une préservation de la vie privée.
Enigme
De 2006 à 2009, Netflix organisa une compétition offrant 1 000 000 $US à quiconque pourrait améliorer de 10% son système de recommandation. La société fournissait un jeu de données permettant aux candidats d’entraîner leurs modèles. Bien que l’entreprise ait au préalable pris soin de remplacer les identifiants clients par des identifiants aléatoires, les chercheurs Arvind Narayanan et Vitaly Shmatikov ont réussi à deviner non seulement le nom de certains utilisateurs, mais aussi parfois leur affiliation politique [Wikipedia]. Il faut noter que Netflix n’avait pas utilisé la confidentialité différentielle.
C’est quoi la confidentialité différentielle
La confidentialité différentielle est une invention de la chercheuse Cynthia Dwork Professeure à l’Université à Harvard. L’objectif est de faire en sorte que peu importe que vos informations personnelles soient récoltées ou non, cela n’aura pas d’incidence sur ce qu’on pourra apprendre sur vous. Pour faire simple, il s’agit de promettre à un individu qu’une tierce partie ne pourra rien apprendre de particulier s’il accepte de participer.
En effet, cette technique consiste à ajouter du bruit aléatoire aux données pour maintenir la confidentialité de ces données en minimisant les risques d’identification des entités qu’elle contient, si possible en maximisant la pertinence ou la précision des résultats de la requête. Il faut donc trouver une équation efficace entre la quantité du bruit à ajouter (le niveau de confidentialité) et la précision des résultats de la requête. Une quantité élevée du bruit conduit naturellement à une perte de la qualité des données, et donc à une faible précision des résultats de la requête. En résumé, la confidentialité différentielle se repose essentiellement sur l’exploitation statistique de données individuelles agrégées, sans compromettre la vie privée des personnes concernées.
Pour determiner la quantité de bruits à ajouter aux données afin d’assurer la confidentialité, la formule mathématique ci-dessous est utilisée.
Dans cette formule, A désigne un algorithme aléatoire qui prend en entrée un ensemble de données. Les ensembles de données D1 et D2 sont voisins c’est à dire qu’ils diffèrent que par un seul élément. Epsilon (ɛ) est un nombre réel positif. Epsilon est utilisé comme paramètre pour déterminer la quantité de bruit nécessaire pour assurer la confidentialité des données.
Les méthodes de la confidentialité différentielle
Les deux principales méthodes de confidentialité différentielle sont la confidentialité différentielle locale et la confidentialité différentielle globale.
La confidentialité différentielle locale
Dans ce cas, chaque utilisateur applique un algorithme différentiellement privé à ses propres données. Ensuite, ils n’envoient leurs données à l’agrégateur qu’une fois qu’elles sont déjà anonymisées. L’agrégateur n’a pas accès aux données réelles. Un agrégateur est un organisme ou un centre de recherche qui collecte et traite les données.
La confidentialité différentielle globale
Dans ce modèle, il existe un agrégateur centrale. Chaque utilisateur envoie ses données sans bruit à cet agrégateur. L’agrégateur prend ces données et les transforme avec un algorithme différentiellement privé.
Ce que tu penses tu le deviens, ce que tu ressens tu l’attires, ce que tu imagines tu le crées
2 Comments
Hmm it looks like your site ate my first comment (it was extremely long) so I guess
I’ll just sum it up what I submitted and say, I’m thoroughly enjoying your blog.
I too am an aspiring blog blogger but I’m still new to the whole thing.
Do you have any helpful hints for rookie blog writers? I’d certainly appreciate it.
It’s awesome in favor of me to have a website,
which is beneficial in favor of my know-how.
thanks admin