Peut-on anonymiser des séries temporelles ?

Le logiciel d'anonymisation avatar d’Octopize va au-delà de l'anonymisation des données tabulaires classiques en s'attaquant aux séries temporelles. Ces dernières, représentent l'évolution d'une variable dans le temps et peuvent aussi révéler des données personnelles sensibles. Conscient des défis spécifiques qu'elles présentent, Octopize a adapté son logiciel pour pouvoir les traiter. Ainsi, Octopize permet l'anonymisation de données temporelles tout en préservant leur logique de séquence. Un exemple concret illustre l'efficacité du logiciel avatar, montrant des données avant et après anonymisation. Pour plus d'informations, découvrez cet article ou consultez notre documentation technique.

Peut-on anonymiser des séries temporelles ?

Il est désormais clair que les données tabulaires classiques où une ligne représente un individu peuvent être anonymisées de manière aisée avec le logiciel avatar. Aujourd’hui, nous nous penchons sur une question qui revient souvent : qu’en est-il des séries temporelles ?

Qu’est-ce qu’une série temporelle ?

Lorsque la valeur d’une variable est collectée à différents instants, la donnée obtenue est une série temporelle. Autrement dit, une série temporelle représente l’évolution d’une variable dans le temps

Beaucoup de données personnelles sont en réalité des séries temporelles. Citons, par exemple, un rythme cardiaque, la température corporelle d’un individu ou alors la vitesse d’une voiture lors d’un trajet. Tout comme les données non temporelles, ces données peuvent avoir un caractère ré-identifiant. La ré-identification peut par ailleurs être rendue plus facile par le fait qu’une succession de valeurs dans le temps pour une variable a plus de chance d’être unique qu’une valeur simple. Par exemple, la liste des vitesses instantanées collectées toutes les secondes pour un individu lors d’un trajet en voiture sera très certainement unique, tandis que sa vitesse moyenne lors du trajet le sera probablement moins.

Il est donc important que ces données temporelles soient protégées lorsqu’elles sont liées à des personnes. 

Peut-on anonymiser des séries temporelles ? 

Compte tenu de leurs caractéristiques bien spécifiques, les traitements définis pour des données tabulaires classiques ne peuvent pas être directement appliqués aux séries temporelles. Les méthodes d’anonymisation pour données classiques ne préservent pas la logique qui existe entre les points d’une série temporelle et le résultat sera donc incohérent d’un point de vue métier.

Chez Octopize, nous avons travaillé à l’adaptation de notre logiciel avatar pour pouvoir anonymiser des données temporelles tout en conservant leur logique de séquence. 

Dans le processus d’anonymisation, les données tabulaires sont modélisées avec des méthodes d’analyse factorielle (l’analyse factorielle de données mixtes (AFDM) par exemple), permettant de représenter la donnée dans un espace numérique prenant en compte les relations entre variables.

Afin de pouvoir appliquer les mécanismes d’anonymisation sur des séries temporelles, une modélisation spécifique aux données fonctionnelles a été choisie puisqu’une série temporelle peut être considérée comme l’évolution d’une variable en fonction du temps. Nous nous appuyons donc sur l’analyse en composantes principales fonctionnelle (ACPF), une extension dans le domaine fonctionnel de l’analyse en composantes principales (ACP). Cette transformation des données temporelles permet de représenter chaque série en un vecteur numérique qui peut être anonymisé de la même manière qu’un vecteur de coefficients ACP. Bien entendu, une opération de transformation inverse est appliquée en toute fin de processus pour revenir à des données sous leur forme originale.

Besoin d’un exemple ?

Parce que rien ne vaut un exemple concret pour comprendre ce à quoi ressemblent des données avatars de séries temporelles, voici un cas d’usage sur des données personnelles issues de deux capteurs. L’illustration montre les données originales à gauche pour chacun de ces capteurs. Chaque courbe représente les données d’un individu. Il apparaît clairement que certaines courbes sont particulièrement singulières et pourraient ré-identifier aisément un individu. 

L’application de la méthode avatar sur ces signaux résulte dans des données anonymisées (à droite dans l’illustration). On observe que l’ensemble des données ont été modifiées et qu’il n’y a plus de courbes très ré-identifiantes.
On peut également voir que les tendances et l’aspect général des courbes est conservé lors de la création des données synthétiques et anonymes avatars.    

Pour aller plus loin 

Contrairement à l'exemple précédent, certaines données présentent des caractéristiques particulières nécessitant une étape de traitement préalable à l'anonymisation. C'est notamment le cas des données pseudo-périodiques telles que les électrocardiogrammes (ECG). Pour adapter notre logiciel avatar à ces cas spécifiques, un travail approfondi a été réalisé et présenté au colloque GRETSI. L’article détaillé est disponible ici. La nature périodique des signaux ECG a requis une approche particulière pour préserver la structure temporelle tout en garantissant l'anonymat. En particulier, nous avons décomposé le signal en cycles. Ces cycles sont normalisés puis anonymisés, avant d’être ré-assemblé en signaux complets en assurant l’harmonisation des méta-paramètres. La figure ci-dessous synthétise le processus d’anonymisation utilisé : 

Ainsi, l’anonymisation reste robuste en conservant les propriétés inhérentes à la spécificité des cycles ECG, tout en obtenant in fine des signaux ECG complets qui conservent l’information utile pour taches d’apprentissage ou de classification.

Pour plus d’informations sur cette approche ainsi que son périmètre d’application, nous vous invitons à parcourir notre documentation technique sur ce sujet.

Inscrivez-vous à notre newsletter tech !