Osez purger le trop-plein de données de votre entreprise !

La nécessité pour l’entreprise de récolter le plus de données possible, à dessein de les analyser et d’en tirer une valeur pour ses activités, repose sur une réalité incontestable. Mais cette ruée vers l’or informationnel se transforme bien souvent en syllogomanie, ce syndrome qui pousse à accumuler de manière excessive des objets, indépendamment de leur utilité. Cela a été largement démontré : plus on conserve de données, moins on les contrôle et moins on est efficace. Chacun en conviendra donc, que l’on parle de son intérieur ou de tout autre type d’espace, il est sain de procéder régulièrement à un nettoyage. Sans même évoquer les coûts de stockage des données, il en va de la bonne santé et de la vélocité du système d’information, mais aussi de sa sécurité, les données dormantes étant clairement considérées comme les plus à risque.

Comment déterminer qu’une donnée est devenue inutile ou inutilisable ?

Il n’est pourtant pas si facile pour un service informatique ou une DSI d’appuyer sur le gros bouton rouge de la purge, synonyme de destruction irréversible, tant il subsiste des pressions naturelles sur la conservation des données de l’entreprise. Un véritable cauchemar pour certains, qui devront se résoudre tôt ou tard à procéder à ces purges de manière décomplexée.

Car au fond, ce n’est pas grave de détruire des données devenues inutiles, et c’est même obligatoire dans le cas des données à caractère personnel ayant dépassé leur date limite de conservation, nous dit le RGPD. Il s’agit donc de ne pas percevoir ce règlement comme une contrainte mais plutôt comme un allié qui réunit tout le monde autour de la table et montre les bienfaits du tri sélectif.

De façon pragmatique, une donnée devient inutile à partir du moment où elle n’est plus nécessaire à qui que ce soit, dans l’entreprise comme à l’extérieur. Pour la catégorie spécifique des données personnelles, l’article 5 du RGPD va dans le même sens : la durée de conservation de ces données ne doit pas excéder la durée nécessaire au service des finalités. Autrement dit, c’est aux métiers opérationnels de l’entreprise (production, ventes, finance, marketing, RH…) de déterminer le moment où une donnée devient inutile, et dans le cas d’une donnée personnelle, inutilisable.

Ces données personnelles, par leur côté périssable, juridiquement parlant, obligent l’entreprise à une méthodologie organisationnelle. On ne peut pas les supprimer trop tôt car il faut pouvoir les fournir aux ayants droit qui demandent à les consulter et on ne peut pas s’y prendre trop tard, au risque de se faire taper sur les doigts par la CNIL. Savoir quoi détruire à quel moment est donc primordial.

Prenons l’exemple du processus de recrutement qui amène à accumuler des CV et autres données personnelles sur les candidats. Celles-ci vont connaître une première vie dans une base active pendant la phase de recrutement, puis une seconde vie, soit dans une base d’archivage intermédiaire en attente de destruction pour les candidats non retenus ou bien dans le SIRH de l’entreprise pour les nouvelles recrues. La durée de conservation des données va alors varier avec pour le premier cas 2 années dans une CVthèque et pour le second cas au moins 5 ans après le départ du salarié de l’entreprise, le temps que ces données ne soient plus utiles au service RH.

En prenant en compte que ces données de salariés vont parfois circuler dans d’autres services que les RH, on mesure la complexité que représente la gestion d’une multitude de données avec des contraintes distinctes. Il est dès lors nécessaire d’appliquer un principe de « privacy by design », où chaque donnée introduite dans le système d’information doit être étiquetée de son chapelet de durées de conservation et de droits d’utilisation.

Un référentiel et une vision à 360° indispensables

Chacun l’aura ainsi constaté : les données vivent, s’échangent, se dupliquent, et parfois se perdent ou se cachent au sein des différents services de l’entreprise. Il s’agit donc d’analyser les flux de circulation de l’ensemble des données à partir de leur point d’entrée, tout en ayant connaissance de toutes les contraintes à appliquer à chaque typologie de données pour parvenir à une harmonisation.

Toutes ces informations doivent être regroupées dans des cartographies métier par métier et dans un référentiel général qui doit aller plus loin que le registre de traitement imposé par le RGPD. Ce référentiel ne sera géré ni par la DSI, ni les métiers, ni le prestataire spécialiste, mais par tous à la fois. Un exercice de balayage totalement transverse qui s’applique à toutes les tailles d’entreprise.

La bonne démarche de cette vision à 360°, dans un cadre de « privacy by design », est une approche descendante dans l’urbanisme du SI, en partant de la strate des métiers, car ce sont eux qui décident de la finalité de la donnée. On poursuit ensuite dans les strates des applications métiers, puis des applications transverses et des applicatifs, pour enfin arriver à la strate technique. Le travail de purge des données pourra ainsi se faire de façon locale et manuelle au niveau des métiers ou tendra vers une automatisation dans les applications ou un serveur de purge géré par la DSI.

Cette tâche n’est pas simple et l’on constate que beaucoup d’entreprises se contentent trop souvent de créer un référentiel dans un fichier Excel et de l’envoyer aux métiers. Le processus reste ensuite suspendu en plein vol ou avance en silo et sans conviction, chacun pensant que les autres vont s’en occuper et que tout ira bien. Cela est bien sûr insuffisant car un métier seul ne peut disposer d’une vision transverse et cette purge en silo ne prendra pas en compte l’exhaustivité des flux de données répliquées.

L’autre écueil fréquent est la tendance des entreprises à suivre de bout en bout un programme de conformité sans l’anticiper dans sa globalité. L’étape de la purge arrive ainsi en dernier, lorsque les équipes sont épuisées par ce parcours du combattant et que les budgets initiaux sont dépensés, alors qu’il y a un coût conséquent à considérer.

Une donnée supprimée n’est pas une donnée purgée

Une fois le processus mis en place, la purge peut s’opérer régulièrement, voire en temps réel, mais il est important de rappeler qu’appuyer sur le bouton « Suppr » ou glisser une icône dans la corbeille ne veut pas dire qu’un fichier est totalement effacé, même si l’on a vidé la corbeille ! Les systèmes de sauvegarde tels que les disques durs sont ainsi faits que les données qui y sont inscrites ne disparaissent réellement que lorsque de nombreuses réécritures ont été effectuées sur l’espace qu’elles occupent.

Cette rémanence des données peut effectivement permettre à des tiers de les restaurer alors qu’on les pensait évanouies à tout jamais. Or, sur ce point, le RGPD est clair : une donnée personnelle doit être détruite définitivement et donc rendue inaccessible quand son heure est arrivée.

Malgré les risques de conformité et de sécurité, certaines DSI sous-estiment ce danger, en jugeant que l’on peut laisser faire le temps qui réécrira sur les données supprimées, tout en augmentant les espaces de stockage au lieu de les nettoyer. On ne pourra que leur conseiller de suivre les recommandations de la CNIL sur la suppression sécurisée des données, y compris pour les matériels que l’on met au rebut, que l’on envoie en réparation ou lors d’une fin de contrat de location.

Bien connaître ses applications métiers et identifier les bons outils de purge

La plupart des applications métiers semblent en apparence respecter la conformité au RGPD et on aurait donc tendance à leur faire confiance. Elles sont en pratique très hétérogènes dans leurs fonctionnalités de purge, souvent insuffisantes pour répondre au devoir de suppression des données, qui s’accumulent alors.

Il s’agit donc de rester vigilant en opérant un inventaire et une qualification des applications et des applicatifs, afin de vérifier qu’ils possèdent le même niveau d’exigence de sécurité que ce que l’on s’est fixé. On pourra également avoir recours à un outil spécialisé d’identification des données dans le système, afin de ne rien oublier.

Finalement, quand on en vient à la destruction concrète des données, on se rend compte que les systèmes d’information n’ont pas été conçus pour cela et que côté technique, l’étendue des possibles est très vaste. Il existe ainsi une multitude de logiciels Open Source permettant cette purge, mais tous ne se valent pas. On privilégiera ceux basés sur la méthode Gutmann, agressive et irréversible, tels que Eraser ou DBAN. Certains proposent jusqu’à 70 réécritures, capacité non négligeable en cas de données sensibles et d'autres fournissent un certificat de destruction. C’est avec ce sésame final que l’on pourra considérer le processus de purge comme réellement abouti.

A propos de l'auteur : Patricia Chemali-Noël est DPO et experte en protection des données chez Umanis.