A la recherche des données perdues

Normes et Réglementation
A la recherche des données perdues

Tout le monde a déjà entendu parler du GDPR ces derniers temps. Chez Advens nous y avons même consacré quelques articles de blog. Lorsque vous lisez ces 4 lettres vous pensez alors certainement à toutes ces données personnelles, plus précisément données à caractère personnel (« DCP »), stockées partout dans vos systèmes d’information. Il s’agit de « toute information relative à une personne physique identifiée ou qui peut être identifiée directement ou indirectement ». Mais ça vous le savez, vous êtes experts maintenant !

La plupart des logiciels métiers (applications de comptabilité, base de données, etc…) contiennent de nombreuses DCP et les stockent dans des endroits précis définis. Elles sont structurées. Mais qu’en est-il de toutes les données que nous créons chaque jour sur nos terminaux : documents Word, Excel, Power Point, PDF, jpg, … ? Toutes ces données constituent ce qu’on appelle des données non-structurées et celles-ci peuvent contenir beaucoup d’informations personnelles.

Statistiquement il faut savoir que plus de 58 % des entreprises laissent plus de 100 000 fichiers accessibles à tous et contenant alors potentiellement des DCP. Maitriser la localisation et les accès à ces données prend donc toute son importance !

Nous menons régulièrement de type de démarche. Grâce à une analyse de la localisation et des mécanismes d’accès à ces données, il est alors possible de répondre à ces épineuses questions :

  • Où sont situées ces données ?
  • Quelles sont les informations personnelles les plus exposées ?
  • Quels sont les droits d’accès à celles-ci (lecture seule, lecture et écriture..) ?

 

Voici les principales étapes d’une telle analyse.

Objectif de la recherche des données « non-structurées »

Il s’agit donc d’identifier les données à caractère personnel stockées sur un périmètre défini. Pour les données non-structurées, il est difficile voire titanesque de se passer d’un outil. Nous préconisons donc des solutions comme Varonis ou Netwrix. Dans le cas présent nous utilisons Varonis et son outil de recherche et de classification des données. Suite à cette analyse, il deviendra alors plus facile de gérer, sécuriser et tracer l’ensemble des accès à ces données.

 

Prérequis

Avant de débuter un tel contrôle, il est nécessaire de respecter quelques étapes préalables.

1) Définir son périmètre : Il est crucial de valider dès le départ le périmètre de l’étude. Oublier d’inclure un serveur de fichier vous fera passer à côté de nombreuses DCP potentielles….

2) Cadrer les familles de données à rechercher : L’outil intègre de nombreuses expressions définies mais ne couvre pas forcément tous les éléments de votre cœur de métier. Vous devez définir des règles qui rechercheront dans les fichiers des mots clés issus de dictionnaires qu’on aura définis (dictionnaires de prénoms, de termes médicaux ou de finances …) ou des expressions régulières (regex) définissant par exemple des numéros spécifiques comme le matricule d’un employé.

3) Préférer la qualité à la quantité : Attention à la surcharge de travail engendré par cette analyse. Nous conseillons d’activer seulement quelques règles principales pour commencer. Cependant il ne faut pas négliger les autres car une cartographie doit prendre en compte toutes les données. Une approche itérative pourra vous aider.

4) Valider : Dans un premier temps il est impératif de tester et valider le fonctionnement sur un périmètre pilote afin d’améliorer les règles définies grâce aux premiers résultats et aux faux positifs remontés. Suite à cela, le périmètre pourra être élargi.

 

Scan

Les prérequis de dimensionnement éditeurs sont respectés, les règles sont implémentées, le périmètre est défini, le scan peut être lancé !

L’outil de scan va alors parcourir l’ensemble des dossiers et des fichiers de vos serveurs à la recherche de correspondances avec les règles. Dès qu’une correspondance est détectée, le fichier est classifié comme contenant une DCP de tel ou tel type (CNI, CB, matricule…). Les caractéristiques et toutes permissions associées sont également remontées dans l’outil.

En fonction de la quantité de données dans les serveurs : UNIX, Windows, NetApp… et des performances attribuées à la plateforme, la durée d’un scan peut varier de quelques jours à plusieurs semaines. Un scan s’effectue de façon complète puis incrémentielle, cela signifie qu’à chaque modification ou création ou dépôt de nouveau fichier dans un répertoire le scan devra reparcourir le fichier à la recherche de correspondance avec les règles.

 

Analyse

Il est important de comprendre que le scan se poursuit en permanence du fait des modifications constantes apportées sur les serveurs. L’analyse n’est donc réalisée qu’à un instant « T ».

En priorité, nous analysons les éléments ci-dessous.

Analyse des répertoires ouverts contenant des DCP

Lorsqu’on écrit « ouverts », on sous-entend les répertoires ouverts à la plupart des gens (groupes « Domain Users » ou « Authenticated Users »). Si des fichiers se trouvent dans ces répertoires alors des données personnelles pourraient être consultées et modifiées par beaucoup d’utilisateurs - qu’ils soient internes ou externes à l’entreprise. Il se peut qu’ils soient également « ouverts à tous » c’est-à-dire ouverts à n’importe qui, même ceux ne possédant pas de compte dans l’annuaire de l’entreprise (groupe « Everyone »). Dans ce cas il y a encore plus de risque !

Analyse des fichiers contenant des DCP ouverts à tous en FMRWXLS par niveau décroissant de permission

Nous classons également les fichiers par niveau de criticité d’accès. Les permissions NTFS sont de type : FMRWXLS, ce qui signifie : Full, Modify, Read, Write, Execute, List, Special. Ainsi avec ces détails nous pouvons facilement comprendre le niveau d’exposition de ces données.

Analyse des répertoires/partages contenant le plus de DCP (répertoires d’archivage, sauvegarde, application...)

Avec cette analyse, il est aussi plus facile de repérer les répertoires contenant le plus de DCP. Ces répertoires peuvent par exemple être des archives mails, ou des répertoires d’applications.

 

Conclusion

La cartographie des données à caractère personnel est une étape à intégrer dans sa démarche de conformité GDPR. Elle ne doit pas être un point bloquant pour lancer d’autres chantiers (comme les PIA, la revue des contrats ou le déploiement de mesures de sécurité des données). Cependant elle est souvent considérée avec appréhension, compte-tenu de l’ampleur du périmètre.

Et pour cause, c’est un chantier important au cours duquel il faut identifier l’ensemble des traitements de données et associer ensuite les différentes solutions logicielles et techniques intervenant dans le traitement. Pouvoir facilement localiser les données personnelles peut faciliter une partie de la cartographie et peut par la suite représenter une bonne façon de contrôler que la cartographie est toujours à jour. Encore faut-il pouvoir les localiser facilement…

Avec un outil et une méthode adaptés, cette démarche peut être plus simple. On peut ainsi plus facilement traiter le périmètre des données non-structurées, volet trop souvent négligé dans ces démarches. Cependant, l’analyse n’étant réalisée qu’à un instant précis, il est nécessaire de contrôler régulièrement l’emplacement et les permissions d’accès à ses données en suivant le principe du moindre privilège.

A terme il faut envisager le sujet sous la forme d’un service de plus au catalogue de service Sécurité. Ce service doit être opéré de manière à réaliser une analyse régulière

  • reliant les fruits du contrôle à la cartographie des traitements,
  • couvrant les différents périmètres et leurs variations,
  • et proposant un résultat clair et exploitable par les propriétaires des données.

Une approche de type MSSP prend alors tout son sens.

Nicolas S, Consultant Sécurité , Advens