Affaire DisinfoLab : quelles retombées potentielles sur la recherche publique et la science ouverte ?
– S.I.Lex – - calimaq, 21/08/2018
Le début du mois d’août a été marqué par l’affaire Disinfolab qui a mis un violent coup de projecteur sur la question de la réutilisation des données issues des réseaux sociaux à des fins de recherche. S’inscrivant dans le contexte explosif de l’affaire Benalla, elle a fait naître une bruyante polémique, pas forcément propice au développement d’une analyse juridique rigoureuse des différentes questions qu’elles soulèvent. Maintenant qu’un peu de temps est passé, il paraît intéressant de se replonger dans cette affaire qui constitue un véritable cas d’école pour l’application du nouveau cadre de la protection des données personnelles issu du RGPD. La CNIL ayant été saisie suite au dépôt de nombreuses plaintes, il sera extrêmement intéressant d’observer sa décision, qui va devoir trancher beaucoup de points épineux.
Pour mémoire, l’affaire éclate le 8 août dernier lorsque l’ONG belge EU Disinfolab publie les résultats d’une étude des tweets émis à propos de l’affaire Benalla. Elle entend démontrer qu’une forte proportion des messages (44%) a été publiée par une petite minorité hyperactive (1% des utilisateurs) dont 27% seraient liés à un « écosystème russophile ». Face aux protestations et à la remise en cause de ces résultats, l’ONG diffuse en ligne plusieurs fichiers dans un souci de transparence et à des fins de « vérification méthodologique » : un listant 55 000 comptes ayant tweeté sur l’affaire, un pointant 3890 utilisateurs jugés « hyperactifs » et un dernier – celui qui a fait le plus réagir – classant ces comptes par affiliation politique : LR/souverainistes, Rassemblement national, France insoumise, médias/LREM.
C’est à partir de là que les accusations de « fichage politique » et d’attribution de « matricules » ont commencé à fuser, ainsi que les soupçons de violation de la réglementation sur la protection des données personnelles, du fait notamment de l’absence de recueil du consentement des personnes concernées. Beaucoup de choses ont été dites et écrites à ce sujet, mais il me semble que la plupart des analyses que j’ai pu voir passer manquent l’essentiel. En effet, comme j’ai pu le montrer dans un post publié sur ce blog en juillet dernier, le RGPD contient un régime dérogatoire destiné à favoriser les activités de recherche basées sur des informations à caractère personnel. L’affaire Disinfolab va sans doute constituer le premier « crash test » pour ce corpus de règles, avec l’enjeu pour la CNIL de commencer à délimiter la portée exacte de ces dérogations.
Voilà la raison pour laquelle cette affaire va sans doute avoir des retombées qui dépasseront ce cas particulier pour affecter le secteur de la recherche tout entier. On a pu déjà voir le site «Les crises», en pointe sur le sujet, faire un parallèle entre les agissements de l’ONG EU Disinfolab et le projet « Politoscope » porté par l’Institut des Systèmes Complexes, une unité mixte de recherche du CNRS. Procédant eux aussi à des analyses de données récupérées en masse à partir de Twitter, ces chercheurs identifient des « communautés politiques », mais sans diffuser la base de données source. Il n’en reste pas moins que ces travaux ont pareillement fait l’objet d’une accusation de « fichage politique » et de questionnements quant au respect des règles de protection des données personnelles :
Mais quelle est la réelle valeur ajoutée de ces travaux ? Bien sûr on apprend des choses, mais est-ce vraiment si important ? Cela vaut-il le risque que de tels fichiers soient constitués – et donc peut-être utilisés un jour (ou simplement piratés) ? Êtes-vous à l’aise avec le fait qu’un tel fichier existe ?
Big Brother ?
On imagine cependant que le laboratoire aura fait montre de prudence que DisinfoLab.
Mais cela pose néanmoins de nombreuses questions : les données sont-elles anonymisées, comment sont elles-stockées, est-il vraiment impossible de lever l’anonymat si la base était piratée ? (cela semble difficile, car il suffit de retrouver certains tweets dans Twitter, etc.)
Par ailleurs, l’affaire Disinfolab soulève aussi des questions vis-à-vis de la Science Ouverte. La personne à l’origine de l’étude – le doctorant Nicolas Vanderbiest – justifie le choix de publier les fichiers problématiques en ligne par un souci de transparence pour permettre à des tiers de vérifier les résultats par l’accès aux données source. C’est typiquement ce que prône l’idée d’ouverture des données de la recherche, promue notamment par le Plan national pour la Science Ouverte publié par le Ministère de l’Enseignement et de la Recherche en juillet dernier. Plus encore, l’ouverture des données de recherche est même une obligation légale à laquelle les équipes de recherche sont désormais soumises, comme l’a montré un rapport récent de la BSN. Mais l’exigence d’accès aux données est à concilier avec l’impératif de protection des données personnelles et l’obligation d’ouverture ne concerne pas ces informations. Il n’en reste pas moins que si les principes sont relativement clairs, les chercheurs vont se retrouver pris entre des injonctions contradictoires qui peuvent être assez redoutables à concilier, surtout dans le contexte tendu d’une affaire médiatisée comme celle-ci.
C’est la raison pour laquelle il me semble intéressant d’examiner les principales questions juridiques soulevées par cette affaire, sans l’ambition d’en faire le tour mais en essayant de faire ressortir les enjeux qui seront sans doute au cœur de la décision à venir de la CNIL.
Vous avez dit « recherche scientifique » ?
Comme on va le voir un peu plus loin, EU Disinfolab va avoir intérêt à revendiquer le bénéfice du régime dérogatoire prévu par le RGPD pour les activités de recherche scientifique, notamment pour le recueil et le traitement des données personnelles sans le consentement des personnes. Néanmoins pour cela, encore faut-il que l’activité de l’ONG puisse être juridiquement qualifiée de « recherche » ce qui va sans doute poser des questions.
Comme je l’avais montré en juillet dernier, le RGPD a une conception extensive de la notion de « recherche » qu’il ne limite pas à la recherche publique, comme on le voit nettement dans le considérant 159 :
Aux fins du présent règlement, le traitement de données à caractère personnel à des fins de recherche scientifique devrait être interprété au sens large et couvrir, par exemple, le développement et la démonstration de technologies, la recherche fondamentale, la recherche appliquée et la recherche financée par le secteur privé.
Le fait que Disinfolab ne soit pas un laboratoire de recherche au sens propre du terme n’est donc pas un point bloquant, puisque le RGPD n’a pas une conception « organique » de cette activité (c’est-à-dire devant être déduite de la nature des structures qui exercent le traitement des données). Cela contraste avec l’archivage, pour lequel le RGPD prévoit aussi des dérogations, mais en prenant le soin de préciser que seuls les « traitements à des fins archivistiques dans l’intérêt public » sont couverts, ce qui exclut le secteur des archives privées.
Si le RGPD n’a pas une vision « organique » des activités de recherche, il en a une vision « téléologique », c’est-à-dire (et c’est logique vu le fonctionnement du texte) qu’il envisage la recherche comme une finalité spécifique poursuivie. Or cette spécificité doit se manifester par la méthode employée pour le traitement des données, qui doit répondre aux critères de la démarche scientifique.
C’est là que l’affaire Disinfolab va mettre la CNIL dans une situation délicate, car il va lui falloir se prononcer sur « ce qu’est la science », ce qui n’est jamais confortable lorsqu’on est une institution publique. L’étude de Disinfolab a reçu de nombreuses critiques, y compris de la part d’autres chercheurs, pointant la méthodologie employée ou des « biais » introduits pour conduire au résultat recherché. D’autres ont aussi souligné l’origine des financements de la structurante, la proximité dérangeante entre l’ONG et une agence de communication, ainsi que les liens entre certains des co-auteurs de l’étude et la République en Marche.
Jusqu’à quel point l’emploi d’une méthodologie défaillante remet-elle en cause la scientificité d’une étude ? Et jusqu’à quel point des biais politiques peuvent aussi avoir cet effet ? C’est une question délicate et il est difficile de répondre dans l’absolu. Peut-être vaudrait-il mieux d’ailleurs que la CNIL puisse se prononcer sans avoir entrer dans ce genre de débats, mais il sera difficile sans doute de les esquiver puisque la légalité des agissements de Disinfolab dépend en partie de leur rattachement à la recherche scientifique.
Constituer la base de données sans le consentement des personnes
On a l’habitude de dire que le RGPD (et avant lui la loi Informatique et Libertés) impliquent que les personnes donnent leur consentement en amont du traitement des données les concernant, mais il s’agit d’une simplification abusive. Car en réalité, le consentement ne constitue qu’un des six fondements prévus par le texte pour un traitement licite de données.
Or beaucoup de protestations que l’on a pu voir sur Twitter mettaient en avant le fait qu’on n’avait pas demandé le consentement des personnes pour constituer la base à partir de données récupérées sur le réseau social. Cette base a ensuite été décrite comme une forme de « fichage politique » et l’attribution de numéros aux individus a été comparée à celle de « matricules ».
Ces termes ont servi à faire enfler la polémique, mais ils sont assez inappropriés pour analyser juridiquement de quoi il retourne dans ce cas d’espèce. Comme Disinfolab avait pour but de catégoriser des personnes selon leurs opinions politiques, nous sommes ici en présence de ce que le RGPD appelle des « données particulières » pour lesquels les traitements sont en principe interdits en raison de leur sensibilité :
Le traitement des données à caractère personnel qui révèle l’origine raciale ou ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale, ainsi que le traitement des données génétiques, des données biométriques aux fins d’identifier une personne physique de manière unique, des données concernant la santé ou des données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique sont interdits.
Néanmoins, le texte prévoit une liste de 10 exceptions dans lesquelles les traitements deviennent possibles, la première d’entre elles étant effectivement « lorsque la personne concernée a donné son consentement explicite […] pour une ou plusieurs finalités spécifiques« . Mais il existe deux autres situations où le consentement n’est pas nécessaire et qui sont applicables ici :
e) le traitement porte sur des données à caractère personnel qui sont manifestement rendues publiques par la personne concernée ;
j) le traitement est nécessaire à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques, conformément à l’article 89, paragraphe 1, sur la base du droit de l’Union ou du droit d’un État membre qui doit être proportionné à l’objectif poursuivi, respecter l’essence du droit à la protection des données et prévoir des mesures appropriées et spécifiques pour la sauvegarde des droits fondamentaux et des intérêts de la personne concernée.
EU Desinfolab pourra vraisemblablement s’appuyer sur l’une ou l’autre de ces dispositions, qui peuvent avoir chacune leur intérêt. La première est intéressante pour l’ONG, car elle pourra en revendiquer le bénéfice même si la CNIL estimait que son activité n’a pas un véritable caractère scientifique. Mais la seconde est plus intéressante encore, car comme nous le verrons ci-après, invoquer la poursuite d’une finalité de recherche permet de bénéficier de dérogations supplémentaires, outre le fait de pouvoir se passer du consentement des personnes.
Il n’en reste pas moins qu’en ce qui concerne la constitution même de la base sans consentement, les critiques adressées à l’ONG étaient sans doute infondées, car le RGPD contient des dispositions sur lesquelles Disinfolab pourra s’appuyer et c’est aussi a fortiori le cas pour le projet Politoscope de l’ISC.
Récupérer les données auprès de Twitter
Un des problèmes potentiels vient néanmoins de la source auprès de laquelle les données ont été collectées, à savoir l’API de Twitter. Nicolas Vanderbielt a lui-même indiqué avoir eu recours à la plateforme Visibrain qui offre un accès aux données du réseau social en contrepartie d’un abonnement payant, cette société étant elle-même en affaire avec Twitter pour lequel ce type de « revente » des données constitue une partie substantielle de son modèle économique. On pourrait d’ailleurs arguer que les personnes ont en réalité consenti à ce que des tiers aient accès de cette façon à leurs données, lors de l’acceptation des CGU de Twitter qui prévoient ce type de monétisation. Mais il y a en réalité peu de chances que cela soit compatible avec l’exigence de recueil d’un consentement « libre et éclairé » pour une finalité spécifique prévue par le RGPD. Twitter vient d’ailleurs de subir une lourde condamnation en justice en France qui a invalidé 250 clauses de ces CGU jugées « abusives », ce qui jette le doute sur la manière dont la plateforme fonctionne et valorise les données.
Donc même si les données étaient techniquement récupérables par le biais de son API, il est probable que les traitements subséquents aient été dépourvus de base légale, sauf si l’on se tourne à nouveau vers le régime dérogatoire prévu au bénéfice des activités de recherche. Le RGPD prévoit en effet une exception au principe de limitation des finalités qui permet, lorsque des données sont collectées initialement dans un certain but, de les traiter ensuite à des fins de recherche en considérant que cette nouvelle finalité est automatiquement compatible avec le but premier :
[…] le traitement ultérieur à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques n’est pas considéré, conformément à l’article 89, paragraphe 1, comme incompatible avec les finalités initiales (limitation des finalités);
Cela signifie que si Twitter a bien collecté des données de ses utilisateurs correctement (ce qui n’est cependant pas absolument certain au vu de ses CGU), il peut ensuite les remettre à des chercheurs afin que ceux-ci les analysent, sans avoir à redemander le consentement des personnes. Cette dérogation est en réalité puissante, car elle permet à des chercheurs de récupérer des données auprès de tiers, sans avoir à les collecter eux-mêmes. Mais pour autant, elle n’exonère pas complètement les chercheurs du respect des droits des personnes sur leurs données et cela va avoir de retombées sur l’affaire Disinfolab.
Respecter les droits d’information et d’opposition des personnes
Dans la philosophie du RGPD, même lorsqu’elles sont donné leur accord pour un traitement ou lorsque ce traitement peut s’exercer sans consentement, les personnes conservent une série de droits sur leurs données destinés à leur assurer de garder le contrôle sur les usages : information, accès, rectification, effacement, limitation, opposition, portabilité. Mais le texte prévoit que les États-membres peuvent activer des options permettant à certaines activités de bénéficier de dérogations pour faire obstacle à la mise en œuvre du droit des personnes. C’est notamment le cas pour les traitements à des fins archivistiques et la France a choisi d’appliquer ces dérogations au niveau national pour que les documents d’archives publiques ne puissent pas faire l’objet de demandes de droit à l’oubli (effacement). Elle aurait également pu activer ces options pour la recherche scientifique, mais elle a choisi de ne pas le faire, ce qui fait que les activités de recherche restent bien soumises au respect du droit des personnes.
Le premier d’entre eux est le droit à l’information qui veut que les individus soient prévenus d’une activité de traitement de données les concernant, et ce même lorsque les informations sont récupérées auprès de tiers sans consentement. Néanmoins, le RGPD prévoit tout de même un aménagement pour la recherche lorsque :
la fourniture de telles informations se révèle impossible ou exigerait des efforts disproportionnés, en particulier pour le traitement à des fins archivistiques dans l’intérêt public, à des fins de recherche scientifique ou historique ou à des fins statistiques […]
Ici, les données récupérées concernaient des milliers d’utilisateurs de Twitter et on peut sans doute considérer que les informer individuellement aurait nécessité un « effort disproportionné » pour l’ONG. Le texte précise ensuite néanmoins que dans une telle hypothèse : « le responsable du traitement prend des mesures appropriées pour protéger les droits et libertés ainsi que les intérêts légitimes de la personne concernée, y compris en rendant les informations publiquement disponibles.« . Or il n’est pas certain que le site de Disinfolab ait été irréprochable de ce point de vue.
Par ailleurs, les personnes disposent d’un droit d’opposition pour faire cesser un traitement, que la CNIL a d’ailleurs incité les internautes à utiliser en sollicitant directement l’ONG. Là aussi, le RGPD prévoit des aménagements pour la recherche, vu que des chercheurs peuvent refuser de faire droit à de telles demandes si la suppression des données a l’effet de « rendre impossible ou de compromettre gravement la réalisation des objectifs dudit traitement » (mais ce n’est manifestement pas le cas ici). Enfin, il faudra sans doute que la CNIL examine si les traitements effectués par Disinfolab constituaient des opérations de « profilage », car cela ouvre un droit d’opposition spécifique aux personnes, sans que le texte soit très clair sur la manière dont cela doit être articulé avec le régime dérogatoire prévu pour la recherche.
Republier les données source et permettre la vérification
On le voit, jusqu’ici Disinfolab a quand même d’assez bonnes chances de pouvoir s’appuyer sur ces exceptions mises en place par le RGPD pour la recherche de manière à couvrir ses activités et ce n’est en réalité pas en soi la constitution de la base qui pose réellement problème, même en procédant à une classification des personnes par opinion politique.
Là où l’ONG a manifestement commis une lourde erreur, c’est en republiant ces fichiers de données sur Internet. Un certain nombre de commentateurs ont trouvé étrange que cela puisse soulever des difficultés, car il est vrai – au moins pour les informations brutes figurant sur les profils – que celles-ci étaient déjà publiques et accessibles pour quiconque. Mais ce type de réactions révèle en réalité une certaine incompréhension du sens de la protection des informations à caractère personnel. Le but de cette législation n’est pas uniquement de protéger la confidentialité ou même la vie privée (ce n’est qu’un effet indirect de ces dispositions). Son but réel est de donner aux individus un pouvoir de contrôle à chaque fois qu’il y a traitement de données personnelles. Or republier ailleurs des données publiées à un endroit constitue incontestablement un nouveau traitement, quand bien même les personnes auraient elles-mêmes procédé à la publication initiale.
Ici, la question est de savoir si le traitement que constitue cette republication des données sources était nécessaire à la réalisation de la finalité de recherche. Or la réponse est clairement non. Que Disinfolab ait eu besoin de récupérer les données pour effectuer ses analyses constituait une nécessité. On peut cependant quand même se demander si l’ONG n’aurait pas dû immédiatement procéder à une anonymisation des données ou, au moins, à leur pseudonymisation. Car pour déterminer que 44% des tweets ont été émis par 1% des utilisateurs, il n’est nul besoin de conserver des données identifiantes. Le RGPD est d’ailleurs très clair sur le fait que les traitements réalisés à des fins de recherche bénéficient certes de dérogations, mais tout en restant strictement soumis aux principes de nécessité et de proportionnalité :
Les conditions et garanties en question peuvent comporter des procédures spécifiques permettant aux personnes concernées d’exercer ces droits si cela est approprié eu égard aux finalités du traitement spécifique concerné, ainsi que des mesures techniques et organisationnelles visant à réduire à un minimum le traitement des données à caractère personnel conformément aux principes de proportionnalité et de nécessité.
Or ici, non seulement il est loin d’être certain que la conservation de données non-anonymisées ou pseudonymisées était nécessaire pour conduire cette recherche, mais il est par ailleurs clair qu’aucune nécessité ne justifiait que ces données soient ensuite republiées sur Internet, où elles ont été massivement téléchargées et repartagées.
On objectera que Desinfolab respectait au contraire l’esprit de la démarche scientifique en donnant accès aux données brutes ayant servi à réaliser cette étude dans la lignée des préceptes de la Science Ouverte (Open Science). Mais des vérifications auraient sans doute pu être pareillement effectuées sur la base de données anonymisées. Et si ce n’était pas le cas, l’ONG aurait dû ménager un accès au coup par coup aux personnes souhaitant procéder à ces vérifications (autres chercheurs ou journalistes), en prenant les précautions nécessaires pour éviter la dissémination incontrôlées des données. La dérogation que j’ai mentionnée plus haut au principe de limitation des finalités de traitement s’applique d’ailleurs sans doute aussi bien à la réalisation d’une recherche initiale à partir de données collectées auprès de tiers qu’à des traitements effectués ensuite pour vérifier les résultats d’une recherche, car cette opération fait intrinsèquement partie de ce qu’est la démarche scientifique (validation par les pairs). Mais encore faut-il prendre les précautions nécessaires pour éviter l’atteinte aux droits des personnes, ce qui exclut la diffusion sauvage des informations, qui plus est sur une simple Dropbox !
Disinfolab a d’ailleurs bien conscience de la fragilité de sa position, car pour essayer de s’en sortir, ils invoquent dans un communiqué ce que l’on peut voir comme le deus ex machina du RGPD : la notion d’intérêt légitime, l’un des fondements permettant de traiter des données sans consentement des personnes, en précisant ici que la publication a été effectuée au nom de « l’exercice du droit à la liberté d’information et du droit du public à l’information« . Il y a en réalité peu de chances que cela fonctionne, car le RGPD précise bien que l’intérêt légitime – dont il ne donne pas de définition précise – peut être invoqué « à moins que ne prévalent les intérêts ou les libertés et droits fondamentaux de la personne concernée qui exigent une protection des données à caractère personnel« . Or ici, les données collectées étaient des informations sensibles relatives aux opinions politiques des personnes et, encore une fois, il était possible d’étayer les résultats de l’étude sans aller jusqu’à la republication telles quelles des données source.
Game Over.
Quelles leçons pour la recherche scientifique ?
Ce billet est déjà trop long pour que je m’étende davantage, mais il me semble que cette affaire devrait inciter les chercheurs à réfléchir aux conditions de l’étude des données issus de réseaux sociaux. Comme nous l’avons vu, il y a dans le RGPD des dispositions qui permettent sans doute d’exploiter ce type de matériaux, y compris lorsqu’il s’agit de données sensibles, dans le respect des règles de la protection des données. Mais uniquement à condition de prendre certaines précautions élémentaires s’agissant des droits des personnes concernées. Pour parodier Spiderman : « un grand pouvoir implique de grandes responsabilités » et il n’est pas abusif de dire que le RGPD met dans les mains des chercheurs un pouvoir important en matière de traitement de données, car il reconnaît que la conduite de ces activités relève d’un intérêt général justifiant des dérogations aux principes généraux.
En l’état, l’exercice reste néanmoins globalement périlleux, car si les principes sont a peu près clairs, une affaire comme celle-ci montre bien à quel point leur mise en pratique génère encore de nombreuses zones d’ombre. La décision de la CNIL pourra contribuer à lever certaines de ces obscurités, notamment en précisant la portée de ce régime dérogatoire pour la recherche et le périmètre des activités pouvant en bénéficier.
Mais je ne miserai pas uniquement sur la jurisprudence pour élucider les questions soulevées par l’usage des données personnelles à des fins de recherche. Il me semble que la communauté scientifique devrait se montrer proactive en la matière, s’emparer du sujet et définir collectivement des règles éthiques et des bonnes pratiques visant à organiser concrètement l’équilibre entre les droits des chercheurs et ceux des personnes. En matière de données de santé, c’est déjà ce qui existe avec plusieurs méthodologies de référence avalisées par la CNIL au fil du temps et dont elle vient de reconfirmer la validité après l’entrée en vigueur du RGPD. Le respect de ce type de canevas est en effet en phase avec l’esprit du principe d’accountability qui imprègne le règlement européen et impose aux acteurs d’implémenter par eux-mêmes des mesures assurant la conformité des traitements au texte.
On pourrait imaginer une sortie par le haut de cette crise provoquée par l’affaire Disinfolab qui verrait la communauté scientifique (au sens large) se rapprocher de la CNIL pour élaborer une ou des méthodologies de référence en matière d’analyse des données récupérées à partir de sites comme les réseaux sociaux, ainsi que pour les questions d’accès à des données à des fins de vérification des résultats d’une recherche.