Exploration de données : un environnement juridique en évolution
:: S.I.Lex :: - calimaq, 5/12/2014
Mardi dernier, l’ADBU et AEF organisaient une journée d’étude sur le thème « Quelle(s) stratégie(s) de recherche face à la nouvelle massification des données ?« . Dans ce contexte, on m’avait demandé de faire un point concernant l’évolution du cadre juridique des pratiques d’exploration de données (Text et Data Mining). Je poste ci-dessous ma présentation, qui étant donné le temps qui m’était imparti n’avait pas vocation à traiter le sujet en profondeur, mais à rappeler les points essentiels.
Depuis plusieurs années, la question du Text et Data Mining (TDM) suscite de nombreuses interrogations sur le plan juridique. Elle constitue un enjeu majeur pour le renouvellement des pratiques de recherche, mais elle est aussi l’illustration de la rigidification graduelle du cadre juridique de l’Information Scientifique et Technique.
Alors qu’à l’origine, les informations n’étaient pas véritablement saisies en elles-mêmes par le droit, un mouvement s’est dessiné depuis les années 90 pour faire en sorte que la propriété intellectuelle s’appliquent aux données. L’introduction du droit des bases de données en 1996 par le biais d’une directive européenne a consacré une étape importante dans la possibilité de soumettre à contrôle le traitement de l’information. Le droit d’auteur, qui normalement s’applique aux oeuvres et non aux données, a lui aussi pu être invoqué dans le cadre des pratiques de Text Mining, dans la mesure où celles-ci impliquent généralement de copier les contenus avant de les analyser.
Il en résulte que les opérations d’extractions de données que les chercheurs réalisaient mentalement sans entrave dans l’environnement analogique ont changé de nature dans l’environnement numérique. Relever manuellement les noms cités dans un livre constitue par exemple un acte complètement libre, sur lequel la propriété intellectuelle n’a pas de prise. Mais un repérage des entités nommées à partir de textes numérisés, conduit par des procédés automatiques, sera de son côté potentiellement soumis au droit d’auteur et/ou au droit des bases de données. L’exploration de données, qui était un corollaire naturel du « droit de lire », est devenu un acte conditionné avec le numérique, ce qui est susceptible d’avoir un impact majeur sur l’indépendance de la recherche.
Car les principaux éditeurs scientifiques ont rapidement compris qu’ils avaient intérêt à investir le terrain de l’exploration des données en faisant jouer leurs droits exclusifs. Pour cela, ils ont opéré en deux phases. En amont, il est de plus en plus fréquent que les éditeurs demandent aux auteurs de joindre à leurs articles les données ayant servi à les réaliser, de manière à obtenir par le biais de la cession des droits un contrôle sur celles-ci. En aval, sur la base des données et des textes sur lesquels ils possèdent des droits, les éditeurs proposent ensuite des licences de Text et Data Mining, qui leur permettent de déterminer les conditions techniques dans lesquelles ces pratiques seront conduites, ainsi que de récolter de nouvelles informations précieuses concernant les types de recherche qui sont entreprises à partir de leurs contenus.
Elsevier ou Springer proposent ainsi de telles licences, qui viennent prolonger les abonnements traditionnels aux revues électroniques vendus aux collectivités de recherche. Ces éditeurs font par ailleurs pression au niveau de l’Union européenne pour que cette solution contractuelle soit priorisée par rapport à une révision du cadre juridique qui passerait par exemple par la consécration d’une nouvelle exception au droit d’auteur (processus Licences for Europe en 2013).
Mais face aux critiques soulevées par ces licences de Text et Data Mining, certains pays ont pris les devants pour faire évoluer la loi afin de sécuriser ces pratiques de recherche innovante. Aux Etats-Unis, l’environnement juridique est traditionnellement plus favorable pour la recherche, grâce au mécanisme du fair use (usage équitable) et la jurisprudence récente (notamment celle fixée par l’affaire Google Books) a permis d’établir que l’exploration des données relevait d’une forme d’usage transformatif couvert par le fair use. Mais c’est surtout l’Angleterre qui a apporté récemment la preuve que même du côté européen, où le fair use n’existe pas, des marges de manoeuvre existaient pour instaurer au niveau des Etats un cadre favorable à l’exploration de données. La loi anglaise a ainsi consacré une nouvelle exception au droit d’auteur, couvrant les « analyses computationnelles » de contenus protégés effectuées dans un cadre de recherche sans but lucratif. Et ces dispositions ne peuvent être mises en échec par des clauses contractuelles que chercheraient à imposer des éditeurs.
Pendant ce temps en France, la situation stagne. Un rapport du CSPLA récemment remis au Ministère de la Culture à propos du TDM assimile ces pratiques à une forme de « parasitisme » des contenus protégés. Il préconise de respecter un moratoire pendant deux ans, en privilégiant l’approche contractuelle et repousse toutes les pistes qui auraient permis d’envisager l’introduction d’une exception dans le Code de Propriété Intellectuelle français. Par ailleurs, l’exploration de données est aussi au coeur de la polémique soulevée par la signature d’une licence nationale entre Couperin et Elsevier pour le corpus Science Direct. Les accords conclus contiennent en effet une clause relative au Text et Data Mining, qui a pu être assouplie au fil des négociations. Mais sa présence dans l’accord avalise l’approche contractuelle et elle apporte de l’eau au moulin des éditeurs qui s’opposent à une révision du cadre législatif, sans présenter de garantie à long terme pour les chercheurs qui resteront soumis aux conditions imposées par des acteurs comme Elsevier. Accepter de telles clauses revient à approuver une nouvelle enclosure sur les résultats de la recherche, qui va s’ajouter à celle qui existe déjà sur les articles scientifiques et une forme de « privation » de l’information. La Ligue des Bibliothèques de Recherche (LIBER) s’était pourtant prononcée clairement en défaveur des licences proposées par Elsevier, mais elles ont tout de même été acceptées en France.
Pour l’avenir, plusieurs enjeux importants se dessinent quant au Text et Data Mining. Le premier se situe au niveau européen, où une réforme de la directive sur le droit d’auteur a été annoncée par la Commission européenne à l’horizon 2016. Il y aurait là une occasion de consacrer une exception au niveau de l’Union, qui constitue l’échelon pertinent pour entreprendre une telle réforme. Mais encore faut-il que les intérêts propres du secteur de la recherche arrivent à se faire entendre dans un débat encore très largement dominé par la sphère Culture et les questions liées au piratage. La France joue d’ailleurs à ce niveau un jeu trouble, où parfaitement alignée avec les prétentions des industries culturelles, elle milite pour que la directive sur le droit d’auteur ne soit pas réouverte…
Sans attendre une évolution du cadre juridique, il est possible d’agir également en amont, au niveau de la diffusion originelle des données de la recherche, pour créer des conditions favorables à l’exploration de données. Pour cela, il faudrait ouvrir directement les données de la recherche, en les plaçant sous des licences Open Data permettant largement la réutilisation. De cette manière, les données seraient ouvertes dès l’origine et la négociation avec les éditeurs deviendrait inutile. Cette politique d’Open Data appliquée aux données de la recherche viendrait prolonger la politique d’Open Access aux articles scientifiques. Mais elle a aussi ses spécificités propres, que ce soit en termes juridiques ou techniques, et elle nécessite également que des orientations politiques soient déterminées pour inciter les acteurs sur le terrain à ouvrir leurs données en utilisant des infrastructures adaptées.
Une étape importante de ce point de vue arrive en 2015, puisque la France doit transposer la directive européenne sur la réutilisation des informations du secteur public. Pour l’instant, les données de la recherche sont toujours exclues du dispositif de la directive et elles pourraient rester dans l’angle mort de cette transposition. Mais il n’y a pas de fatalité à cela et la France pourrait très bien choisir de faire de la recherche un des secteurs dans lequel l’Open Data pourrait se développer. A cet égard, la consultation en cours au niveau du CNNum en vue de la préparation d’une loi numérique pour 2015 constitue un lieu stratégique pour faire émerger l’importance des données de la recherche au sein du débat général.
Enfin des approches encore plus ambitieuses peuvent être envisagées, comme celle d’adopter une Charte Universelle de l’Open Science, actuellement à l’étude au niveau du CNRS et de l’ADBU. Encore assez vagues, ces travaux pourraient néanmoins aboutir sur des propositions visant à ne plus aborder les questions liées à l’Information Scientifique et Technique sous l’angle de la propriété littéraire et artistiques pour créer enfin un cadre juridique adapté.
Les mois à venir vont sans doute être décisifs concernant l’avenir juridique des pratiques d’exploration de données. Il est évident qu’une évolution ne pourra avoir lieu que si les communautés de la recherche les plus directement impliquées font entendre leur voix dans le débat, surtout dans un pays comme la France où ces sujets sont encore très largement accaparés par le champ de la Culture, avec l’approche restrictive que l’on sait.
La journée d’étude de l’ADBU et d’AEF aura eu le mérite de faire ressortir ces enjeux et d’entamer une discussion. Il est clair qu’une prise de conscience concernant l’ouverture des données de la recherche est en train de se dessiner, qui était très nette au niveau des présidents d’Université.
Classé dans:Uncategorized Tagged: data mining, droit d'auteur, droit des bases de données, exceptions, exploration de données, recherche, text mining