Aller au contenu principal

Les données de la recherche: Questions et enjeux

Introduire à la problématique des données de la recherche, avoir des repères historiques et terminologiques, connaître les enjeux, avoir des repères sur la gestion et la diffusion des données de la recherche.

L'éthique des données

Les enjeux liés à l'éthique des données peuvent se comprendre de deux manières, l'une juridique et l'autre technique :

 

  • Du point de vue juridique, toutes les communautés scientifiques n'ont pas les mêmes contraintes vis à vis de l'ouverture et du partage des données de la recherche. Les consignes générales et les recommandations exprimées dans les appels à projet peuvent parfois paraître en opposition avec les restrictions légales formulées au nom de du respect de la vie privée, du droit d'auteur, de l'obligation de secret ou de la sécurité, comme la Loi Informatique et Libertés du 6 janvier 1978, révisée en 2004. C'est le cas pour les données à caractère personnel et notamment - mais pas uniquement - pour les données de santé qui peuvent conduire à l'identification des individus car ce cadre législatif n'est plus adapté aux possibilités techniques actuelles et au contexte des données massives.
  • Du point de vue technique, le mouvement d'ouverture des données de la recherche implique de nouvelles responsabilités pour le chercheur. Celui-ci doit particulièrement veiller à la qualité des données produites et offertes à la communauté toute entière. Ces dernières doivent être documentées de manière claire et rigoureuse et le chercheur doit être vigilant sur le caractère intègre des données, leur interopérabilité, l'identification des sources, les dates de recueil et de traitement, par exemple.


Les enjeux économiques et commerciaux

Les données produites par les chercheurs ne sont pas dénuées de valeur sur le plan économique et commercial, ce qui peut parfois entrer en contradiction avec le mouvement des Communs Scientifiques (Scientific Commons). En effet, l'idéal de partage et d'échanges entre pairs est parfois soumis à certaines limitations notamment dans le cas où la recherche est conduite avec des partenaires privés et que ses résultats peuvent conduire à une exploitation industrielle et/ou commerciale. Dans cette situation, les chercheurs devront veiller dans toute la mesure du possible à ce que les données ne subissent pas une "confiscation indue des données non exploitées par les partenaires privés" (Avis du Comité Scientifique du CNRS, 7 mai 2015, p. 9).

Par ailleurs, il paraît souhaitable que la communauté scientifique veille à ce qu'une forme d'équilibre soit mise en place dans les conditions de l'utilisation des données produites sur fonds publics par des grands groupes privés qui n'assurent que très rarement la réciprocité.

Enfin, lors de la phase de publication scientifique dans des revues des résultats obtenus, il est souhaitable que le chercheur, souvent obligé de fournir ses données expérimentales au comité éditorial aux fins de réplication en conserve la pleine propriété car, "si les données restent exclusivement entre les mains des éditeurs, elles risquent de constituer pour eux un "marché de données" fermé et autonome par rapport aux publications alors qu’elles n’étaient demandées que pour contrôler les résultats". (Ibid., p . 8)

Enjeux pour le chercheur

  • Acquisition de nouvelles compétences dans le domaine documentaire
  • Réflexion sur les données en amont du projet, anticipation, changements méthodologiques
  • Financement de la recherche
  • Principe de réciprocité, ouverture à la communauté
  • Ouverture vers la société

Questions terminologiques

  • Données brutes, traitées, dérivées ?

Une distinction portant, à la fois sur le cycle de vie et la nature des données, s'est imposée progressivement, tout en suscitant de nombreuses questions et des débats entre chercheurs ; il s'agit de la distinction entre données brutes, traitées et dérivées.

Les données "brutes" (raw data) correspondraient aux enregistrements directs, factuels, d'une réalité (par exemple, des relevés météorologiques). Mais la notion de donnée brute pose problème, d'abord en SHS, où les données (sociales, économiques, textuelles, etc.),  sont toujours le produit d'une construction, d'une problématique de recherche, d'un contexte. En sciences humaines, les données ne sont jamais "brutes", mais bien "données" (voir le billet de Sylvie Fayet). Mais en sciences exactes, les données brutes dépendent aussi d'un contexte, d'un dispositif de recueil, etc.

Au-delà de ces questions et débats épistémologiques, un consensus semble s'être établi autour de la définition de la Research Data Australia :
"Les  données  [de  recherche]  peuvent  être  des  données  brutes,  des  données  non traitées  d’observations  de  phénomènes  particuliers.  D’autres  sont  des  données  traitées, données produites après formatage ou correction de données brutes. D’autres des données dérivées, qui présentent un résumé ou une présentation spécifique des données brutes.
"  (ANDS,  « What  do  we  mean  by  research  data  collections ? »,  http://ands.org.au/guides/research-data-australia.html, cité dans Gaillard, Rémi,  2014)

  • Données ouvertes ?

"Une donnée ouverte est une donnée qui peut être librement utilisée, réutilisée et redistribuée par quiconque - sujette seulement, au plus, à une exigence d’attribution et de partage à l’identique." (Qu'est-ce que l'Open Data ?). Les données de recherche sont dites ouvertes lorsqu'elles répondent à différents critères : diffusion en libre accès sur internet,  accessibilité sous  un format ouvert permettant la réutilisation (par exemple, des données diffusées en format PDF ne sont pas vraiment "ouvertes", même si elles sont accessibles) ; conditions de réutilisation définies par une licence.

  • Qu'est-ce qu'un jeu de données ?

« Peut être définie comme l’agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine « unité », rassemblées pour former un ensemble cohérent » (Gaillard Rémi, 2014)

Le nouveau contexte législatif et réglementaire

La loi "Pour une République numérique" du 7 octobre 2016 inclue dans son périmètre la problématique des données de la recherche notamment dans son article 30.

Elle dispose que : "Lorsqu'un écrit scientifique issu d'une activité de recherche financée au moins pour moitié par des dotations de l'Etat, des collectivités territoriales ou des établissements publics, par des subventions d'agences de financement nationales ou par des fonds de l'Union européenne est publié dans un périodique [...] son auteur dispose, même après avoir accordé des droits exclusifs à un éditeur, du droit de mettre à disposition gratuitement dans un format ouvert, par voie numérique [...] la version finale de son manuscrit acceptée pour publication, dès lors que l'éditeur met lui-même celle-ci gratuitement à disposition par voie numérique ou, à défaut, à l'expiration d'un délai courant à compter de la date de la première publication. Ce délai est au maximum de six mois pour une publication dans le domaine des sciences, de la technique et de la médecine et de douze mois dans celui des sciences humaines et sociales."

Elle précise ensuite que : "Dès lors que les données issues d'une activité de recherche financée au moins pour moitié par des dotations de l'Etat, des collectivités territoriales, des établissements publics, des subventions d'agences de financement nationales ou par des fonds de l'Union européenne ne sont pas protégées par un droit spécifique ou une réglementation particulière et qu'elles ont été rendues publiques par le chercheur, l'établissement ou l'organisme de recherche, leur réutilisation est libre."