Les données de la recherche: Produire des données de recherche
Quelles données (exemples disciplinaires) ?
Les données de la recherche et leur mode de production se caractérisent par une typologique indépendante des disciplines scientifiques. On les classe en trois groupes principaux :
-
données d'observation (sondages, remontées de terrain, données expérimentales …). Elles sont uniques et irremplaçables
-
données dérivées. Elles sont produites par d'autres mais sont réutilisées, réinterprétées ou enrichies. Elles sont souvent issues de la fouille de données (text and data mining – TDM)
-
données de référence (archives, bibliothèques numériques). Elles sont publiées et administrées dans des corpus et très souvent issues de la numérisation de données analogiques.
Les SHS utilisent les trois types de données de recherche. Les sciences utilisent plutôt les données d'observation et les données dérivées.
Pour quels usages ?
Résultats d'une recherche, les données produites répondent à deux objectifs principaux qui ne s'opposent pas forcément.
- Le premier répond à un objectif de partage et de dissémination. Il prend deux formes principales : la publication en open-access (voie verte et/ou dorée) et le dépôt des jeux de données dans des entrepôts spécialisés. Dans ce cas, l'accès peut être libre ou bien soumis à des restrictions ou à un embargo selon la nature des données produites.
- Le second répond à un objectif d'exploitation commerciale ou industrielle de la recherche. Dans ce cas, les données produites sont le plus souvent protégées par un brevet.
Un exemple en SHS
Source : Nakala
Le plan de gestion des données
Le plan de gestion de données (ou DMP en anglais : Data Management Plan) est un préalable indispensable à l'ouverture des données. C'est « un mécanisme qui définit les activités de gestion clés qui sont nécessaires pour assurer l'intégrité des jeux de données générés au cours de l'activité de recherche » (O. Hologne). Il doit être continuellement mis à jour tout au long du projet.
Il doit rassembler des informations sur :
-
les différents types de données produites au cours du processus de recherche
-
le cycle de vie des données (création, curation, diffusion, conservation)
Il doit préciser :
-
la répartition des rôles en matière de collecte et d'enrichissement
-
le format des données et les standards utilisés pour les métadonnées
-
les modalités d'archivage, de diffusion et de conservation
Pour quels objectifs ?
- L'établissement de plans de gestion de données (data management plan – DMP) est de plus en plus demandé dans les appels à projets financés sur fonds publics, notamment européens (H2020). Ils se situent dans le mouvement général d'accès libre à la connaissance.
- Le rôle d'un PGD n'est pas de rajouter une contrainte supplémentaire au chercheur mais de formaliser au sein d'un document unique, prospectif, descriptif et évolutif, des informations auparavant dispersées et qui sont utiles au suivi du projet et à la bonne gestion des résultats obtenus.
- A ce titre, ils doivent permettre la réutilisation future (selon des modalités à définir) des données produites au cours du processus de recherche.
Ressources pour le Plan de Gestion de Données
- Lignes directrices pour la gestion des données dans Horizon 2020Commission Européenne, Recherche et Innovation. "Horizon 2020. Lignes directrices pour la gestion des données dans Horizon 2020. Version 1.0, 11 décembre 2013. Titre original : "Guidelines on Data Management in Horizon 2020, Version 1.0, 11 December 2013, European Commission, Research and Innovation. Traduction française : INIST-CNRS, France.
- Postgraduate Data Management PlanUniversity of Bath. Postgraduate Data Management Plan. 5 p. Disp. sur : www.bath.ac.uk/research/data/planning/dmp-templates/PGR_DMP_Template_20150324.docx
- DMP ToolUniversity of California Curation Center, California Digital Library. Data Management Planning Tool. Disp. sur : https://dmptool.org/