Aller au contenu principal

Les données de la recherche: Produire des données de recherche

Introduire à la problématique des données de la recherche, avoir des repères historiques et terminologiques, connaître les enjeux, avoir des repères sur la gestion et la diffusion des données de la recherche.

Quelles données (exemples disciplinaires) ?

Les données de la recherche et leur mode de production se caractérisent par une typologique indépendante des disciplines scientifiques. On les classe en trois groupes principaux :

  • données d'observation (sondages, remontées de terrain, données expérimentales …). Elles sont uniques et irremplaçables

  • données dérivées. Elles sont produites par d'autres mais sont réutilisées, réinterprétées ou enrichies. Elles sont souvent issues de la fouille de données (text and data mining – TDM)

  • données de référence (archives, bibliothèques numériques). Elles sont publiées et administrées dans des corpus et très souvent issues de la numérisation de données analogiques.


    Les SHS utilisent les trois types de données de recherche. Les sciences utilisent plutôt les données d'observation et les données dérivées.

Pour quels usages ?

Résultats d'une recherche, les données produites répondent à deux objectifs principaux qui ne s'opposent pas forcément.

  • Le premier répond à un objectif de partage et de dissémination. Il prend deux formes principales : la publication en open-access (voie verte et/ou dorée) et le dépôt des jeux de données dans des entrepôts spécialisés. Dans ce cas, l'accès peut être libre ou bien soumis à des restrictions ou à un embargo selon la nature des données produites.
  • Le second répond à un objectif d'exploitation commerciale ou industrielle de la recherche. Dans ce cas, les données produites sont le plus souvent protégées par un brevet.

Un exemple en SHS

Source : Nakala

Le plan de gestion des données

Le plan de gestion de données (ou DMP en anglais : Data Management Plan) est un préalable indispensable à l'ouverture des données. C'est « un mécanisme qui définit les activités de gestion clés qui sont nécessaires pour assurer l'intégrité des jeux de données générés au cours de l'activité de recherche » (O. Hologne). Il doit être continuellement mis à jour tout au long du projet.

Il doit rassembler des informations sur :

  • les différents types de données produites au cours du processus de recherche

  • le cycle de vie des données (création, curation, diffusion, conservation)

Il doit préciser :

  • la répartition des rôles en matière de collecte et d'enrichissement

  • le format des données et les standards utilisés pour les métadonnées

  • les modalités d'archivage, de diffusion et de conservation

Pour quels objectifs ?

  • L'établissement de plans de gestion de données (data management plan – DMP) est de plus en plus demandé dans les appels à projets financés sur fonds publics, notamment européens (H2020). Ils se situent dans le mouvement général d'accès libre à la connaissance.
  • Le rôle d'un PGD n'est pas de rajouter une contrainte supplémentaire au chercheur mais de formaliser au sein d'un document unique, prospectif, descriptif et évolutif, des informations auparavant dispersées et qui sont utiles au suivi du projet et à la bonne gestion des résultats obtenus.
  • A ce titre, ils doivent permettre la réutilisation future (selon des modalités à définir) des données produites au cours du processus de recherche.

Ressources pour le Plan de Gestion de Données