Les données de la recherche: Introduction
Lexique
- Archivage pérenne a pour but de permettre la conservation à long terme de l’information numérique, et en particulier de s’affranchir de l’obsolescence des supports physiques et de leurs défauts, ainsi que de l’évolution constante des formats et standards logiciels. (CINES, 2014)
- Archive disciplinaire Une archive disciplinaire est un répertoire partagé et ouvert où sont déposés des articles ayant une cohérence thématique (exemple HAL-SHS est le portail HAL pour les Sciences Humaines et sociales)
- Archive institutionnelle Une archive institutionnelle (ou locale) est un répertoire mis en place par une institution de recherche (université ou grande école) pour collecter, conserver et diffuser la production scientifique de ses chercheurs. (exemple d'archive institutionnelle : ORBI à l'université de Liège
- Archive ouverte / Open archive Réservoir d'information (souvent articles de chercheurs) en libre accès, dont le développement est fortement lié au mouvement en faveur de l'ouverture à tous des publications scientifiques.
- Big data (mégadonnées) Littéralement « grosses données » ou mégadonnées, parfois appelées données massives, désignent des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de gestion de l'information (Wikipédia).
- Communs de la science Les communs de la science relèvent d'un mouvement bien plus étendu que le strict domaine de l'open access. Les communs reposent sur des ressources matérielles ou immatérielles qui sont dotées d'un système de gouvernance qui en définit les règles d'usage. Ce système de gouvernance est sous-tendu par le principe des biens rivaux et non excluables, c'est-à-dire que les biens scientifiques sont toujours disponibles et que toute la communauté peut en profiter. Dans le domaine scientifique, les données de la recherche constituent une ressource et les licences d'utilisation (i.e. Creative Commons) les règles d'usage. Attention, il existe des faux-amis et des idées reçues : Les biens communs ne sont pas des biens publics. Les biens communs ne sont pas le domaine public. Les biens communs ne sont pas le bien commun. Les biens communs ne s'opposent pas à l'existence du marché et/ou de la puissance publique. Les biens communs sont compatibles avec une activité marchande.
- Données de la recherche « Enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. » (Principes et lignes directives de l'OCDE pour l'accès aux données de la recherche financée sur fonds publics”)
- Fouille de données a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Elle utilise un ensemble d'algorithmes pour construire des modèles à partir des données et d'en extraire un maximum de connaissances utiles. (Wikipédia)
- Infrastructures de recherche Les infrastructures de recherche sont des instruments de recherche dont l'usage est ouvert à divers organismes de recherche. Ces infrastructures sont au service des équipes de recherche qui y trouvent les outils nécessaires à leurs travaux, et également l'expertise scientifique et technique susceptible de donner une visibilité certaine à leurs résultats.
- Interopérabilité Capacité pour deux systèmes informatiques différents de fonctionner ensemble sans dépendre des logiciels. Elle repose sur l’adoption de standards et de normes univoques pour l’échange des données.
- Jeu de données (dataset) « Agrégation (...) de données brutes ou dérivées présentant une certaine "unité", rassemblées pour former un ensemble cohérent » De l'open data à l'open research data : quelle(s) politiques(s) pour les données de la recherche (Gaillard R., 2014)
- Open data (données ouvertes) Données numériques d'origine publique ou privée. Elles sont diffusées de manière structurée selon une méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. (Wikipédia)
- Plan de gestion des données Il doit décrire les données recueillies et produites, la documentation décrivant ces données, les méthodes de sauvegarde, les politiques d’accès, de partage et de réutilisation, les méthodes de conservation à long terme ainsi que le responsable de chacun des aspects. (Guide de gestion des données, Université de Montréal).
- Web de données Initiative du W3C (Consortium World Wide Web) visant à favoriser la publication de données structurées sur le Web, non pas sous la forme de silos de données isolés les uns des autres, mais en les reliant entre elles pour constituer un réseau global d'informations. Cela permet d'interroger automatiquement les données, quels que soient leurs lieux de stockage, et sans avoir à les dupliquer. (Wikipédia)
Thème du guide
Voir aussi
Pour citer ce guide
Serres, Alexandre, Vignale, François. "Les données de la recherche". In UBL (Université Européenne de Bretagne). Formadoct. Rennes : UBL, janvier 2016. Disp. sur : http://guides-formadoct.u-bretagneloire.fr/donnees_recherche
Qu'est-ce qu'une donnée ?
Selon l’OCDE, les données scientifiques (ou données de la recherche, research data) sont "des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique" . Photographies, images satellitaires, schémas ou dessins, relevés météorologiques, enregistrements sonores... en font par exemple partie.
Une donnée est ainsi une "description élémentaire d'une réalité". L'informaticien Serge Abiteboul donne un exemple simple de distinction entre donnée, information et connaissance : "Des mesures de température relevées chaque jour dans une station météo, ce sont des données. Une courbe donnant l’évolution dans le temps de la température moyenne dans un lieu, c’est une information. Le fait que la température sur Terre augmente en fonction de l’activité humaine, c’est une connaissance."
Une donnée est donc n'importe quel élément, n'importe quel enregistrement, prélevé ou construit, permettant de décrire n'importe quelle réalité : une mesure, un indice, un prélèvement, un chiffre, une lettre, une photo.... En soi, une donnée seule n'a aucune signification, elle ne prendra sens qu'avec le croisement, l'articulation avec d'autres données, ce qui donnera lieu à une information porteuse de sens. Les données peuvent être numériques ou non.
Qu'entend-on par données de la recherche ?
Les données de la recherche peuvent être définies comme "des enregistrements factuels (chiffres, textes, images, sons) utilisés comme source principales pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche » (OCDE, 2007).
Plusieurs dimensions structurent les données de la recherche :
- l'enregistrement : ce sont des enregistrements factuels de la réalité, i.e. des données au sens classique du terme ;
- la source : ces enregistrements représentent le matériau, la source principale de l'activité de recherche scientifique ; il faudrait nuancer ici cette dimension pour les SHS ;
- la validation : les données de la recherche servent à la validation des résultats de la recherche ;
- la communicabilité : les données de la recherche doivent pouvoir être diffusées au sein de la communauté scientifique ;
- le traitement : les données doivent être adaptées à un traitement (souvent informatisé) pour pouvoir être exploitées.
Qu'est-ce qui ne relève pas des données de la recherche ?
Selon l'OCDE, les données de la recherche ne recouvrent pas un certain nombre de produits issus pourtant de la recherche, parmi lesquels : les carnets de laboratoire, les analyses préliminaires et les projets de documents scientifiques, les programmes de travaux futurs, les examens par les pairs, les communications personnelles avec des collègues (sous forme de mails, de forums par exemple), les objets matériels - par exemple, les échantillons de laboratoire, les souches bactériennes et les animaux de laboratoire tels que les souris, les publications scientifiques proprement.dites, les supports de formation, les données administratives, dès lors qu'elles ne sont pas intégrées dans un corpus de recherche...
La publication des données
Schéma adapté de Report on integration of data and publications. Opportunities for Data Exchange (Reilly S. et al., 2011)