Les data papers: Introduction
Lexique : les datapapers
- APC (Article Processing Charges) Les APC (Article Processing Charges) sont les frais qu'une institution (laboratoire, agence de financement de la recherche) paie à un éditeur afin que l'article soit publié en Open Access. Ces APC varient selon les revues et les éditeurs de quelques centaines à quelques milliers de dollars par article. Leur mode de calcul est extrêmement opaque et ils sont improprement appelés "processing charges", car la plupart du temps les réels frais de publication sont bien inférieurs au prix demandé.
- Données de recherche "enregistrements factuels (chiffres, textes, images, sons) utilisés comme source principale pour la recherche scientifique et généralement reconnus par la communauté scientifique comme nécessaires pour valider les résultats de la recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l'objet de la recherche." (OCDE, 2007) Cette définition exclut : "carnets de laboratoire, analyses préliminaires et projets de documents scientifiques, programmes de travaux futurs, examens pour les pairs, communications personnelles avec des collègues et objets matériels (par exemple, les échantillons de laboratoire, les souches bactériennes et les animaux de laboratoire tels que les souris.)
- DOI (Direct Object Identifier) Un DOI (Digital Object Identifier) permet d'identifier un document électronique (par exemple un article scientifique dans une base) de façon pérenne (contrairement à un URL). De plus en plus de références d'articles comportent outre les références habituelles un DOI (par exemple doi:10.1155/2012/280920 est assimilé à l'article Kent D. Choquette, Dominic F. Siriani, Ansas M. Kasten, et al., “Single Mode Photonic Crystal Vertical Cavity Surface Emitting Lasers,” Advances in Optical Technologies, vol. 2012, Article ID 280920, 8 pages, 2012.)
- Entrepôt de données Un entrepôt de données est un réservoir de données de recherche, brutes ou dérivées, qui peuvent être retrouvées et utilisées grâce à une description par des métadonnées. Un identifiant pérenne ou numéro d'accès est attribué à chaque jeu de données (d'après Aventurier P, 2013)
- Identifiant pérenne Un identifiant pérenne permet à coup sûr de retrouver une ressource (page web, document, jeu de données) sur le web et ce de manière pérenne, quelque soient les changements apportés à la description de cette ressource. L'URL est l'identifiant pérenne d'une page web. Pour l'article, le standard le plus répandu est le DOI (Direct Object Identifier). Pour un jeu de données, plusieurs identifiants sont possibles : DOI, PURL, ARK ou ePIC.
- Jeu de données (dataset) Peut être défini comme l'agrégation, sous une forme lisible, de données brutes ou dérivées présentant une certaine "unité", rassemblées pour former un ensemble cohérent (Gaillard R., 2014)
- Métadonnées descriptives de jeux de données Il existe plusieurs standards de description des jeux de données. Chaque revue propose le standard de son choix. Ces standards comportent en général une formalisation des métadonnées suivantes : Qui a créé les données ? Que contiennent-elles ? Où sont-elles (identifiant pérenne, notamment) ? Quand ont-elles été créées, Comment ont-elles été créées, Pourquoi ont-elles été créées ? Ces métadonnées doivent être interprétables par des machines.
- Révision par les pairs (Peer-reviewing) Processus de validation de l'information scientifique contenue dans l'article ou le jeu de données soumis à la revue. Ce processus est assuré par des chercheurs de la discipline, la plupart du temps de manière anonyme pour le soumissionnaire, et est conduit par l'éditeur de la revue.
- Templates (feuille de style proposé par l'éditeur) La plupart du temps, l'éditeur n'assume qu'une toute petite part de la mise en page. Celle-ci aujourd'hui est assurée par les auteurs qui soumettent l'article et se conforment à la feuille de style (template) qu'ils peuvent télécharger sur le site de la revue ou bien reçoivent de l'éditeur.
- Voie dorée (Gold Open Access) La voie dorée s’applique à la publication d’articles dans des revues en libre accès. Elle correspond à la deuxième stratégie recommandée dans l’Initiative de Budapest pour l’Accès Ouvert : « Revues alternatives : en second lieu, les savants ont besoin des moyens pour lancer une nouvelle génération de revues alternatives engagées dans le libre accès et pour aider les revues existantes qui choisissent d’opérer la transition vers l’accès libre. » (Source : site INISIST, Open Access)
Voir aussi
Pour citer ce guide
Belghit, Karim; Belvèze, Clémence. "Les data papers". In UBL (Université Bretagne Loire), Formadoct. Rennes : UBL, juin 2016. Disp. sur : https://guides-formadoct.u-bretagneloire.fr/datapapers
En route vers l'Open data
Wikipedia, article Data Analysis by Martin Grandjean (CC-By-Sa-3.0)
Le mouvement de partage des données scientifiques ou data sharing, (...) est une réponse au besoin d’échanger le plus rapidement possible les résultats obtenus et de surmonter les obstacles juridiques et techniques à la circulation de ces données.
Les politiques gouvernementales et européennes d’ouverture des données (open data) visent depuis quelques années à diffuser largement les données acquises grâce à des fonds publics.
Les enjeux éthiques du partage de données scientifiques : avis du COMETS (7 mai 2015)
Des individus, groupes et organisations se mobilisent pour réformer le processus de la communication scientifique et donner accès aux données utilisées par les chercheurs.
Quels outils existent aujourd'hui pour diffuser et valoriser ces informations brutes ?
-
les data papers et les data journals (depuis 2010)
-
les entrepôts de données
Définition et enjeux du data paper
Jusqu'à fin 2009, les données sur lesquelles s'appuyait une publication n'avait pas d'existence propre. Soit elles étaient mentionnées directement dans l'article, soit dans des fichiers joints à l'article. Cela rendait difficile toute autre exploitation des données.
Un data paper est une publication décrivant un ou plusieurs jeux de données scientifiques brutes.
Ce qu'il contient :
- des métadonnées et informations concernant les jeux de données (obtention, réutilisation,...)
- un accès aux données par des hyperliens pérennes. Ces données peuvent provenir d'entrepôts différents.
- une publication revue par les pairs
- une liste des nouvelles analyses sur le jeux de données
-
une description lisible et structurée des données pour un humain
Ce qu'il ne contient pas :
-
une interprétation des données
-
des conclusions sur l'analyse des données.
Quels sont les enjeux de ces publications ?
Il s'agit tout d'abord de stocker de manière pérenne les données : l'enregistrement sur un disque dur d'ordinateur ou sur un serveur de laboratoire n'est pas suffisant. Le risque est alors de perdre les données ou de ne plus pouvoir les lire si les outils changent.
Publier un data paper permet également de valoriser et faire connaître les jeux de données, ce qui en facilite la réutilisation. Le propriétaire des données bénéficie de la citation et est ainsi reconnu pour son travail de collecte.
La publication des données
Schéma adapté de Report on integration of data and publications. Opportunities for Data Exchange (Reilly S. et al., 2011)