Atelier : comment optimiser votre veille
- Comprendre de quoi on parle
- S'abonner à des sites d'actualité, des blogs
- S'abonner à des requêtes de rechercheToggle Dropdown
- Conserver et indexer l'historique de ses recherches
- Faire de la veille avec Twitter
- Faire de la veille avec ResearchGate
- Filtrer et Agréger des flux RSS
- Avancé : créer un flux RSS quand il n'existe pas
- Evaluer la séance Ce lien ouvre dans une nouvelle fenêtre
- Introduction fluxToggle Dropdown
- Introduction inoreaderToggle Dropdown
Comment créer un flux qui n'existe pas ?
Faire de la veille sur ArXiv peut être très utile. Le problème c'est que vous chercherez en vain une icone signalant la présence d'un flux RSS sur la page d'accueil du site ou sur une page de résultat de recherche. Or c'est précisément ce dont nous avons besoin : à partir d'une page de résultats obtenue sur ArXiv suite à une requête, comment créer le flux RSS correspondant de telle sorte que nous soyons alertés chaque fois qu'une prépublication pertinente est déposée sur ce serveur.
Pour ce faire, nous allons utiliser l'outil Feed43, un outil un peu technique à utiliser mais robuste et qui a fait ses preuves depuis longtemps.
1. Tout d'abord, aller sur ArXiv (https://arxiv.org)
2. Faire une recherche sur le sujet de votre choix
3. Copier l'URL de la page de résultats
4. Ouvrir Feed43 (lien ci-dessous)
5. Dans le champ Step 1 de Feed43, coller l'URL qu'on vient de copier.
le code HTML de la page de résultats apparaît dans le champ Page Source
Il va falloir étudier un peu ce code pour repérer les éléments récurrents qui constituent les "noeuds" (éléments dynamiques de la page générés à la volée après l'interrogation du moteur de recherche.
Les éléments récurrents sont numérotés dans Arxiv et peuvent être reconnus facilement.
Voici la partie du code qui correspond au premier résultat :
<dd>
<div class="meta">
<div class="list-title mathjax">
<span class="descriptor">Title:</span> Web Robot Detection in Academic Publishing
</div>
<div class="list-authors">
<span class="descriptor">Authors:</span>
<a href="https://arxiv.org/find/cs/1/au:+Lagopoulos_A/0/1/0/all/0/1">Athanasios Lagopoulos</a>,
<a href="https://arxiv.org/find/cs/1/au:+Tsoumakas_G/0/1/0/all/0/1">Grigorios Tsoumakas</a>,
<a href="https://arxiv.org/find/cs/1/au:+Papadopoulos_G/0/1/0/all/0/1">Georgios Papadopoulos</a>
</div>
<div class="list-subjects">
<span class="descriptor">Subjects:</span> <span class="primary-subject">Artificial Intelligence (cs.AI)</span>; Digital Libraries (cs.DL)
</div>
</div>
</dd>
En rouge et bleu : les variables (rouge : texte, bleu : identifiants uniques dont URL)
Pour ne pas compliquer les choses, on va paramétrer le flux afin que chaque nouvel item soit présent dans notre agrégateur avec son URL et son titre. Nous ne nous occuperons pas des auteurs ni des mots clés.
Les structures dont nous avons besoin sont donc les suivantes :
...pour l'URL et un peu plus loin pour le titre
</div>
Dans le champ Item (repeatable) Search Pattern du Step 2, on va copier-coller ces deux extraits.
Comme il y a du code entre ces deux extraits, on va les joindre par une forme de copule : {*}
On va remplacer toutes les variables par des pourcentages entre accolades : {%}
Cela donne donc :
Variables en rouge, copule en marron
Cliquer sur extract
On obtient dessous dans le champ "clipped data" le code suivant :
{%1} = https://arxiv.org/abs/1711.05098
{%2} = arXiv:1711.05098
{%3} = https://arxiv.org/pdf/1711.05098
{%4} = https://arxiv.org/format/1711.05098
{%5} = Web Robot Detection in Academic Publishing </div> <div class="list-authors"> <span class="descriptor">Authors:</span> <a href="https://arxiv.org/find/cs/1/au:+Lagopoulos_A/0/1/0/all/0/1">Athanasios Lagopoulos</a>, <a href="https://arxiv.org/find/cs/1/au:+Tsoumakas_G/0/1/0/all/0/1">Grigorios Tsoumakas</a>, <a href="https://arxiv.org/find/cs/1/au:+Papadopoulos_G/0/1/0/all/0/1">Georgios Papadopoulos</a> </div> <div class="list-subjects"> <span class="descriptor">Subjects:</span> <span class="primary-subject">Artificial Intelligence (cs.AI)</span>; Digital Libraries (cs.DL) </div> </div> </dd> <dt>2.
derrière l'étiquette 5, on peut améliorer les choses en ne prenant que le titre et en bornant le titre par un tag </div>
Cela donne :
Le rôle de la deuxième copule ({*}) ne sert qu'à éluder le code relatif au MathAjax entre les deux balises <div> et qui passe mal ici.
On obtient dorénavant le résultat suivant :
{%1} = https://arxiv.org/abs/1711.05098
{%2} = arXiv:1711.05098
{%3} = https://arxiv.org/pdf/1711.05098
{%4} = https://arxiv.org/format/1711.05098
{%5} = Web Robot Detection in Academic Publishing
Le Step 3 nous invite à définir les attribuer des champs par rapport à ces étiquettes.
En l'occurrence, ici, on va attribuer au champ Titre l'étiquette {%5} et au champ Link {%1}. Le champ contenu servirait à intégrer une description de l'item ou un résumé, mais il n'y en a pas sur une page de résultats d'ArXiv
On peut nommer à sa guise le flux que l'on vient de construire qui est par défaut Arxiv search, par exemple en y ajoutant les termes de sa requête (dans l'exemple ci-dessous privacy et libraries)
En cliquant sur preview, on obtient à la fois une prévisualisation du lien qu'on souhaite construire et en même temps son URL :
Il n'y a plus dès lors qu'à intégrer cet URL à son agrégateur.
On peut se créer un compte pour conserver le flux RSS qu'on vient de forger également sur Feed43
Et maintenant, un petit exercice pour pratiquer...
Comme on l'a vu précédemment, la base de brevets européenne, Espacenet, met à disposition des flux RSS pour chaque requête faite à partir de son moteur de recherche. Curieusement, l'office américain des brevets, l'USPTO, ne permet pas de disposer de cette facilité.
Comment créer un flux RSS à partir de cette requête en utilisant Feed43 ?
- Dernière mise à jour: Jan 23, 2020 5:10 PM
- URL: https://formadoct.doctorat-bretagneloire.fr/atelier_veille
- Imprimer la page