Aller au contenu principal

Atelier : comment optimiser votre veille

Cet atelier est proposé aux étudiants en Master 2 ou en Doctorat.

Comment créer un flux qui n'existe pas ?

Faire de la veille sur ArXiv peut être très utile. Le problème c'est que vous chercherez en vain une icone signalant la présence d'un flux RSS sur la page d'accueil du site ou sur une page de résultat de recherche. Or c'est précisément ce dont nous avons besoin : à partir d'une page de résultats obtenue sur ArXiv suite à une requête, comment créer le flux RSS correspondant de telle sorte que nous soyons alertés chaque fois qu'une prépublication pertinente est déposée sur ce serveur.

Pour ce faire, nous allons utiliser l'outil Feed43, un outil un peu technique à utiliser mais robuste et qui a fait ses preuves depuis longtemps.

1. Tout d'abord, aller sur ArXiv (https://arxiv.org)

2. Faire une recherche sur le sujet de votre choix

3. Copier l'URL de la page de résultats

4. Ouvrir Feed43 (lien ci-dessous)

5. Dans le champ Step 1 de Feed43, coller l'URL qu'on vient de copier.

le code HTML de la page de résultats apparaît dans le champ Page Source

Il va falloir étudier un peu ce code pour repérer les éléments récurrents qui constituent les "noeuds" (éléments dynamiques de la page générés à la volée après l'interrogation du moteur de recherche.

Les éléments récurrents sont numérotés dans Arxiv et peuvent être reconnus facilement.

Voici la partie du code qui correspond au premier résultat :

 

<dt>1. <span class="list-identifier"><a href="https://arxiv.org/abs/1711.05098" title="Abstract">arXiv:1711.05098</a> [<a href="https://arxiv.org/pdf/1711.05098" title="Download PDF">pdf</a>, <a href="https://arxiv.org/format/1711.05098" title="Other formats">other</a>]</span></dt>
<dd>
<div class="meta">
<div class="list-title mathjax">
<span class="descriptor">Title:</span> Web Robot Detection in Academic Publishing
</div>
<div class="list-authors">
<span class="descriptor">Authors:</span>
<a href="https://arxiv.org/find/cs/1/au:+Lagopoulos_A/0/1/0/all/0/1">Athanasios Lagopoulos</a>,
<a href="https://arxiv.org/find/cs/1/au:+Tsoumakas_G/0/1/0/all/0/1">Grigorios Tsoumakas</a>,
<a href="https://arxiv.org/find/cs/1/au:+Papadopoulos_G/0/1/0/all/0/1">Georgios Papadopoulos</a>
</div>
<div class="list-subjects">
<span class="descriptor">Subjects:</span> <span class="primary-subject">Artificial Intelligence (cs.AI)</span>; Digital Libraries (cs.DL)

</div>
</div>
</dd>

En rouge et bleu : les variables (rouge : texte, bleu : identifiants uniques dont URL)

Pour ne pas compliquer les choses, on va paramétrer le flux afin que chaque nouvel item soit présent dans notre agrégateur avec son URL et son titre. Nous ne nous occuperons pas des auteurs ni des mots clés.

Les structures dont nous avons besoin sont donc les suivantes :

<span class="list-identifier"><a href="https://arxiv.org/abs/1711.05098" title="Abstract">arXiv:1711.05098</a> [<a href="https://arxiv.org/pdf/1711.05098" title="Download PDF">pdf</a>, <a href="https://arxiv.org/format/1711.05098" title="Other formats">other</a>]</span>

...pour l'URL et un peu plus loin pour le titre

<span class="descriptor">Title:</span> Web Robot Detection in Academic Publishing
</div>

Dans le champ Item (repeatable) Search Pattern du Step 2, on va copier-coller ces deux extraits.

Comme il y a du code entre ces deux extraits, on va les joindre par une forme de copule : {*}

On va remplacer toutes les variables par des pourcentages entre accolades : {%}

Cela donne donc :

<span class="list-identifier"><a href="{%}" title="Abstract">{%}</a> [<a href="{%}" title="Download PDF">pdf</a>, <a href="{%}" title="Other formats">other</a>]</span>{*}<div class="meta"><span class="descriptor">Title:</span>{%}

Variables en rouge, copule en marron

Cliquer sur extract

On obtient dessous dans le champ "clipped data" le code suivant :

{%1} = https://arxiv.org/abs/1711.05098
{%2} = arXiv:1711.05098
{%3} = https://arxiv.org/pdf/1711.05098
{%4} = https://arxiv.org/format/1711.05098

{%5} = Web Robot Detection in Academic Publishing </div> <div class="list-authors"> <span class="descriptor">Authors:</span> <a href="https://arxiv.org/find/cs/1/au:+Lagopoulos_A/0/1/0/all/0/1">Athanasios Lagopoulos</a>, <a href="https://arxiv.org/find/cs/1/au:+Tsoumakas_G/0/1/0/all/0/1">Grigorios Tsoumakas</a>, <a href="https://arxiv.org/find/cs/1/au:+Papadopoulos_G/0/1/0/all/0/1">Georgios Papadopoulos</a> </div> <div class="list-subjects"> <span class="descriptor">Subjects:</span> <span class="primary-subject">Artificial Intelligence (cs.AI)</span>; Digital Libraries (cs.DL) </div> </div> </dd> <dt>2.

derrière l'étiquette 5, on peut améliorer les choses en ne prenant que le titre et en bornant le titre par un tag </div>

Cela donne :

<span class="list-identifier"><a href="{%}" title="Abstract">{%}</a> [<a href="{%}" title="Download PDF">pdf</a>, <a href="{%}" title="Other formats">other</a>]</span>{*}<div{*}<span class="descriptor">Title:</span>{%}</div>

Le rôle de la deuxième copule ({*}) ne sert qu'à éluder le code relatif au MathAjax entre les deux balises <div> et qui passe mal ici.

On obtient dorénavant le résultat suivant :

{%1} = https://arxiv.org/abs/1711.05098
{%2} = arXiv:1711.05098
{%3} = https://arxiv.org/pdf/1711.05098
{%4} = https://arxiv.org/format/1711.05098
{%5} = Web Robot Detection in Academic Publishing

Le Step 3 nous invite à définir les attribuer des champs par rapport à ces étiquettes.

En l'occurrence, ici, on va attribuer au champ Titre l'étiquette {%5} et au champ Link {%1}. Le champ contenu servirait à intégrer une description de l'item ou un résumé, mais il n'y en a pas sur une page de résultats d'ArXiv

On peut nommer à sa guise le flux que l'on vient de construire qui est par défaut Arxiv search, par exemple en y ajoutant les termes de sa requête (dans l'exemple ci-dessous privacy et libraries)

En cliquant sur preview, on obtient à la fois une prévisualisation du lien qu'on souhaite construire et en même temps son URL :

Il n'y a plus dès lors qu'à intégrer cet URL à son agrégateur.

On peut se créer un compte  pour conserver le flux RSS qu'on vient de forger également sur Feed43

Et maintenant, un petit exercice pour pratiquer...

Comme on l'a vu précédemment, la base de brevets européenne, Espacenet, met à disposition des flux RSS pour chaque requête faite à partir de son moteur de recherche. Curieusement, l'office américain des brevets, l'USPTO, ne permet pas de disposer de cette facilité.

Soit une recherche que l'on fait sur les brevets qui proposent de nouveaux systèmes d'authentification à destination des fournisseurs de services web réalisée sur le site de l'USPTO

Comment créer un flux RSS à partir de cette requête en utilisant Feed43 ?