Aller au contenu principal

Elaborer une stratégie de recherche d'information: Les limitations

Attitudes et gestes simples mais efficaces d'un documentaliste pour faire un état de l’art sur un sujet

Métadonnées et limitations possibles

Ci-contre : exemples de tris et perspectives proposés après une requête dans la base de presse Factiva.

Chaque catégorie correspond à une métadonnée, soit ici : un type de sujet, un nom de source, une date.

Les documents ont aussi :

  • Un titre
  • un auteur
  • Un résumé
  • Un texte
  • + diverses autres métadonnées : sujets, langues, code APE, rubrique de presse, etc.

Chaque métadonnée ajoutée à un document ajoute une possibilité de tri et de limitation et offre une perspective supplémentaire sur la base et sur le sujet exploré.

Autres exemples de tris possibles

  • La recherche de <Université de Brest ou Université de Bretagne Occidentale> dans le champ adresse (Corporate author pour la base Pascal) affichera les documents dont les auteurs ont donné cette adresse (d'où l'importance de la signature d'un document : nom + institution de référence).
  • La recherche de <Brest> dans le champ Conference Information de la base Pascal n'affichera que les congrès tenus à Brest (éventuellement portant sur Brest).
  • Une recherche sur le SUDOC limitée au type de document "thèses" et au filtre de localisation "SCD de Brest" ne ramènera que les thèses soutenues à l'Université de Brest.
  • La recherche de "Bill Clinton" dans le champ "sujet" n'affichera que les livres écrits sur Bill Clinton. Pour afficher les livres écrits par Bill Clinton, il faudra utiliser le champ "auteur".

Comment limiter le bruit sur Google ?

Google opère sur du texte intégral. Tous (ou presque) les mots sont des points d'entrées. Son index contient des milliards de pages totalement hétérogènes et ces pages ne font l'objet d'aucun processus éditorial standardisé.

Le critère de sélection massif de Google pour les classer reste leur notoriété. Elle est proportionnelle au nombre de liens qui pointent sur ces pages.

C'est un critère parfois opérationnel, parfois insuffisant, parfois pénalisant surtout pour les requêtes qui donnent plus d'un millier de résultats (la plupart des requêtes). 

Pour limiter ce bruit il faut utiliser les champs communs à toutes les pages web et exploitables par Google (recherche avancée) :

  1. Le titre des pages : quelles sont les pages dont le titre contient tel(s) mot(s) ?
  2. L'url : quelles sont les pages dont l'url contient tel(s) mot(s) ?
  3. Le nom de serveur (ex. : http://www.univ-brest.fr/) : quelles sont les pages publiés sur ce serveur qui contiennent tel(s) mot(s) ?
  4. Le nom de domaine (.fr, .org, .ca etc.).
  5. Les ancres (mots clicables reliés par un lien à une autre page).
  6. Les liens : quelles sont les pages qui pointent sur telle page ?

Il faut également entrer plusieurs mots et bien les choisir en préférant les termes discriminants (rares et/ou précis) aux termes communs et génériques.

Exemple : Une requête sur google avec le terme « socio-technique » renvoie directement aux travaux du Centre de sociologie de l’innovation de l’Ecole des Mines de Paris. C’est un excellent terme pour repérer - en une seule requête - une partie de leurs travaux, ou des travaux de ceux qui s’y réfèrent.

Utiliser le chaînage des caractères : "-"

En enserrant une suite de mots entre des guillements, vous demandez à Google de considérer ces mots comme une expression.