Note sur la comparaison Web of Science - ACM Guide pour la couverture bibliométrique de l'informatique - Convention n 09 G 623 avec le ministère ...

 
Note sur la comparaison Web of Science - ACM Guide pour la couverture bibliométrique de l'informatique - Convention n 09 G 623 avec le ministère ...
Note sur la comparaison
      Web of Science - ACM Guide
    pour la couverture bibliométrique
             de l'informatique

Convention n° 09 G 623 avec le ministère de la Recherche
         et de l’Enseignement supérieur - DGRI

                    septembre 2010
Note préparée par Michel Zitt, Agénor Lahatte et Dominique Vallée
   avec l'aide de Marie-Laure Taillibert et d'Elise Bassecoulard

                               2
Sommaire
SOMMAIRE.........................................................................................................................................3

INTRODUCTION..................................................................................................................................4

CHAPITRE 1 - CONTEXTE.....................................................................................................................5
1.1. Bases de données en bibliométrie...............................................................................................5
1.2. Quelques études de la couverture de l'informatique ..................................................................6
1.3. La couverture des conférences et ses difficultés .........................................................................7

CHAPITRE 2 – ESSAI DE COMPARAISON DES COUVERTURES ACM-GUIDE ET WOS.............................9
2.1. Méthodologie..............................................................................................................................9
2.2. Couverture ................................................................................................................................11

CHAPITRE 3 - POSITION DE LA FRANCE.............................................................................................18
3.1. Résultats....................................................................................................................................18
3.2. Constat ......................................................................................................................................19

CONCLUSION....................................................................................................................................20

ANNEXE - EXPLORATION DE L'INTERFACE ACM/ ACM-GUIDE ET DIFFICULTÉS RENCONTRÉES .........22

                                                                         3
Introduction
L'existence de bases documentées, fiables et représentatives de l'activité scientifique conditionne la
qualité des indicateurs bibliométriques. La représentativité des bases de données bibliographiques
sur le champ STIC en général et l'informatique en particulier est un problème reconnu, lié
notamment au mode de production scientifique, où les communications de conférence jouent un
rôle essentiel. L'absence d'information pour certaines bases sur le principe de sélection des items et
les sources de citation prises en compte, contribue à la confusion. L'offre en matière de bases de
données est abondante. Les bases de référence multidisciplinaires comme le Web of Science (WoS)
sont les plus utilisées en bibliométrie mais leur couverture du domaine informatique est notoirement
discutable. Google Scholar, sur un modèle très différent, est parfois utilisé.

Il existe des bases spécialisées dont la plus connue est la base publiée par l’Association for Computing
Machinery, ACM, qui présente une couverture étendue des actes de conférence (proceedings). Lors
d'une étude précédente (OST, 2008), les chercheurs informaticiens associés au projet en tant
qu'experts avaient estimé que le manque de représentativité de la base WoS-SCI pour les actes de
conférence limitait la portée de l'analyse. Alors que WoS, Scopus et Google Scholar sont comparés
fréquemment dans la littérature spécialisée, y compris pour la couverture de l'informatique, le cas
d'ACM est moins bien traité. L'objectif de la présente étude est d'analyser les spécificités d'ACM par
rapport au WoS et leur degré de recouvrement, et la différence entre le volume de publications de la
France, relativement à la moyenne mondiale dans les deux bases. Enfin, depuis les études classiques
rappelées dans le texte, la couverture du WoS a largement évolué avec l'intégration de la base
parente CPCI (Conference Proceedings Citation Index) et les progrès de celle-ci, ce qui modifie
profondément la situation. Au passage, il s'agissait de tester la fonctionnalité et la commodité de
l'interface ACM pour des usages bibliométriques en ligne. L'interrogation s'est révélée très délicate,
et les résultats obtenus doivent être considérés comme de larges approximations, motivant une
Annexe consacrée aux difficultés rencontrées.

                                                   4
Chapitre 1 - Contexte
1.1. Bases de données en bibliométrie.
La bibliométrie est dépendante des bases de données bibliographiques, qui suivent des modèles
variés :

- modèle classique documentaire : typiquement avec plan de classement par article, indexation
manuelle ou supervisée article par article, thésaurus. Exemples de bases utilisables en informatique :
Inspec (physique), Pascal (multidisciplinaire). Citations en général absentes. Variantes : bibliothèques
numériques, dont ACM, très importantes pour la couverture des conférences en informatique.

- modèle Citation Index : le modèle est Thomson Reuters (ISI-SCI devenu WoS - Web of Science) avec
les caractéristiques remarquables : sélection de journaux et multidisciplinarité ; dépouillement quasi-
intégral des journaux ; présence des citations et rôle des citations dans la sélection ; saisie de toutes
les affiliations d'auteurs. Inconvénients : classification disciplinaire assez rudimentaire (liste de
journaux) ; pas de mots-clefs d'indexeurs, mais des substituts ; couverture discutable dans certains
domaines. Normalisation en progrès. Nouveau venu sur ce modèle, Scopus, avec une couverture plus
large et des principes moins clairs.

- bases mutualisées : ex. archives ouvertes (type HAL) sur le modèle base de "preprints" de ArXiv
(Greensparg). Ces bases se développent, leur couverture est très variable.

- modèles web : moteurs dont le prototype est Cite-Seer (aujourd'hui CiteSeerx en version
expérimentale) avec intégration des liens de citations. Un acteur clé est désormais Google avec
Google-Scholar. Ces bases ont souvent une couverture très large mais hétérogène, avec un niveau de
normalisation faible (unification - désambiguïsation des noms, dédoublonnage, etc.).

Les problèmes de couverture sont moins simples qu'il y paraît. Les Citation Indexes par exemple
mettent en jeu non seulement l'ensemble des items interrogeables (ensemble citable), mais aussi
l'ensemble des sources de citation qui n'est pas forcément identique. Enfin, l'exhaustivité - utile pour
des raisons documentaires - n'est pas indispensable, ni souvent souhaitable, dans les applications
bibliométriques. La base SCI, noyau historique du WoS, fut crée par E. Garfield sur la base d'une
sélection assumée des journaux scientifiques, conformément au principe d'économie (lois de Zipf et
de Bradford). Le WoS, critiqué pour ses défauts disciplinaires de couverture, comporte déjà un
mélange de populations, par exemple journaux internationaux et, dans la queue de distribution,
orientées nationalement (Zitt, Ramanana, & Bassecoulard, 2003). Les bases (type Google et Google
Scholar) sont encore plus hétérogènes, mêlant les sources académiques et non académiques.
Prenant acte de la demande sur ce type de littérature, Scopus a fait très tôt un effort d'indexation
des actes de conférence. Sous cette pression, Thomson Reuters a entrepris récemment d'intégrer la
base latérale CPCI, consacrée aux actes de conférence, à la base globale WoS.

                                                   5
1.2. Quelques études de la couverture de l'informatique
Un rapport pour la commission d'évaluation de l'INRIA résume le sentiment de nombreux
scientifiques quand à la couverture des bases. "Pour ce qui concerne les domaines scientifiques
traités par l'INRIA il a été constaté une très mauvaise couverture des sources de citation usuelles
(Web of Science, Scopus), pouvant aller jusqu'à l'absurde. Par voie de conséquence les indicateurs
construits sur ces sources donnent une information erronée sur le fonctionnement de l'Institut. Une
action auprès des sources pourrait éventuellement apporter des améliorations sur l'attribution de
citations à l'INRIA mais ne changerait rien au fait que les sources restent insuffisantes pour ce qui
concerne l'informatique et les mathématiques appliquées" (Kermarrec, Faou, Merlet, Robert, &
Segoufin, 2007). Lors d'une précédente étude OST sur base WoS, les experts avaient également
déploré des défauts de couverture. L'élargissement du WoS du côté des actes de conférence, et la
concurrence sur ce point avec Scopus, bien que ne résolvant qu'une partie des problèmes, font
évoluer les choses.

Que nous disent les évaluations comparatives des bases pour le domaine informatique ? Compte
tenu des évolutions rapides de l'offre, nous nous limiterons à des données relativement récentes.

Moed et Visser (2007) dans une étude test sur l'informatique aux Pays-Bas, prenant acte de
l'insuffisance du WoS à cette époque, entreprennent de compléter la couverture par les conférences
à partir :
- des Lecture Notes in Computer Science (LNCS), mal couvertes par Thomson jusqu'en 2003 en
particulier,
- des conférences de l'Association for Computing Machinery (ACM), actes de conférence de plus de
200 conférences régulières couvertes par ACM Digital Library,
- des conférences de la Computer Society of the Institute of Electrical and Electronics Engineers
(IEEE).
Cette étude a vraisemblablement incité les producteurs des bases WoS et de Scopus, ce dernier de
création alors récente (2004), à inclure des cycles majeurs des actes de conférence.

Kermarrec et al. (op. cit. 2007), dans le cadre d'une étude plus large sur l'usage des indicateurs
bibliométriques pour les besoins d'évaluation dans le secteur, se sont penchés sur la couverture
comparée du WoS, de Scopus et de Google Scholar. La comparaison des chiffres de publication et de
citation de 4 chercheurs Inria montre des écarts considérables entre les trois sources :
- WoS vs. GS : chiffres allant de 1 à 4 dans le meilleur des cas, de 1 à 10 dans le pire,
- Scopus vs. GS : chiffres allant de 1 à 3 dans le meilleur des cas, de 1 à 30 dans le pire ; en moyenne
Scopus s'en tire mieux que le WoS.

Meho & Rogers (2008) se sont penchés sur un sous-domaine de l'informatique, les
interactions/interfaces homme-machine. Ils ont comparé les résultats individuels de 22 chercheurs
éminents (compte et rang de citation, h-index) engagés dans le programme britannique EQUATOR, et
conclu à une meilleure couverture de Scopus, qu'ils attribuent à une prise en compte plus complète
des conférences ACM et IEEE (les données sur les journaux sont comparables). Cette différence
n'altère que dans une faible mesure les données propres aux chercheurs d'excellence.

                                                   6
Bar-Ilan (2008), dans son étude des h-index de scientifiques israéliens à partir de trois bases de
données WoS, de Scopus et de Google Scholar (GS), montre que les écarts au profit de GS se
concentrent dans le secteur de l'informatique et des mathématiques. L'auteur explique ce constat
par la faible couverture des actes de conférence à l'époque par le WoS, en comparaison de Scopus et
surtout de GS, qui couvre également des rapports techniques.

Ces différentes études concluaient ainsi à une faible représentativité du WoS pour le domaine. Elles
sont antérieures aux effets du changement de stratégie de Thomson Reuters dans la couverture des
actes de conférence et l'intégration de la base correspondante (CPCI) au WoS. Ce producteur a
renforcé la couverture des journaux scientifiques dédiés aux actes de conférence et des actes de
conférence publiés en séries ou sous forme d'ouvrage - par exemple pour des conférences isolées.
Cette section de la base est encore instable et n'a pas été prise en compte pour tous les décomptes
effectués.

Il existe actuellement une forte concurrence entre Thomson Reuters et Elsevier Scopus pour
satisfaire la clientèle des universités, des institutions de recherche et les services gouvernementaux.
Dans Google Scholar, la qualité des données est critiquée (voir notamment les études de l'Université
d'Hawai, dont Jacso, 2005) : problèmes d'unification-dédoublonnage et de qualification des sources,
fonctionnalités bibliométriques inexistantes à compenser par l'emploi d'outils comme "Publish or
Perish" de Harzing, questions de stabilité/ reproductivité. La couverture est très large mais
hétérogène et mal renseignée.

1.3. La couverture des conférences et ses difficultés
Les communications en conférences peuvent être publiées
- dans des numéros spéciaux de périodiques scientifiques ordinaires, que la société savante éditrice
soit aussi l'organisatrice des conférences ou non.
- dans des actes avec numéro ISSN, notamment sous forme de séries. Des conférences différentes
peuvent être éditées sous un seul ISSN, notamment celui des Lecture Notes in Computer Science,
tout en conservant individuellement un ISBN.
- dans des actes isolés, ouvrages qui sont repérés en général par accord avec les sociétés éditrices, et
pour lesquels il leur est plus difficile de valider le contenu. Il n'y a pas de correspondance entre ces
conférences isolées et les "books" de CPCI, qui comportent aussi des cycles de conférences.

L'essentiel est publié sous forme de papiers en texte intégral, il existe aussi des "résumés" ("meeting
abstracts") qui ne sont pas répertoriés dans certaines bases (Scopus) ou sont parfois repérés mais
pas considérés comme "citables" (WoS).

Scopus (Scopus Content Coverage Guide, version 2010) a entrepris dès sa création de couvrir
sélectivement les actes de conférence, dans les disciplines que ce producteur juge les plus
concernées par ce mode de production : informatique et sciences de l'information (63 % en actes de
conférence), engineering (45 %), quelques domaines de la physique - pour ce qui concerne les
sciences dures. Environ 10 % des publications traitées par Scopus sont des communications de
conférence.

Thomson Reuters (White Paper Conference Proceedings and their impact on global research, 2008)
dispose d'une base dédiée aux actes de conférence, CPCI (Conference Proceedings Citation Index),
qui a été considérablement renforcée récemment face à la concurrence de Scopus, et est désormais
totalement intégrables pour les utilisateurs du WoS à la fois en termes d'items et de sources de

                                                   7
citations. Cette base CPCI, en recouvrement partiel avec les autres bases du WoS (pour les actes de
conférence apparaissant dans des journaux dédiés ou des numéros spéciaux de journaux d'articles),
comporte aussi des "series" (conférences en série) et des conférences publiées sous forme
d'ouvrage. CPCI est incrémenté de 400 000 actes de conférence chaque année (110 000 conférences
couvertes depuis 1990). Les références et citations sont présentes depuis 1999. Thomson-Reuters,
qui couvre LNCS (Lecture Notes in Computer Science) de manière extensive depuis plusieurs années
(LNCS regroupe sous un même ISSN de nombreuses conférences importantes, qui conservent leur
ISBN) et propose également de nombreuses publications et conférences IEEE, étend sa couverture à
d'autres sources.

ACM (Association for Computing Machinery) est la société savante la plus connue en informatique, à
côté d'IEEE au spectre plus large (originellement électricité-électronique) mais également très
présente en informatique et sciences de l'information. ACM dispose d'une base de données connue
pour sa couverture des conférences, qui existe en deux versions, l'une restreinte, ACM-DL (Digital
Library) et l'autre plus large, ACM-Guide (situation septembre 2010). La première version est trop
étroite pour être utilisable dans les études générales du domaine informatique. ACM-Guide dispose
d'une couverture plus large. Les opinions des informaticiens professionnels quand à la
représentativité d'ACM sont très contrastées.

                                                8
Chapitre 2 – Essai de comparaison des couvertures ACM-
Guide et WoS
2.1. Méthodologie
Les ressources utilisées pour cette étude sont :

    - l'interface WEB (accessible à partir de http://portal.acm.org/guide.cfm?coll=portal&dl=GUIDE) pour
    la base ACM/Guide (nous ignorons la fréquence de la mise à jour de la base et si ces mises à jour
    concernent des années antérieures).

    - la base de données WoS que l'OST achète tous les ans à Thomson Reuters. Cette version peut
    être légèrement différente de la base en ligne, Thomson Reuters effectuant des mises à jour
    régulièrement y compris pour des années passées. Pour le calcul de ses indicateurs standard,
    l'OST applique des filtres qui ne sont pas utilisés dans la présente étude.

La typologie des publications ne suit pas la même logique dans le WoS et dans ACM/Guide. En
particulier, les données du WoS exploitées par l'OST proviennent, entre autres, des deux produits
Conference Proceedings Citation Index (appelé CPCI ou CPCI-Proceedings par la suite) et Science Citation
Index Expanded (appelé SCI par la suite). Ces deux produits sont partiellement recouvrants en termes
de publications. Il existe des titres dans SCI qui sont des périodiques, ou des numéros spéciaux de
périodiques, consacrés aux comptes-rendus de communication en conférence - par exemple des
sociétés savantes en informatique.

A l'intérieur de chacun des produits, Thomson Reuters définit trois types de publication : Journal/
Series/Book (les publications de SCI n'ayant jamais le type 'Book'). Les "series" correspondent en
principe aux cycles réguliers de conférences, les "Books" plutôt à des conférences isolées. A la date
de rédaction de ce rapport, l'OST dispose des données pour le produit CPCI-Proceedings depuis
l'année de publication 2006 et les données pour le produit SCI depuis 1999. Dans ses produits
standard, l'OST ne retient de la base CPCI-Proceedings que les données de type "Journal" ou "Serie"
en raisons des doutes, en l'état actuel de la base, sur la sélection des "Books" et les difficultés
d'exploitation de la fourniture Thomson Reuters en la matière.

Il existe d'autre part dans le WoS une classification au niveau document, par type de document :
article, note, article de synthèse, et d'autres documents considérés comme peu citables, y compris
les éditoriaux ou les courtes notices "meeting abstracts". En principe (voir documentation Thomson
Reuters citée en bibliographie), les documents avec "type de document = actes de conférence" dans
SCI sont copiés dans CPCI. C'est une des sources du recouvrement entre SCI et CPCI.

Chaque publication du WoS est affectée à une ou plusieurs spécialités scientifiques (« subject
categories »), une assignation s'effectuant au niveau des journaux ou sections de journaux sauf pour
Nature, Science, PNAS, où l'assignation se fait en partie au niveau des articles individuels. Nous avons
retenu pour délimiter l'informatique la liste (mention "INFO" dans la suite du texte) des spécialités
scientifiques de la Table 1.

                                                   9
Nous définissons les ensembles de comparaison suivants :

    a) les deux bases dans leur totalité, avec filtre "informatique" pour le WoS :

            - ACM/Guide : nombre total de publications (types = Journal ou Proceeding ou Book)
            pour les années de publication [1999-2008]. Il n'y a pas de correspondance entre les
            "Books" d'ACM et ceux du WoS : les "Books" d'ACM sont essentiellement des ouvrages
            d'informatique, les "Books" de CPCI des actes de conférence publiés en volumes.

            - WoS : nombre total de publications affectées à au moins une des spécialités
            scientifiques de la liste INFO des deux produits SCI et CPCI (sans doublons) pour tous les
            types (Journal/Serie) et pour les années de publication [1999-2008]. Pour certaines
            tables, le décompte se fait avec et sans les "Books".

            La grille disciplinaire utilisée pour les publications WoS, dont les publications communes
            avec ACM, comprend les spécialités coeur de l'informatique ("computer science") et des
            domaines d'application plus périphériques, comme l'informatique médicale, l'imagerie,
            etc.

Table 1 - Liste des spécialités scientifiques WoS en informatique ("subject categories")

 Code de la
            Libellé
 spécialité
     AC       Automation & control systems
     EP       Computer science, artificial intelligence
     ER       Computer science, cybernetics
     ES       Computer science, hardware & architecture
     ET       Computer science, information systems
     EV       Computer science, interdisciplinary applications
    EW        Computer science, software engineering
     EX       Computer science, theory & methods
     PT       Medical informatics
     RB       Robotics
     RX       Neuroimaging
     SR       Remote sensing
     UE       Imaging science & photographic technology
     VY       Radiology, nuclear medicine & medical imaging
     YE       Telecommunications

    b) le sous-ensemble "Journal" dans les deux bases :

            - ACM/Guide : nombre total de publications (type = Journal) pour les années [1999-
            2008].

                                                   10
- WoS : nombre total de publications affectées à au moins une des spécialités
               scientifiques de la liste INFO du produit SCI (rappelons qu'il peut s'agir des types de
               publication Journal ou Serie) pour les années [1999-2008]. Le compte pour les
               publications figurant uniquement dans une seule des bases SCI et CPCI, sera également
               indiqué.

     c) le sous-ensemble des "Journaux communs" aux deux bases :

     Une liste de noms à partir des "PublicationTitle" de ACM/Guide et "Titre_journal" du WoS est
     établie et pour les titre appariés on considère le nombre de publications pour chacun de ces
     titres dans chacun des ensembles : ACM/Guide (Type:Journal) et WoS (années de publication
     [1999-2008]).

     d) le sous-ensemble "Actes de conférence"

               - ACM/Guide : nombre total de publications (type = Actes de conférence) pour les années
               de publication [2006-2008]. Rappelons que les "Books" d'ACM-Guide, contrairement à
               cette catégorie du WoS, sont des ouvrages d'informatique et sont exclus de l'étude.

               - WoS : on ne dispose au moment de l'étude que des données à partir de 2006. On
               considère le nombre total de publications affectées à au moins une des catégories de la
               liste Informatique ("INFO") du produit CPCI-Proceeding (types Journal/Serie) pour les
               années de publication [2006-2008], et, pour certaines analyses, l'ensemble
               Journal/Series/Books. Le compte pour les publications figurant une des bases (CPCI, SCI)
               et pas dans l'autre, est mentionné le cas échéant.

2.2. Couverture
     2.2.1. Les bases dans leur ensemble

Table 2 - Nombre de documents 1999-2008

                                                                      WoS - spécialités
           ACM/Guide                              ACM/Guide
                                                                     scientifiques INFO
                                                                     SCI et CPCI* sans
                                                                     doublons (union)
    Type de publication :                   Type de publication :
                                                                    Type de publication :
      journal/actes de                        journal/actes de
                                                                      journal/série***
   conférence/ouvrage**                          conférence
             716 563                                642 736               820 401

*CPCI seulement à partir de 2006 dans la base OST
** termes originaux dans la base : journal/proceedings/books
*** journal/series

                                                               11
La surface du WoS est globalement plus étendue, malgré :
- la non prise en compte des ouvrages. Comme indiqué plus haut, sa couverture de la catégorie
"Books" (actes de conférence publiés sous forme d'ouvrages isolés) n'est pas intégrée, car elle est
actuellement incomplète et irrégulière. Il n'est d'ailleurs pas assuré que ACM-Guide ait une
couverture mieux contrôlée de ce côté. En ajoutant le type Book, la couverture ACM croît de 11,5%
par rapport aux types Journal/ Actes de conférence.
- un dédoublonnage satisfaisant des notices dans le WoS, contrairement à ACM/Guide qui présente
de sérieux problèmes d'unification.

   2.2.2. Sous-ensemble "journal"

Table 3 - Comparaison pour les journaux (nombre de documents) 1999-2008

                                        WoS - spécialités WoS - spécialités WoS - spécialités
                      ACM/Guide
                                       scientifiques INFO scientifiques INFO scientifiques INFO
                                                                                 partie commune
                                               SCI             SCI hors CPCI
                                                                                     SCI -CPCI
                        Type de             Type de              Type de             Type de
                      publication :       publication :        publication :       publication :
                         journal          journal/série        journal/série       journal/série
Nombre de titres            698                2 677                2 368                309
Nombre d'items          270 211              685 221             590 247              94 974

Au moment de l'étude, ACM/Guide proposait (requête Bibtype: Periodical) une liste de 1097 titres de
« Journal » ou « Periodical ». Nous avons recherché le nombre de publications entre 1999 et 2008
dans chacun de ces 1097 journaux (« Observations sur l'utilisation bibliométrique d'ACM »).
ACM/Guide fournit le nombre de publication par journal dans cet intervalle de temps pour 698 titres.

Les tables SCI du WoS contiennent 2702 titre_journal (classés en INFO) dont 2 677 possèdent des
publications pour toute la période [1999-2008]. 2 368 de ces 2 677 titres appartiennent à SCI sans
appartenir à CPCI.

Le ratio des couvertures WoS/ACM, en l'occurrence imputable à SCI proprement dit puisque CPCI
n'ajoute pas de journaux, est environ 2,4. Cette supériorité était attendue en raison de la
spécialisation d'ACM sur la littérature hors périodiques.

   2.2.3. Sous-ensemble "journaux communs"

a) globalement

Nous avons pu repérer 274 titres communs, nombre par défaut car la graphie des noms de journaux
n'est pas standardisée. Le nombre d'appariements est probablement sous-estimé.

                                                12
Table 4 - Nombre de journaux communs (1999-2008)

La couverture des articles par journal dans ACM et WoS n'est pas identique, le WoS ayant une
couverture plus étendue de ce point de vue.

                                   journaux communs          % de la couverture      % de la couverture
                                    WoS INFO - ACM                  ACM                     WoS

Nombre de titres                               274                 39,30 %                  10,20 %

Nombre d'articles dans ACM                154 014                  57,00 %

nombre d'articles dans WoS                172 983                                           25,20 %

Ces décomptes sont à interpréter avec prudence : il est délicat d'additionner les nombres d'articles
pour différents journaux, les doublons d'articles étant fréquents côté ACM1.

Une étude plus approfondie pourra faire surgir de nouvelles correspondances, en testant notamment
l'appariement au niveau des titres d'articles. La correspondance ACM SIGGRAPH Computer
Graphics/COMPUTER GRAPHICS-US a pu être détectée en effectuant une recherche sur titres
d'articles.

La correspondance entre nombre de documents contenus de part et d'autre, pour les journaux
appariés, est très variable. Si l'on établit un seuil de variation relative à 50 %, 60 % des journaux
appariés présentent une correspondance acceptable à ce seuil. Les 40 % peuvent présenter de
grandes différences dans un sens ou un autre2. Des titres apparaissent dans le WOS (avec des
catcodes INFO) avec un nombre de publications non négligeable (par exemple 'COMPUTER
METHODS IN APPLIED MECHANICS AND ENGINEERING') et sont absents de ACM/GUIDE entre 1999
et 2008.

Enfin, la détermination d'un périmètre opérationnel oblige à des choix. Par exemple, le journal
'ADVANCES IN APPLIED MATHEMATICS' apparaît à la fois dans ACM Guide et WoS, mais tous ses
articles (592) sont assignés dans le WoS au code de catégorie PN ('MATHEMATICS, APPLIED'). La
même remarque s'applique au journal 'APPLIED MATHEMATICS AND COMPUTATION'. On ne peut
naturellement retenir tout le code PN dans le périmètre de l'informatique.

    b) par catégorie WoS

La table ci-dessous fait apparaître un probable effet de couverture. Par rapport aux journaux INFO du
WoS, les journaux communs WoS-ACM sont proportionnellement mieux représentés dans les
disciplines coeur de l'informatique (catégories "computer science"), alors que la couverture de
l'ensemble du WoS, plus multidisciplinaire, s'étend à des domaines où l'informatique est présente

1
  Par exemple « A regulated transitive reduction (RTR) for longer memory race recording » est paru dans trois
journaux en octobre et novembre 2006 (SIGARCH Computer Architecture News, SIGOPS Operating Systems
Review, SIGPLAN Notices) et est probablement comptabilisé dans chacun de ces trois journaux dans
ACM/Guide. Il n'apparaît qu'une seule fois dans le WOS (dans ACM SIGPLAN Notices).
2
  Par exemple, les petits nombres obtenus dans ACM pour 'ADVANCES IN ARTIFICIAL INTELLIGENCE',
'ARTIFICIAL INTELLIGENCE IN MEDICINE', 'AUTOMATICA (JOURNAL OF IFAC)', 'BOUNDARY
VALUE PROBLEMS', 'COMPUTATIONAL INTELLIGENCE', comparativement au WOS mériteraient une
étude plus approfondie.

                                                      13
parmi d'autres techniques : domaine des télécommunications, automatique, et applications
médicales. Il serait sans doute intéressant de particulariser le périmètre coeur dans de futures
analyses.

Table 5 - Répartition disciplinaire des journaux WoS et des journaux communs WoS-ACM

                                                                                                                    nb de publis dans
   Code                                             nb de publis                    nb de publis
               Libellé de la spécialité                                                                                 journaux
   de la                                           dans journaux         pct**     dans journaux         pct**                                  pct**
               scientifique                                                                                             communs
 spécialité                                            WoS                          communs *
                                                                                                                    (appariement***)
               Automation & control
     AC                                                 47 284           5,40 %          8 831          3,70 %              3 448              2,30 %
               systems
               Computer science, artificial
     EP                                                 83 603           9,60 %         34 421         14,40 %            19 158               13,00 %
               intelligence
               Computer science,
     ER                                                 11 042           1,30 %          4 311          1,80 %              1 807              1,20 %
               cybernetics
               Computer science, hardware
     ES                                                 38 505           4,40 %         24 797         10,40 %            17 709               12,00 %
               & architecture
               Computer science,
     ET                                                 72 290           8,30 %         37 461         15,70 %            19 269               13,10 %
               information systems
               Computer science,
     EV                                                 78 750           9,10 %         27 971         11,70 %            19 948               13,50 %
               interdisciplinary appl.
               Computer science, software
    EW                                                  65 114           7,50 %         42 031         17,60 %            29 170               19,80 %
               engineering
               Computer science, theory
     EX                                               128 228          14,80 %          34 550         14,50 %            27 133               18,40 %
               & methods

     PT        Medical informatics                      17 801           2,00 %          2 066          0,90 %               448               0,30 %

     RB        Robotics                                 8 551            1,00 %          4 571          1,90 %              1 971              1,30 %

     RX        Neuroimaging                             20 500           2,40 %              0          0,00 %                  0              0,00 %

     SR        Remote sensing                           14 911           1,70 %          3 617          1,50 %                  0              0,00 %

               Imaging science &
     UE                                                 13 510           1,60 %          4 010          1,70 %               481               0,30 %
               photographic technology
               Radiology, nuclear med &
     VY                                               194 848          22,40 %              26          0,01 %                  0              0,00 %
               medical imaging

     YE        Telecommunications                       73 106           8,40 %          9 960          4,20 %              6 819              4,60 %

En gras, chiffres de la source la plus présente, en valeur relative, sur la catégorie
* critère d'appariement sommaire, présence des titres dans les deux bases, sans prendre en compte le nombre d'articles
** compte tenu des multi-attributions de journaux aux spécialités scientifiques, le pourcentage peut être calculé de plusieurs manières, ici
la contribution d'un journal n'est pas fractionnée et le pourcentage est calculé sur les sommes des catégories.
*** critère d'appariement plus strict, incluant une correspondance approximative en termes de nombre de documents sur le même journal
(pas plus de 50% d'écart dans un sens ou un autre)

                                                                    14
2.2.4. Sous-ensemble "actes de conférence"

Le décompte approximatif des publications des actes de conférence a été tenté dans les deux bases,
en se limitant à la période courte 2006-2008, en raison de la disponibilité des données WoS. Du côté
ACM, l'entreprise est difficile compte tenu du manque d'unification des données.

On considérera les chiffres obtenus comme indicatifs.

a) couverture comparée

Table 6 - Couverture comparée des actes de conférence (2006-2008)

                                                                     WoS - spécialités               WoS - spécialités
                                        ACM/Guide
                                                                    scientifiques INFO              scientifiques INFO
                                                                             CPCI                      CPCI hors SCI
                                  Type de publication :           Type de publication :           Type de publication :
                                  actes de conférence              type journal/série*             type journal/série
Nombre d'items                            170 401                          215 689                         127 553
Décompte éditorial**                                                          2 704
Nombre de cycles
                                       >> 3 215****                           1 505
distincts***

* un décompte complémentaire pour les "books" CPCI donne respectivement 1581 (compte "éditorial" des titres) et 1235 (nombre de
cycles distincts)
** dans ce décompte, une conférence peut être scindée en plusieurs volumes. Les cycles ne sont pas unifiés (conférences datées ou
numérotées).
*** unification des volumes, et s'il s'agit de cycles, des éditions annuelles. Les conférences sans indication de cycle sont comptées.
**** ce nombre par défaut est à comparer au nombre par excès de 5860, qui comprend des conférences ACM-Guide sur une période
beaucoup plus large, correspondant au fichier mentionné plus bas pour un test d'appariement.

. Quelques observations :
- le WoS se limite à la couverture de conférences avec titre en langue anglaise, ACM couvre des titres
en langue allemande.
- dans la base ACM-Guide, la couverture est multipliée par les manifestations latérales (par exemple
pour les conférences ACM-SIGGRAPH il y a des items séparés pour les posters, educators programs,
panels, sketches, special sessions, etc.).

Dans ce domaine des actes de conférence, on pouvait s'attendre à une supériorité d'ACM. Elle ne se
vérifie pas. Si l'on considère l'ensemble des actes de conférence CPCI, et en considérant les chiffres
ci-dessus comme des ordres de grandeur, le WoS dispose dorénavant d'une couverture du même
ordre. L'introduction de la base CPCI a eu un effet considérable, apportant près de 60% de la
couverture globale Thomson Reuters (CPCI hors SCI, troisième colonne).

                                                                 15
b) appariement

L'appariement des actes de conférence entre bases est également d'une grande difficulté et
demanderait une étude approfondie. Il n'est pas possible, compte tenu des conditions
d'interrogation, de faire une unification rigoureuse sur la période 2006-2008 côté ACM-Guide. Nous
sommes limités à un test à partir de la table d'origine des actes de conférence Guide
- en nettoyant le fichier (manifestations latérales, etc.)
- en éliminant les titres portant explicitement des dates différentes de 2006, 2007, 2008.
- unifiant les noms des cycles de conférence, afin de confondre les sessions de diverses années d'un
même cycle pourvu que la thématique soit commune.
- en retenant une seule occurrence quelque soit le nombre de volumes couvrant la manifestation
(nombre pris en considération dans un décompte "éditorial").

Un test sur des recouvrements sur les distances d'édition généralisées de SAS, donne l'encadrement
pour [2006-2008], correspondant pour le minimum à une distance maximale de 600 (forte précision,
faible rappel), et pour le maximum à une distance maximale de 1000 (rappel plus fort, moins bonne
précision):

Table 7 - Appariement sur les cycles distincts (2006-2008)

                                              minimum                  maximum
Ensemble des conférences*                         370                    489
Ensemble hors workshops                           310                    405
IEEE**                                            130                    156
IEEE hors workshops                                96                    117

* côté WoS : series et "Books"
** la majorité des conférences IEEE figurent dans les "Books" du WoS

c) zoom

Nous avons effectué un zoom sur les séries de référence, les "conférences IEEE" et "les conférences
ACM" patronnées par ces sociétés savantes, et qui constituent un sous-ensemble des bases
ACM/Guide et WoS CPCI (Table 8).

Pour les conférences ACM, l'interrogation a porté, dans les titres de conférences, à la fois sur la
chaîne de caractères "ACM" et sur les chaînes "SIG%" couvrant les "Special Interest Groups" de la
société savante ACM, par exemple SIGPLAN, SIGGRAPH, SIGMOD, etc. En effet la mention ACM est
parfois omise dans le titre. Pour les "conférences ACM", CPCI ne couvre les conférences ACM qu'à
travers les manifestations communes avec IEEE, ce qui est marginal (une quinzaine). Quand on ne
tient pas compte de la restriction aux catégories INFO, le nombre passe à 40. Les conférences liées
(SIG : SIGGRAPH, SIGPLAN, etc.) couvertes extensivement par ACM-Guide, sont absentes du WoS,
faute sans doute d'accord éditorial de Thomson Reuters avec la société savante éditrice.

                                                                  16
Pour les conférences IEEE, la couverture ACM, sur l'ensemble de la période après les unifications
réalisées, donne 514 titres. WoS proceedings 'series' compte 72 titres et WoS proceedings 'books'
777, soit plus de la moitié du fichier 'Books' après unification. La couverture est ici nettement à
l'avantage du WoS. Le recouvrement est indique Table 7.

Table 8 - Conférences IEEE - conférences ACM (2006-2008)

                                          ACM/Guide                         WoS - INFO                         WoS - INFO
                                           [sans date]                      [2006-2008]                        [2006-2008]
                                                                                 CPCI                             CPCI
                                    Type de publication :             Type de publication :            Type de publication :
                                    actes de conférence                  journal/série                      ouvrages
Conférences IEEE
                                               469*                               72                              777
(titres distincts)
Conférences ACM-SIG
                                               514*                              2**                              14**
(titres distincts

* estimations très surestimées probablement d'un facteur 2 à 3, car sans date, par rapport aux chiffres WoS.
** toutes communes avec IEEE

                                                                    17
Chapitre 3 - Position de la France
3.1. Résultats
La deuxième ligne de chaque tableau donne le pourcentage par rapport aux valeurs obtenues dans le
périmètre global. Ces chiffres résultent de l'interrogation en ligne, sans dédoublonnage des données
ACM.

    3.1.1. Les bases dans leur ensemble

Table 9 - Présence de la France dans les bases

                                                                          WoS - spécialités
          ACM/Guide                         ACM/Guide
                                                                         scientifiques INFO
          [1999-2008]                       [1999-2008]                      [1999-2008]
                                                                         SCI et CPCI (union)
     Type de publication :
                                        Type de publication :           Type de publication :
       journal/actes de
                                     journal/actes de conférence     journal/série au moins pour
     conférence/ouvrage
       Affiliation : France                                          une adresse / Pays=France
             19 742                            19 293                          40 795
             2,70 %                            3,00 %                          4,90 %

Dans ACM, l'apport spécifique des "Books" est très limité, mais fait légèrement baisser la part de la
France.

    3.1.2. Sous-ensemble "journal"

Table 10 - Présence de la France dans les journaux

                                       WoS - spécialités            WoS - spécialités
         ACM/Guide
                                      scientifiques INFO           scientifiques INFO
        [1999-2008]                      [1999-2008]                  [1999-2008]
           journal                          (SCI)              (dans SCI et pas dans CPCI)
                                     (type journal/série)          (type journal/série)
           10 192                          34 667                        29 563
            3,60 %                         5,10 %                        5,00 %

                                                    18
3.1.3. Sous-ensemble "actes de conférence"

Table 11 - Présence de la France dans les "actes de conférence" [2006-2008]

                             WoS - spécialités
      ACM/Guide
                            scientifiques INFO
      [2006-2008]                  CPCI
  Type de publication :    Type de publication :
  actes de conférence       type journal/série
         6 058                    10 482
         3,60 %                   4,90 %

3.2. Constat
Probablement en raison de l'effort récent de Thomson Reuters sur la couverture des actes de
conférence, les résultats ne vont pas dans le sens des craintes souvent exprimées. Globalement, les
publications de la France sont en proportion mieux représentées dans le WoS (5,0%) que dans ACM
(3,6%). Si on affine :
- sur les journaux, la part de la France est 3,6% dans ACM, 5,1% dans le WoS.
- sur les actes de conférence, la part de la France est quasiment identique à la précédente, 3,6% dans
ACM, 4,9% dans le WoS. Cela peut-être dû à un biais national dans la base ACM, avec la
prépondérance des conférences et cycles US, ou à des effets de spécialité.

                                                   19
CONCLUSION
Les conclusions sont les suivantes.

1. Les résultats obtenus sur ACM sont à considérer avec grande précaution. En effet, la base ACM en
ligne n'est pas adaptée à l'analyse statistique (interface déroutante, fonctionnalités très limitées,
non unicité des résultats), et demande d'incessants recoupements et vérifications. S'il s'avérait
indispensable d'en faire une base d'analyse bibliométrique, un accord avec le producteur pour un
accès direct aux données serait indispensable.

2. La situation a changé dans une large mesure depuis l'étude précédente STIC. Sous la pression de la
concurrence de Scopus et moins directement de Google Scholar, Thomson Reuters a entrepris une
indexation étendue des actes de conférence en intégrant complètement au WoS la base des actes de
conférence CPCI. La couverture des conférences LNCS et IEEE est bonne. Un point faible du WoS,
pour le moment, est la l'absence des conférences propres ACM-SIG hors manifestations communes
avec d'autre sociétés comme IEEE. Progressivement, Thomson Reuters ouvre à ses clients la
rétrospective au delà de 2006. La partie "Books" est beaucoup plus difficile à gérer par les
producteurs des bases, qu'il s'agisse de Thomson Reuters ou de Scopus et sans doute d'ACM. Dans le
WoS, elle sera exploitée plus complètement par l'OST dès que ce sera possible.

3. Pour mémoire, la couverture en termes de journaux est réduite dans ACM Guide, ce n'est pas le
point fort de ce service. Par ailleurs, la couverture multidisciplinaire plus large du WoS contraint à
des options de délimitation du champ (typiquement choix des "spécialités scientifiques") alors que
l'on tend à considérer ACM-Guide comme coextensif à l'informatique.

4. La position de la France, telle qu'elle apparaît aujourd'hui dans les deux bases, est
systématiquement plus favorable dans le WoS (approximativement : 5% de l'informatique mondiale
en compte de présence). Pour aller plus loin, il faudrait comparer les données d'un échantillon
d'institutions ou de scientifiques, et analyser domaine par domaine. Il est possible, avec des
précautions, d'établir une correspondance approximative entre la nomenclature ACM, très détaillée,
et la nomenclature WoS.

                                                *****

Finalement, l'avantage que pouvait représenter l'ajout de la base ACM-Guide pour les actes de
conférence (les journaux y sont naturellement moins bien indexés que par WoS ou Scopus) s'est
fortement érodé en quelques années, en dehors de l'avantage d'ACM sur WoS (pas sur Scopus) pour
l'enregistrement de ses propres conférences, "ACM" et "SIGx". On peut estimer à 200 environ, sur la
période de trois ans de référence, le nombre de ces conférences non reprises par WoS. En revanche,
la couverture des conférences IEEE est nettement supérieure dans le WoS. Compte tenu des
conditions d'interrogation en ligne extrêmement difficiles pour ACM, l'investissement ne pourrait
passer que par un accord avec cette société savante. Il ne paraît guère justifié dans l'immédiat, car la
couverture du medium actes de conférence, notamment dans les STIC, est devenu un enjeu dans la
nouvelle concurrence entre WoS, Scopus et, sur un modèle différent, Google Scholar.

Ceci n'enlève rien aux autres types de service rendus par ACM, notamment en tant que plate-forme
d'accès, en texte intégral, à une bonne part de la littérature des actes de conférence. Sa
nomenclature thématique est également de grande qualité.

                                                  20
Repères bibliographiques
Bar-Ilan J. (2008) Which h-index? – A comparison of WoS, Scopus and Google Scholar, Scientometrics,
Vol. 74, No. 2 (2008) 257–271

Jacso, P. (2005) As we may search – Comparison of major features of Web of Science, Scopus and
Google Scholar citation-based and citation-enhanced databases. Current Science, 89 (9) : 1537–1547.

A-M. Kermarrec, E. Faou, J-P. Merlet (rapporteur), P. Robert, L. Segoufin (2007) Que mesurent les
indicateurs bibliométriques ? Document d’analyse de La Commission d’Evaluation de L’Inria

Meho L.I., Rogers Y. (2008) Citation Counting, Citation Ranking, and h-Index of Human-Computer
Interaction Researchers: A Comparison between Scopus and Web of Science, Journal of the American
Society for Information Science and Technology 59(11), 1711-1726

Moed H.F., Visser M.S. (2007), Developing Bibliometric Indicators of Research Performance in
Computer Science: An Exploratory Study, Research Report to the Council for Physical Sciences of the
Netherlands Organisation for Scientific Research (NWO), CWTS Report 2007-01, February 2007

OST (2008), Développement d’indicateurs pour l’aide à la décision en matière de coopération
scientifique internationale : le cas des STIC, rapport pour le MESR, 2008

Zitt M., Ramanana S., Bassecoulard E. (2003) Correcting Glasses help Fair Comparisons in
International Landscape: Country Indicators as a Function of ISI Database Delineation. Scientometrics,
vol 56, n°2, pp259-282

Scopus (2010) Scopus Content Coverage Guide, version 2010

Thomson Reuters (2008) Conference Proceedings selection process (Jim Tesla)
http://wokinfo.com/products_tools/multidisciplinary/webofscience/cpci/cpciessay/ ; voir aussi
White Paper Conference Proceedings and their impact on global research, feuille technique
http://www.isiwebofknowledge.com/media/pdf/proceedingswhtpaper.pdf

                                                 21
Annexe - Exploration de l'interface ACM/ ACM-Guide et
difficultés rencontrées

Les informations issues de la base ACM-Guide du rapport et de l'annexe proviennent
d'interrogations faites entre juillet et septembre 2010. Quelques changements sont intervenus
depuis dans l'interface de la base.

La page d'accès à la "digital library" de ACM http://portal.acm.org/dl.cfm propose la recherche dans
2 bibliothèques différentes "The ACM Digital Library" et "The Guide".
Pour les différences entre les deux, lire dans la FAQ http://portal.acm.org/faq_dl.cfm#3
La bibliothèque ACM proprement dite est très réduite. L'étude est entièrement menée sur "The
Guide".

Un premier type de requête est proposé depuis la page d'accueil (Guide) permettant de sélectionner
le type de publication. Ce choix (par exemple Journal dans The Guide) renvoie le nombre de titres
pour ce type (exemple le nombre de titre de journaux différents).

L'interface proprement dite propose trois méthodes différentes pour effectuer les requêtes
permettant d'obtenir des listes de notices de publications :
◦le formulaire "Advanced Search" et ses différents champs à renseigner
◦le formulaire "Advanced Search" et le champ d'édition de la requête en une ligne
◦dans la page de résultats de l'une des 2 méthodes précédentes, le formulaire "Refine your search"
(dans la colonne de gauche).

Les méthodes peuvent toutes se cumuler (exemple : une requête dans l'éditeur de requêtes, des
conditions supplémentaires dans le formulaire, et d'autres conditions dans "Refine your search").
Dans tous les cas, il faut être vigilant sur les conditions qui sont préservées d'une requête à l'autre.

Pour des requêtes a priori identiques, les résultats ne sont pas exactement les mêmes entre les
différentes méthodes. Certains de ces cas sont décrits ci-dessous.

Liste (non exhaustive) des difficultés rencontrées dans l'utilisation de l'interface ACM/Guide :

Nous n'avons pas trouvé de documentation précise sur l'utilisation de cette interface. Les conclusions
exposées ci-dessous proviennent de tâtonnements successifs. L'importance des difficultés
rencontrées varie de simplement déroutante à réellement bloquante.

Quelques difficultés mineures, mais déroutantes de prime abord :

       le vocabulaire employé est différent selon les formulaires : par exemple, on parle de
        'Periodical' ou 'Journal' pour désigner le même type de publication ; un titre doit être
        recherché dans la rubrique "Find Publication" (interface "Advanced Search"),
        "PublicationTitle" (dans le pavé d'édition de requête) ou "Publication Names" (dans le pavé
        "Refine by")
       Le nombre limité d'articles par page (20 ou 50) (et il ne semble pas possible de forcer
        l'affichage d'un plus grand nombre d'articles) oblige à consulter un nombre important de
        pages.

                                                  22
   Une recherche par "Refine your search", par exemple Refine by People/Names/More (le
        "More" sert à afficher l'ensemble des items) limite le nombre de réponses à 100 sans
        possibilité de naviguer et d'obtenir les réponses suivantes.
       Il ne semble pas possible d'exiger comme critère de recherche une égalité exacte avec un
        titre (ou nom) de publication. (PublicationTitle:xxx). La page renvoie l'ensemble des
        publications dont le titre contient la chaîne de caractères (entourée de caractères
        séparateurs). Par conséquent, pour tous les titres courts (par exemple Computer), il
        apparaît que le seul moyen d'obtenir le nombre de publications pour ce titre exact consiste à
        effectuer la requête sur ce nom puis à décomposer avec le pavé Refine by / Publications
        Names.
       Les guillemets ("double quotation marks") sont indispensables pour rechercher une chaîne
        de caractères contenant des espaces mais la recherche avec ou sans guillemets sur une
        chaîne sans espaces renvoie des valeurs différentes : visiblement, en l'absence de guillemets,
        la recherche est étendue au pluriel, au 's (Dobb renvoie Dr. Dobb's), peut-être à d'autres
        formes. Par exemple, la recherche de informatic dans 'Find publication' renvoie les titres
        contenant Informatics mais pas Informatica.
       Le nombre de "citations" (au sens de nombre de réponses) affiché est fantaisiste : une
        requête 'type de publication=Proceedings ' depuis le portail Guide renvoie 14090 actes de
        conférence pour lesquels le plus grand nombre de citations est 31 (et 0 pour la majorité des
        actes de conférence). La même requête pour les Journaux renvoie 0 pour tous les Journaux

Quelques difficultés plus sérieuses, limitant la fiabilité des résultats obtenus

Certains résultats doivent être ignorés :

Une recherche affinée par un "Refine by / Publication Names", après avoir fourni une chaîne de
caractères à chercher dans PublicationName, renvoie des résultats qu'il faut absolument ignorer :
par exemple, la recherche de la chaine "Computer" pour le type Journal (PublishedAs:periodical)
fournit une liste de titres accompagnés du nombre d'articles ; parmi ces titres, on trouve
     les actes de conférence dont le titre de la publication contient la chaine (exemple "ITiCSE '03:
        Proceedings of the 8th annual conference on Innovation and technology in computer science
        education") et qui sont également parus dans un journal (de titre quelconque, dans
        l'exemple SIGSE Bulletin). Le compte obtenu pour cette publication/Actes de conférence ne
        concerne que les articles également parus dans un journal et pas le titre dans son ensemble
        et est donc inexploitable
     les journaux où ont été aussi publiés des actes de conférence dont le titre de la publication
        (titre des actes de conférence) contient la chaîne. Le compte obtenu pour ce journal ne
        concerne que ces articles et n'est donc pas complet. Dans l'exemple précédent, on obtient
        SIGSE Bulletin avec le nombre d'articles également parus dans des Actes de conférence de
        titre contenant Computer, ce qui est inexploitable.

Doublons:

Par exemple, dans la liste des journaux de "The Guide" (bibliographic listing), on obtient deux fois
"Computer Music Journal" ou " Computing in Science and Engineering" avec mêmes dates et même
complément, deux fois "Computers in Libraries" avec dates différentes (mais intervalles qui se
recouvrent) ....

                                                  23
Le nombre de publications obtenu pour des requêtes identiques est différent selon la méthode
employée

Quelques exemples :
 Nombre de publications par type (requêtes effectuées le 09/09/10)
- nombre de publications de type Proceeding (sur les 1 568 378 au total) = 716 877 en interrogeant
"Advanced Search (avec uniquement Proceeding coché") et 702 787 avec un "Refine by All
Publications" après une recherche totale (sans restriction) ;
- nombre de publications de type Proceeding pour [1999-2008] (sur 746 517 au total) = 368 960 actes
de conférence par la restriction sur l'interface et 361 941 en effectuant un "Refine by All
Publications" ;
- 162 626 "Book" par un "Advanced Search/Book" et 160 457 par un "Advanced Search/All" puis
"Refine by All Publications" ;
- 623 312 "Journal" par advanced search/Journal, et 567 498 "Periodical" par un "Advanced
Search/All puis Refine by All Publications".

 totaux différents :
Une recherche "Advanced Search" (sans restriction de type) pour [2006-2008] renvoie 316933. Un
"Refine by/All publications" ventile selon les types de publications. Nous obtenons Proceeding
(167 289), Periodical (107 326), Book (23307), Thesis (8 777), Technical Report (29) dont la somme
est égale à 306 728.

 recherche en se limitant à un intervalle de temps
- une recherche par "Browse the Guide/ choix d'un type de publi/Journal" (qui renvoie 1116 le
09/09/10) puis un "Refine by/Publication Year", par exemple, [1999-2008] renvoie une erreur (la
ligne en jaune : aucune réponse) ;
- la même requête "Refine by/Publication Year" exécutée après une navigation de 1 page (par
exemple) dans l'ensemble des 1116 titres de journaux renvoie une réponse : 193 ;
- cette réponse est incohérente avec des recherches directes sur certains journaux : on ne trouve
pas, par exemple "ACM Computing Surveys" dans la liste des 193, alors qu'une recherche des
publications de ce journal entre 1999 et 2008 renvoie 290 publications.

                                                24
Vous pouvez aussi lire
DIAPOSITIVES SUIVANTES ... Annuler