Note sur la comparaison Web of Science - ACM Guide pour la couverture bibliométrique de l'informatique - Convention n 09 G 623 avec le ministère ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Note sur la comparaison Web of Science - ACM Guide pour la couverture bibliométrique de l'informatique Convention n° 09 G 623 avec le ministère de la Recherche et de l’Enseignement supérieur - DGRI septembre 2010
Note préparée par Michel Zitt, Agénor Lahatte et Dominique Vallée avec l'aide de Marie-Laure Taillibert et d'Elise Bassecoulard 2
Sommaire SOMMAIRE.........................................................................................................................................3 INTRODUCTION..................................................................................................................................4 CHAPITRE 1 - CONTEXTE.....................................................................................................................5 1.1. Bases de données en bibliométrie...............................................................................................5 1.2. Quelques études de la couverture de l'informatique ..................................................................6 1.3. La couverture des conférences et ses difficultés .........................................................................7 CHAPITRE 2 – ESSAI DE COMPARAISON DES COUVERTURES ACM-GUIDE ET WOS.............................9 2.1. Méthodologie..............................................................................................................................9 2.2. Couverture ................................................................................................................................11 CHAPITRE 3 - POSITION DE LA FRANCE.............................................................................................18 3.1. Résultats....................................................................................................................................18 3.2. Constat ......................................................................................................................................19 CONCLUSION....................................................................................................................................20 ANNEXE - EXPLORATION DE L'INTERFACE ACM/ ACM-GUIDE ET DIFFICULTÉS RENCONTRÉES .........22 3
Introduction L'existence de bases documentées, fiables et représentatives de l'activité scientifique conditionne la qualité des indicateurs bibliométriques. La représentativité des bases de données bibliographiques sur le champ STIC en général et l'informatique en particulier est un problème reconnu, lié notamment au mode de production scientifique, où les communications de conférence jouent un rôle essentiel. L'absence d'information pour certaines bases sur le principe de sélection des items et les sources de citation prises en compte, contribue à la confusion. L'offre en matière de bases de données est abondante. Les bases de référence multidisciplinaires comme le Web of Science (WoS) sont les plus utilisées en bibliométrie mais leur couverture du domaine informatique est notoirement discutable. Google Scholar, sur un modèle très différent, est parfois utilisé. Il existe des bases spécialisées dont la plus connue est la base publiée par l’Association for Computing Machinery, ACM, qui présente une couverture étendue des actes de conférence (proceedings). Lors d'une étude précédente (OST, 2008), les chercheurs informaticiens associés au projet en tant qu'experts avaient estimé que le manque de représentativité de la base WoS-SCI pour les actes de conférence limitait la portée de l'analyse. Alors que WoS, Scopus et Google Scholar sont comparés fréquemment dans la littérature spécialisée, y compris pour la couverture de l'informatique, le cas d'ACM est moins bien traité. L'objectif de la présente étude est d'analyser les spécificités d'ACM par rapport au WoS et leur degré de recouvrement, et la différence entre le volume de publications de la France, relativement à la moyenne mondiale dans les deux bases. Enfin, depuis les études classiques rappelées dans le texte, la couverture du WoS a largement évolué avec l'intégration de la base parente CPCI (Conference Proceedings Citation Index) et les progrès de celle-ci, ce qui modifie profondément la situation. Au passage, il s'agissait de tester la fonctionnalité et la commodité de l'interface ACM pour des usages bibliométriques en ligne. L'interrogation s'est révélée très délicate, et les résultats obtenus doivent être considérés comme de larges approximations, motivant une Annexe consacrée aux difficultés rencontrées. 4
Chapitre 1 - Contexte 1.1. Bases de données en bibliométrie. La bibliométrie est dépendante des bases de données bibliographiques, qui suivent des modèles variés : - modèle classique documentaire : typiquement avec plan de classement par article, indexation manuelle ou supervisée article par article, thésaurus. Exemples de bases utilisables en informatique : Inspec (physique), Pascal (multidisciplinaire). Citations en général absentes. Variantes : bibliothèques numériques, dont ACM, très importantes pour la couverture des conférences en informatique. - modèle Citation Index : le modèle est Thomson Reuters (ISI-SCI devenu WoS - Web of Science) avec les caractéristiques remarquables : sélection de journaux et multidisciplinarité ; dépouillement quasi- intégral des journaux ; présence des citations et rôle des citations dans la sélection ; saisie de toutes les affiliations d'auteurs. Inconvénients : classification disciplinaire assez rudimentaire (liste de journaux) ; pas de mots-clefs d'indexeurs, mais des substituts ; couverture discutable dans certains domaines. Normalisation en progrès. Nouveau venu sur ce modèle, Scopus, avec une couverture plus large et des principes moins clairs. - bases mutualisées : ex. archives ouvertes (type HAL) sur le modèle base de "preprints" de ArXiv (Greensparg). Ces bases se développent, leur couverture est très variable. - modèles web : moteurs dont le prototype est Cite-Seer (aujourd'hui CiteSeerx en version expérimentale) avec intégration des liens de citations. Un acteur clé est désormais Google avec Google-Scholar. Ces bases ont souvent une couverture très large mais hétérogène, avec un niveau de normalisation faible (unification - désambiguïsation des noms, dédoublonnage, etc.). Les problèmes de couverture sont moins simples qu'il y paraît. Les Citation Indexes par exemple mettent en jeu non seulement l'ensemble des items interrogeables (ensemble citable), mais aussi l'ensemble des sources de citation qui n'est pas forcément identique. Enfin, l'exhaustivité - utile pour des raisons documentaires - n'est pas indispensable, ni souvent souhaitable, dans les applications bibliométriques. La base SCI, noyau historique du WoS, fut crée par E. Garfield sur la base d'une sélection assumée des journaux scientifiques, conformément au principe d'économie (lois de Zipf et de Bradford). Le WoS, critiqué pour ses défauts disciplinaires de couverture, comporte déjà un mélange de populations, par exemple journaux internationaux et, dans la queue de distribution, orientées nationalement (Zitt, Ramanana, & Bassecoulard, 2003). Les bases (type Google et Google Scholar) sont encore plus hétérogènes, mêlant les sources académiques et non académiques. Prenant acte de la demande sur ce type de littérature, Scopus a fait très tôt un effort d'indexation des actes de conférence. Sous cette pression, Thomson Reuters a entrepris récemment d'intégrer la base latérale CPCI, consacrée aux actes de conférence, à la base globale WoS. 5
1.2. Quelques études de la couverture de l'informatique Un rapport pour la commission d'évaluation de l'INRIA résume le sentiment de nombreux scientifiques quand à la couverture des bases. "Pour ce qui concerne les domaines scientifiques traités par l'INRIA il a été constaté une très mauvaise couverture des sources de citation usuelles (Web of Science, Scopus), pouvant aller jusqu'à l'absurde. Par voie de conséquence les indicateurs construits sur ces sources donnent une information erronée sur le fonctionnement de l'Institut. Une action auprès des sources pourrait éventuellement apporter des améliorations sur l'attribution de citations à l'INRIA mais ne changerait rien au fait que les sources restent insuffisantes pour ce qui concerne l'informatique et les mathématiques appliquées" (Kermarrec, Faou, Merlet, Robert, & Segoufin, 2007). Lors d'une précédente étude OST sur base WoS, les experts avaient également déploré des défauts de couverture. L'élargissement du WoS du côté des actes de conférence, et la concurrence sur ce point avec Scopus, bien que ne résolvant qu'une partie des problèmes, font évoluer les choses. Que nous disent les évaluations comparatives des bases pour le domaine informatique ? Compte tenu des évolutions rapides de l'offre, nous nous limiterons à des données relativement récentes. Moed et Visser (2007) dans une étude test sur l'informatique aux Pays-Bas, prenant acte de l'insuffisance du WoS à cette époque, entreprennent de compléter la couverture par les conférences à partir : - des Lecture Notes in Computer Science (LNCS), mal couvertes par Thomson jusqu'en 2003 en particulier, - des conférences de l'Association for Computing Machinery (ACM), actes de conférence de plus de 200 conférences régulières couvertes par ACM Digital Library, - des conférences de la Computer Society of the Institute of Electrical and Electronics Engineers (IEEE). Cette étude a vraisemblablement incité les producteurs des bases WoS et de Scopus, ce dernier de création alors récente (2004), à inclure des cycles majeurs des actes de conférence. Kermarrec et al. (op. cit. 2007), dans le cadre d'une étude plus large sur l'usage des indicateurs bibliométriques pour les besoins d'évaluation dans le secteur, se sont penchés sur la couverture comparée du WoS, de Scopus et de Google Scholar. La comparaison des chiffres de publication et de citation de 4 chercheurs Inria montre des écarts considérables entre les trois sources : - WoS vs. GS : chiffres allant de 1 à 4 dans le meilleur des cas, de 1 à 10 dans le pire, - Scopus vs. GS : chiffres allant de 1 à 3 dans le meilleur des cas, de 1 à 30 dans le pire ; en moyenne Scopus s'en tire mieux que le WoS. Meho & Rogers (2008) se sont penchés sur un sous-domaine de l'informatique, les interactions/interfaces homme-machine. Ils ont comparé les résultats individuels de 22 chercheurs éminents (compte et rang de citation, h-index) engagés dans le programme britannique EQUATOR, et conclu à une meilleure couverture de Scopus, qu'ils attribuent à une prise en compte plus complète des conférences ACM et IEEE (les données sur les journaux sont comparables). Cette différence n'altère que dans une faible mesure les données propres aux chercheurs d'excellence. 6
Bar-Ilan (2008), dans son étude des h-index de scientifiques israéliens à partir de trois bases de données WoS, de Scopus et de Google Scholar (GS), montre que les écarts au profit de GS se concentrent dans le secteur de l'informatique et des mathématiques. L'auteur explique ce constat par la faible couverture des actes de conférence à l'époque par le WoS, en comparaison de Scopus et surtout de GS, qui couvre également des rapports techniques. Ces différentes études concluaient ainsi à une faible représentativité du WoS pour le domaine. Elles sont antérieures aux effets du changement de stratégie de Thomson Reuters dans la couverture des actes de conférence et l'intégration de la base correspondante (CPCI) au WoS. Ce producteur a renforcé la couverture des journaux scientifiques dédiés aux actes de conférence et des actes de conférence publiés en séries ou sous forme d'ouvrage - par exemple pour des conférences isolées. Cette section de la base est encore instable et n'a pas été prise en compte pour tous les décomptes effectués. Il existe actuellement une forte concurrence entre Thomson Reuters et Elsevier Scopus pour satisfaire la clientèle des universités, des institutions de recherche et les services gouvernementaux. Dans Google Scholar, la qualité des données est critiquée (voir notamment les études de l'Université d'Hawai, dont Jacso, 2005) : problèmes d'unification-dédoublonnage et de qualification des sources, fonctionnalités bibliométriques inexistantes à compenser par l'emploi d'outils comme "Publish or Perish" de Harzing, questions de stabilité/ reproductivité. La couverture est très large mais hétérogène et mal renseignée. 1.3. La couverture des conférences et ses difficultés Les communications en conférences peuvent être publiées - dans des numéros spéciaux de périodiques scientifiques ordinaires, que la société savante éditrice soit aussi l'organisatrice des conférences ou non. - dans des actes avec numéro ISSN, notamment sous forme de séries. Des conférences différentes peuvent être éditées sous un seul ISSN, notamment celui des Lecture Notes in Computer Science, tout en conservant individuellement un ISBN. - dans des actes isolés, ouvrages qui sont repérés en général par accord avec les sociétés éditrices, et pour lesquels il leur est plus difficile de valider le contenu. Il n'y a pas de correspondance entre ces conférences isolées et les "books" de CPCI, qui comportent aussi des cycles de conférences. L'essentiel est publié sous forme de papiers en texte intégral, il existe aussi des "résumés" ("meeting abstracts") qui ne sont pas répertoriés dans certaines bases (Scopus) ou sont parfois repérés mais pas considérés comme "citables" (WoS). Scopus (Scopus Content Coverage Guide, version 2010) a entrepris dès sa création de couvrir sélectivement les actes de conférence, dans les disciplines que ce producteur juge les plus concernées par ce mode de production : informatique et sciences de l'information (63 % en actes de conférence), engineering (45 %), quelques domaines de la physique - pour ce qui concerne les sciences dures. Environ 10 % des publications traitées par Scopus sont des communications de conférence. Thomson Reuters (White Paper Conference Proceedings and their impact on global research, 2008) dispose d'une base dédiée aux actes de conférence, CPCI (Conference Proceedings Citation Index), qui a été considérablement renforcée récemment face à la concurrence de Scopus, et est désormais totalement intégrables pour les utilisateurs du WoS à la fois en termes d'items et de sources de 7
citations. Cette base CPCI, en recouvrement partiel avec les autres bases du WoS (pour les actes de conférence apparaissant dans des journaux dédiés ou des numéros spéciaux de journaux d'articles), comporte aussi des "series" (conférences en série) et des conférences publiées sous forme d'ouvrage. CPCI est incrémenté de 400 000 actes de conférence chaque année (110 000 conférences couvertes depuis 1990). Les références et citations sont présentes depuis 1999. Thomson-Reuters, qui couvre LNCS (Lecture Notes in Computer Science) de manière extensive depuis plusieurs années (LNCS regroupe sous un même ISSN de nombreuses conférences importantes, qui conservent leur ISBN) et propose également de nombreuses publications et conférences IEEE, étend sa couverture à d'autres sources. ACM (Association for Computing Machinery) est la société savante la plus connue en informatique, à côté d'IEEE au spectre plus large (originellement électricité-électronique) mais également très présente en informatique et sciences de l'information. ACM dispose d'une base de données connue pour sa couverture des conférences, qui existe en deux versions, l'une restreinte, ACM-DL (Digital Library) et l'autre plus large, ACM-Guide (situation septembre 2010). La première version est trop étroite pour être utilisable dans les études générales du domaine informatique. ACM-Guide dispose d'une couverture plus large. Les opinions des informaticiens professionnels quand à la représentativité d'ACM sont très contrastées. 8
Chapitre 2 – Essai de comparaison des couvertures ACM- Guide et WoS 2.1. Méthodologie Les ressources utilisées pour cette étude sont : - l'interface WEB (accessible à partir de http://portal.acm.org/guide.cfm?coll=portal&dl=GUIDE) pour la base ACM/Guide (nous ignorons la fréquence de la mise à jour de la base et si ces mises à jour concernent des années antérieures). - la base de données WoS que l'OST achète tous les ans à Thomson Reuters. Cette version peut être légèrement différente de la base en ligne, Thomson Reuters effectuant des mises à jour régulièrement y compris pour des années passées. Pour le calcul de ses indicateurs standard, l'OST applique des filtres qui ne sont pas utilisés dans la présente étude. La typologie des publications ne suit pas la même logique dans le WoS et dans ACM/Guide. En particulier, les données du WoS exploitées par l'OST proviennent, entre autres, des deux produits Conference Proceedings Citation Index (appelé CPCI ou CPCI-Proceedings par la suite) et Science Citation Index Expanded (appelé SCI par la suite). Ces deux produits sont partiellement recouvrants en termes de publications. Il existe des titres dans SCI qui sont des périodiques, ou des numéros spéciaux de périodiques, consacrés aux comptes-rendus de communication en conférence - par exemple des sociétés savantes en informatique. A l'intérieur de chacun des produits, Thomson Reuters définit trois types de publication : Journal/ Series/Book (les publications de SCI n'ayant jamais le type 'Book'). Les "series" correspondent en principe aux cycles réguliers de conférences, les "Books" plutôt à des conférences isolées. A la date de rédaction de ce rapport, l'OST dispose des données pour le produit CPCI-Proceedings depuis l'année de publication 2006 et les données pour le produit SCI depuis 1999. Dans ses produits standard, l'OST ne retient de la base CPCI-Proceedings que les données de type "Journal" ou "Serie" en raisons des doutes, en l'état actuel de la base, sur la sélection des "Books" et les difficultés d'exploitation de la fourniture Thomson Reuters en la matière. Il existe d'autre part dans le WoS une classification au niveau document, par type de document : article, note, article de synthèse, et d'autres documents considérés comme peu citables, y compris les éditoriaux ou les courtes notices "meeting abstracts". En principe (voir documentation Thomson Reuters citée en bibliographie), les documents avec "type de document = actes de conférence" dans SCI sont copiés dans CPCI. C'est une des sources du recouvrement entre SCI et CPCI. Chaque publication du WoS est affectée à une ou plusieurs spécialités scientifiques (« subject categories »), une assignation s'effectuant au niveau des journaux ou sections de journaux sauf pour Nature, Science, PNAS, où l'assignation se fait en partie au niveau des articles individuels. Nous avons retenu pour délimiter l'informatique la liste (mention "INFO" dans la suite du texte) des spécialités scientifiques de la Table 1. 9
Nous définissons les ensembles de comparaison suivants : a) les deux bases dans leur totalité, avec filtre "informatique" pour le WoS : - ACM/Guide : nombre total de publications (types = Journal ou Proceeding ou Book) pour les années de publication [1999-2008]. Il n'y a pas de correspondance entre les "Books" d'ACM et ceux du WoS : les "Books" d'ACM sont essentiellement des ouvrages d'informatique, les "Books" de CPCI des actes de conférence publiés en volumes. - WoS : nombre total de publications affectées à au moins une des spécialités scientifiques de la liste INFO des deux produits SCI et CPCI (sans doublons) pour tous les types (Journal/Serie) et pour les années de publication [1999-2008]. Pour certaines tables, le décompte se fait avec et sans les "Books". La grille disciplinaire utilisée pour les publications WoS, dont les publications communes avec ACM, comprend les spécialités coeur de l'informatique ("computer science") et des domaines d'application plus périphériques, comme l'informatique médicale, l'imagerie, etc. Table 1 - Liste des spécialités scientifiques WoS en informatique ("subject categories") Code de la Libellé spécialité AC Automation & control systems EP Computer science, artificial intelligence ER Computer science, cybernetics ES Computer science, hardware & architecture ET Computer science, information systems EV Computer science, interdisciplinary applications EW Computer science, software engineering EX Computer science, theory & methods PT Medical informatics RB Robotics RX Neuroimaging SR Remote sensing UE Imaging science & photographic technology VY Radiology, nuclear medicine & medical imaging YE Telecommunications b) le sous-ensemble "Journal" dans les deux bases : - ACM/Guide : nombre total de publications (type = Journal) pour les années [1999- 2008]. 10
- WoS : nombre total de publications affectées à au moins une des spécialités scientifiques de la liste INFO du produit SCI (rappelons qu'il peut s'agir des types de publication Journal ou Serie) pour les années [1999-2008]. Le compte pour les publications figurant uniquement dans une seule des bases SCI et CPCI, sera également indiqué. c) le sous-ensemble des "Journaux communs" aux deux bases : Une liste de noms à partir des "PublicationTitle" de ACM/Guide et "Titre_journal" du WoS est établie et pour les titre appariés on considère le nombre de publications pour chacun de ces titres dans chacun des ensembles : ACM/Guide (Type:Journal) et WoS (années de publication [1999-2008]). d) le sous-ensemble "Actes de conférence" - ACM/Guide : nombre total de publications (type = Actes de conférence) pour les années de publication [2006-2008]. Rappelons que les "Books" d'ACM-Guide, contrairement à cette catégorie du WoS, sont des ouvrages d'informatique et sont exclus de l'étude. - WoS : on ne dispose au moment de l'étude que des données à partir de 2006. On considère le nombre total de publications affectées à au moins une des catégories de la liste Informatique ("INFO") du produit CPCI-Proceeding (types Journal/Serie) pour les années de publication [2006-2008], et, pour certaines analyses, l'ensemble Journal/Series/Books. Le compte pour les publications figurant une des bases (CPCI, SCI) et pas dans l'autre, est mentionné le cas échéant. 2.2. Couverture 2.2.1. Les bases dans leur ensemble Table 2 - Nombre de documents 1999-2008 WoS - spécialités ACM/Guide ACM/Guide scientifiques INFO SCI et CPCI* sans doublons (union) Type de publication : Type de publication : Type de publication : journal/actes de journal/actes de journal/série*** conférence/ouvrage** conférence 716 563 642 736 820 401 *CPCI seulement à partir de 2006 dans la base OST ** termes originaux dans la base : journal/proceedings/books *** journal/series 11
La surface du WoS est globalement plus étendue, malgré : - la non prise en compte des ouvrages. Comme indiqué plus haut, sa couverture de la catégorie "Books" (actes de conférence publiés sous forme d'ouvrages isolés) n'est pas intégrée, car elle est actuellement incomplète et irrégulière. Il n'est d'ailleurs pas assuré que ACM-Guide ait une couverture mieux contrôlée de ce côté. En ajoutant le type Book, la couverture ACM croît de 11,5% par rapport aux types Journal/ Actes de conférence. - un dédoublonnage satisfaisant des notices dans le WoS, contrairement à ACM/Guide qui présente de sérieux problèmes d'unification. 2.2.2. Sous-ensemble "journal" Table 3 - Comparaison pour les journaux (nombre de documents) 1999-2008 WoS - spécialités WoS - spécialités WoS - spécialités ACM/Guide scientifiques INFO scientifiques INFO scientifiques INFO partie commune SCI SCI hors CPCI SCI -CPCI Type de Type de Type de Type de publication : publication : publication : publication : journal journal/série journal/série journal/série Nombre de titres 698 2 677 2 368 309 Nombre d'items 270 211 685 221 590 247 94 974 Au moment de l'étude, ACM/Guide proposait (requête Bibtype: Periodical) une liste de 1097 titres de « Journal » ou « Periodical ». Nous avons recherché le nombre de publications entre 1999 et 2008 dans chacun de ces 1097 journaux (« Observations sur l'utilisation bibliométrique d'ACM »). ACM/Guide fournit le nombre de publication par journal dans cet intervalle de temps pour 698 titres. Les tables SCI du WoS contiennent 2702 titre_journal (classés en INFO) dont 2 677 possèdent des publications pour toute la période [1999-2008]. 2 368 de ces 2 677 titres appartiennent à SCI sans appartenir à CPCI. Le ratio des couvertures WoS/ACM, en l'occurrence imputable à SCI proprement dit puisque CPCI n'ajoute pas de journaux, est environ 2,4. Cette supériorité était attendue en raison de la spécialisation d'ACM sur la littérature hors périodiques. 2.2.3. Sous-ensemble "journaux communs" a) globalement Nous avons pu repérer 274 titres communs, nombre par défaut car la graphie des noms de journaux n'est pas standardisée. Le nombre d'appariements est probablement sous-estimé. 12
Table 4 - Nombre de journaux communs (1999-2008) La couverture des articles par journal dans ACM et WoS n'est pas identique, le WoS ayant une couverture plus étendue de ce point de vue. journaux communs % de la couverture % de la couverture WoS INFO - ACM ACM WoS Nombre de titres 274 39,30 % 10,20 % Nombre d'articles dans ACM 154 014 57,00 % nombre d'articles dans WoS 172 983 25,20 % Ces décomptes sont à interpréter avec prudence : il est délicat d'additionner les nombres d'articles pour différents journaux, les doublons d'articles étant fréquents côté ACM1. Une étude plus approfondie pourra faire surgir de nouvelles correspondances, en testant notamment l'appariement au niveau des titres d'articles. La correspondance ACM SIGGRAPH Computer Graphics/COMPUTER GRAPHICS-US a pu être détectée en effectuant une recherche sur titres d'articles. La correspondance entre nombre de documents contenus de part et d'autre, pour les journaux appariés, est très variable. Si l'on établit un seuil de variation relative à 50 %, 60 % des journaux appariés présentent une correspondance acceptable à ce seuil. Les 40 % peuvent présenter de grandes différences dans un sens ou un autre2. Des titres apparaissent dans le WOS (avec des catcodes INFO) avec un nombre de publications non négligeable (par exemple 'COMPUTER METHODS IN APPLIED MECHANICS AND ENGINEERING') et sont absents de ACM/GUIDE entre 1999 et 2008. Enfin, la détermination d'un périmètre opérationnel oblige à des choix. Par exemple, le journal 'ADVANCES IN APPLIED MATHEMATICS' apparaît à la fois dans ACM Guide et WoS, mais tous ses articles (592) sont assignés dans le WoS au code de catégorie PN ('MATHEMATICS, APPLIED'). La même remarque s'applique au journal 'APPLIED MATHEMATICS AND COMPUTATION'. On ne peut naturellement retenir tout le code PN dans le périmètre de l'informatique. b) par catégorie WoS La table ci-dessous fait apparaître un probable effet de couverture. Par rapport aux journaux INFO du WoS, les journaux communs WoS-ACM sont proportionnellement mieux représentés dans les disciplines coeur de l'informatique (catégories "computer science"), alors que la couverture de l'ensemble du WoS, plus multidisciplinaire, s'étend à des domaines où l'informatique est présente 1 Par exemple « A regulated transitive reduction (RTR) for longer memory race recording » est paru dans trois journaux en octobre et novembre 2006 (SIGARCH Computer Architecture News, SIGOPS Operating Systems Review, SIGPLAN Notices) et est probablement comptabilisé dans chacun de ces trois journaux dans ACM/Guide. Il n'apparaît qu'une seule fois dans le WOS (dans ACM SIGPLAN Notices). 2 Par exemple, les petits nombres obtenus dans ACM pour 'ADVANCES IN ARTIFICIAL INTELLIGENCE', 'ARTIFICIAL INTELLIGENCE IN MEDICINE', 'AUTOMATICA (JOURNAL OF IFAC)', 'BOUNDARY VALUE PROBLEMS', 'COMPUTATIONAL INTELLIGENCE', comparativement au WOS mériteraient une étude plus approfondie. 13
parmi d'autres techniques : domaine des télécommunications, automatique, et applications médicales. Il serait sans doute intéressant de particulariser le périmètre coeur dans de futures analyses. Table 5 - Répartition disciplinaire des journaux WoS et des journaux communs WoS-ACM nb de publis dans Code nb de publis nb de publis Libellé de la spécialité journaux de la dans journaux pct** dans journaux pct** pct** scientifique communs spécialité WoS communs * (appariement***) Automation & control AC 47 284 5,40 % 8 831 3,70 % 3 448 2,30 % systems Computer science, artificial EP 83 603 9,60 % 34 421 14,40 % 19 158 13,00 % intelligence Computer science, ER 11 042 1,30 % 4 311 1,80 % 1 807 1,20 % cybernetics Computer science, hardware ES 38 505 4,40 % 24 797 10,40 % 17 709 12,00 % & architecture Computer science, ET 72 290 8,30 % 37 461 15,70 % 19 269 13,10 % information systems Computer science, EV 78 750 9,10 % 27 971 11,70 % 19 948 13,50 % interdisciplinary appl. Computer science, software EW 65 114 7,50 % 42 031 17,60 % 29 170 19,80 % engineering Computer science, theory EX 128 228 14,80 % 34 550 14,50 % 27 133 18,40 % & methods PT Medical informatics 17 801 2,00 % 2 066 0,90 % 448 0,30 % RB Robotics 8 551 1,00 % 4 571 1,90 % 1 971 1,30 % RX Neuroimaging 20 500 2,40 % 0 0,00 % 0 0,00 % SR Remote sensing 14 911 1,70 % 3 617 1,50 % 0 0,00 % Imaging science & UE 13 510 1,60 % 4 010 1,70 % 481 0,30 % photographic technology Radiology, nuclear med & VY 194 848 22,40 % 26 0,01 % 0 0,00 % medical imaging YE Telecommunications 73 106 8,40 % 9 960 4,20 % 6 819 4,60 % En gras, chiffres de la source la plus présente, en valeur relative, sur la catégorie * critère d'appariement sommaire, présence des titres dans les deux bases, sans prendre en compte le nombre d'articles ** compte tenu des multi-attributions de journaux aux spécialités scientifiques, le pourcentage peut être calculé de plusieurs manières, ici la contribution d'un journal n'est pas fractionnée et le pourcentage est calculé sur les sommes des catégories. *** critère d'appariement plus strict, incluant une correspondance approximative en termes de nombre de documents sur le même journal (pas plus de 50% d'écart dans un sens ou un autre) 14
2.2.4. Sous-ensemble "actes de conférence" Le décompte approximatif des publications des actes de conférence a été tenté dans les deux bases, en se limitant à la période courte 2006-2008, en raison de la disponibilité des données WoS. Du côté ACM, l'entreprise est difficile compte tenu du manque d'unification des données. On considérera les chiffres obtenus comme indicatifs. a) couverture comparée Table 6 - Couverture comparée des actes de conférence (2006-2008) WoS - spécialités WoS - spécialités ACM/Guide scientifiques INFO scientifiques INFO CPCI CPCI hors SCI Type de publication : Type de publication : Type de publication : actes de conférence type journal/série* type journal/série Nombre d'items 170 401 215 689 127 553 Décompte éditorial** 2 704 Nombre de cycles >> 3 215**** 1 505 distincts*** * un décompte complémentaire pour les "books" CPCI donne respectivement 1581 (compte "éditorial" des titres) et 1235 (nombre de cycles distincts) ** dans ce décompte, une conférence peut être scindée en plusieurs volumes. Les cycles ne sont pas unifiés (conférences datées ou numérotées). *** unification des volumes, et s'il s'agit de cycles, des éditions annuelles. Les conférences sans indication de cycle sont comptées. **** ce nombre par défaut est à comparer au nombre par excès de 5860, qui comprend des conférences ACM-Guide sur une période beaucoup plus large, correspondant au fichier mentionné plus bas pour un test d'appariement. . Quelques observations : - le WoS se limite à la couverture de conférences avec titre en langue anglaise, ACM couvre des titres en langue allemande. - dans la base ACM-Guide, la couverture est multipliée par les manifestations latérales (par exemple pour les conférences ACM-SIGGRAPH il y a des items séparés pour les posters, educators programs, panels, sketches, special sessions, etc.). Dans ce domaine des actes de conférence, on pouvait s'attendre à une supériorité d'ACM. Elle ne se vérifie pas. Si l'on considère l'ensemble des actes de conférence CPCI, et en considérant les chiffres ci-dessus comme des ordres de grandeur, le WoS dispose dorénavant d'une couverture du même ordre. L'introduction de la base CPCI a eu un effet considérable, apportant près de 60% de la couverture globale Thomson Reuters (CPCI hors SCI, troisième colonne). 15
b) appariement L'appariement des actes de conférence entre bases est également d'une grande difficulté et demanderait une étude approfondie. Il n'est pas possible, compte tenu des conditions d'interrogation, de faire une unification rigoureuse sur la période 2006-2008 côté ACM-Guide. Nous sommes limités à un test à partir de la table d'origine des actes de conférence Guide - en nettoyant le fichier (manifestations latérales, etc.) - en éliminant les titres portant explicitement des dates différentes de 2006, 2007, 2008. - unifiant les noms des cycles de conférence, afin de confondre les sessions de diverses années d'un même cycle pourvu que la thématique soit commune. - en retenant une seule occurrence quelque soit le nombre de volumes couvrant la manifestation (nombre pris en considération dans un décompte "éditorial"). Un test sur des recouvrements sur les distances d'édition généralisées de SAS, donne l'encadrement pour [2006-2008], correspondant pour le minimum à une distance maximale de 600 (forte précision, faible rappel), et pour le maximum à une distance maximale de 1000 (rappel plus fort, moins bonne précision): Table 7 - Appariement sur les cycles distincts (2006-2008) minimum maximum Ensemble des conférences* 370 489 Ensemble hors workshops 310 405 IEEE** 130 156 IEEE hors workshops 96 117 * côté WoS : series et "Books" ** la majorité des conférences IEEE figurent dans les "Books" du WoS c) zoom Nous avons effectué un zoom sur les séries de référence, les "conférences IEEE" et "les conférences ACM" patronnées par ces sociétés savantes, et qui constituent un sous-ensemble des bases ACM/Guide et WoS CPCI (Table 8). Pour les conférences ACM, l'interrogation a porté, dans les titres de conférences, à la fois sur la chaîne de caractères "ACM" et sur les chaînes "SIG%" couvrant les "Special Interest Groups" de la société savante ACM, par exemple SIGPLAN, SIGGRAPH, SIGMOD, etc. En effet la mention ACM est parfois omise dans le titre. Pour les "conférences ACM", CPCI ne couvre les conférences ACM qu'à travers les manifestations communes avec IEEE, ce qui est marginal (une quinzaine). Quand on ne tient pas compte de la restriction aux catégories INFO, le nombre passe à 40. Les conférences liées (SIG : SIGGRAPH, SIGPLAN, etc.) couvertes extensivement par ACM-Guide, sont absentes du WoS, faute sans doute d'accord éditorial de Thomson Reuters avec la société savante éditrice. 16
Pour les conférences IEEE, la couverture ACM, sur l'ensemble de la période après les unifications réalisées, donne 514 titres. WoS proceedings 'series' compte 72 titres et WoS proceedings 'books' 777, soit plus de la moitié du fichier 'Books' après unification. La couverture est ici nettement à l'avantage du WoS. Le recouvrement est indique Table 7. Table 8 - Conférences IEEE - conférences ACM (2006-2008) ACM/Guide WoS - INFO WoS - INFO [sans date] [2006-2008] [2006-2008] CPCI CPCI Type de publication : Type de publication : Type de publication : actes de conférence journal/série ouvrages Conférences IEEE 469* 72 777 (titres distincts) Conférences ACM-SIG 514* 2** 14** (titres distincts * estimations très surestimées probablement d'un facteur 2 à 3, car sans date, par rapport aux chiffres WoS. ** toutes communes avec IEEE 17
Chapitre 3 - Position de la France 3.1. Résultats La deuxième ligne de chaque tableau donne le pourcentage par rapport aux valeurs obtenues dans le périmètre global. Ces chiffres résultent de l'interrogation en ligne, sans dédoublonnage des données ACM. 3.1.1. Les bases dans leur ensemble Table 9 - Présence de la France dans les bases WoS - spécialités ACM/Guide ACM/Guide scientifiques INFO [1999-2008] [1999-2008] [1999-2008] SCI et CPCI (union) Type de publication : Type de publication : Type de publication : journal/actes de journal/actes de conférence journal/série au moins pour conférence/ouvrage Affiliation : France une adresse / Pays=France 19 742 19 293 40 795 2,70 % 3,00 % 4,90 % Dans ACM, l'apport spécifique des "Books" est très limité, mais fait légèrement baisser la part de la France. 3.1.2. Sous-ensemble "journal" Table 10 - Présence de la France dans les journaux WoS - spécialités WoS - spécialités ACM/Guide scientifiques INFO scientifiques INFO [1999-2008] [1999-2008] [1999-2008] journal (SCI) (dans SCI et pas dans CPCI) (type journal/série) (type journal/série) 10 192 34 667 29 563 3,60 % 5,10 % 5,00 % 18
3.1.3. Sous-ensemble "actes de conférence" Table 11 - Présence de la France dans les "actes de conférence" [2006-2008] WoS - spécialités ACM/Guide scientifiques INFO [2006-2008] CPCI Type de publication : Type de publication : actes de conférence type journal/série 6 058 10 482 3,60 % 4,90 % 3.2. Constat Probablement en raison de l'effort récent de Thomson Reuters sur la couverture des actes de conférence, les résultats ne vont pas dans le sens des craintes souvent exprimées. Globalement, les publications de la France sont en proportion mieux représentées dans le WoS (5,0%) que dans ACM (3,6%). Si on affine : - sur les journaux, la part de la France est 3,6% dans ACM, 5,1% dans le WoS. - sur les actes de conférence, la part de la France est quasiment identique à la précédente, 3,6% dans ACM, 4,9% dans le WoS. Cela peut-être dû à un biais national dans la base ACM, avec la prépondérance des conférences et cycles US, ou à des effets de spécialité. 19
CONCLUSION Les conclusions sont les suivantes. 1. Les résultats obtenus sur ACM sont à considérer avec grande précaution. En effet, la base ACM en ligne n'est pas adaptée à l'analyse statistique (interface déroutante, fonctionnalités très limitées, non unicité des résultats), et demande d'incessants recoupements et vérifications. S'il s'avérait indispensable d'en faire une base d'analyse bibliométrique, un accord avec le producteur pour un accès direct aux données serait indispensable. 2. La situation a changé dans une large mesure depuis l'étude précédente STIC. Sous la pression de la concurrence de Scopus et moins directement de Google Scholar, Thomson Reuters a entrepris une indexation étendue des actes de conférence en intégrant complètement au WoS la base des actes de conférence CPCI. La couverture des conférences LNCS et IEEE est bonne. Un point faible du WoS, pour le moment, est la l'absence des conférences propres ACM-SIG hors manifestations communes avec d'autre sociétés comme IEEE. Progressivement, Thomson Reuters ouvre à ses clients la rétrospective au delà de 2006. La partie "Books" est beaucoup plus difficile à gérer par les producteurs des bases, qu'il s'agisse de Thomson Reuters ou de Scopus et sans doute d'ACM. Dans le WoS, elle sera exploitée plus complètement par l'OST dès que ce sera possible. 3. Pour mémoire, la couverture en termes de journaux est réduite dans ACM Guide, ce n'est pas le point fort de ce service. Par ailleurs, la couverture multidisciplinaire plus large du WoS contraint à des options de délimitation du champ (typiquement choix des "spécialités scientifiques") alors que l'on tend à considérer ACM-Guide comme coextensif à l'informatique. 4. La position de la France, telle qu'elle apparaît aujourd'hui dans les deux bases, est systématiquement plus favorable dans le WoS (approximativement : 5% de l'informatique mondiale en compte de présence). Pour aller plus loin, il faudrait comparer les données d'un échantillon d'institutions ou de scientifiques, et analyser domaine par domaine. Il est possible, avec des précautions, d'établir une correspondance approximative entre la nomenclature ACM, très détaillée, et la nomenclature WoS. ***** Finalement, l'avantage que pouvait représenter l'ajout de la base ACM-Guide pour les actes de conférence (les journaux y sont naturellement moins bien indexés que par WoS ou Scopus) s'est fortement érodé en quelques années, en dehors de l'avantage d'ACM sur WoS (pas sur Scopus) pour l'enregistrement de ses propres conférences, "ACM" et "SIGx". On peut estimer à 200 environ, sur la période de trois ans de référence, le nombre de ces conférences non reprises par WoS. En revanche, la couverture des conférences IEEE est nettement supérieure dans le WoS. Compte tenu des conditions d'interrogation en ligne extrêmement difficiles pour ACM, l'investissement ne pourrait passer que par un accord avec cette société savante. Il ne paraît guère justifié dans l'immédiat, car la couverture du medium actes de conférence, notamment dans les STIC, est devenu un enjeu dans la nouvelle concurrence entre WoS, Scopus et, sur un modèle différent, Google Scholar. Ceci n'enlève rien aux autres types de service rendus par ACM, notamment en tant que plate-forme d'accès, en texte intégral, à une bonne part de la littérature des actes de conférence. Sa nomenclature thématique est également de grande qualité. 20
Repères bibliographiques Bar-Ilan J. (2008) Which h-index? – A comparison of WoS, Scopus and Google Scholar, Scientometrics, Vol. 74, No. 2 (2008) 257–271 Jacso, P. (2005) As we may search – Comparison of major features of Web of Science, Scopus and Google Scholar citation-based and citation-enhanced databases. Current Science, 89 (9) : 1537–1547. A-M. Kermarrec, E. Faou, J-P. Merlet (rapporteur), P. Robert, L. Segoufin (2007) Que mesurent les indicateurs bibliométriques ? Document d’analyse de La Commission d’Evaluation de L’Inria Meho L.I., Rogers Y. (2008) Citation Counting, Citation Ranking, and h-Index of Human-Computer Interaction Researchers: A Comparison between Scopus and Web of Science, Journal of the American Society for Information Science and Technology 59(11), 1711-1726 Moed H.F., Visser M.S. (2007), Developing Bibliometric Indicators of Research Performance in Computer Science: An Exploratory Study, Research Report to the Council for Physical Sciences of the Netherlands Organisation for Scientific Research (NWO), CWTS Report 2007-01, February 2007 OST (2008), Développement d’indicateurs pour l’aide à la décision en matière de coopération scientifique internationale : le cas des STIC, rapport pour le MESR, 2008 Zitt M., Ramanana S., Bassecoulard E. (2003) Correcting Glasses help Fair Comparisons in International Landscape: Country Indicators as a Function of ISI Database Delineation. Scientometrics, vol 56, n°2, pp259-282 Scopus (2010) Scopus Content Coverage Guide, version 2010 Thomson Reuters (2008) Conference Proceedings selection process (Jim Tesla) http://wokinfo.com/products_tools/multidisciplinary/webofscience/cpci/cpciessay/ ; voir aussi White Paper Conference Proceedings and their impact on global research, feuille technique http://www.isiwebofknowledge.com/media/pdf/proceedingswhtpaper.pdf 21
Annexe - Exploration de l'interface ACM/ ACM-Guide et difficultés rencontrées Les informations issues de la base ACM-Guide du rapport et de l'annexe proviennent d'interrogations faites entre juillet et septembre 2010. Quelques changements sont intervenus depuis dans l'interface de la base. La page d'accès à la "digital library" de ACM http://portal.acm.org/dl.cfm propose la recherche dans 2 bibliothèques différentes "The ACM Digital Library" et "The Guide". Pour les différences entre les deux, lire dans la FAQ http://portal.acm.org/faq_dl.cfm#3 La bibliothèque ACM proprement dite est très réduite. L'étude est entièrement menée sur "The Guide". Un premier type de requête est proposé depuis la page d'accueil (Guide) permettant de sélectionner le type de publication. Ce choix (par exemple Journal dans The Guide) renvoie le nombre de titres pour ce type (exemple le nombre de titre de journaux différents). L'interface proprement dite propose trois méthodes différentes pour effectuer les requêtes permettant d'obtenir des listes de notices de publications : ◦le formulaire "Advanced Search" et ses différents champs à renseigner ◦le formulaire "Advanced Search" et le champ d'édition de la requête en une ligne ◦dans la page de résultats de l'une des 2 méthodes précédentes, le formulaire "Refine your search" (dans la colonne de gauche). Les méthodes peuvent toutes se cumuler (exemple : une requête dans l'éditeur de requêtes, des conditions supplémentaires dans le formulaire, et d'autres conditions dans "Refine your search"). Dans tous les cas, il faut être vigilant sur les conditions qui sont préservées d'une requête à l'autre. Pour des requêtes a priori identiques, les résultats ne sont pas exactement les mêmes entre les différentes méthodes. Certains de ces cas sont décrits ci-dessous. Liste (non exhaustive) des difficultés rencontrées dans l'utilisation de l'interface ACM/Guide : Nous n'avons pas trouvé de documentation précise sur l'utilisation de cette interface. Les conclusions exposées ci-dessous proviennent de tâtonnements successifs. L'importance des difficultés rencontrées varie de simplement déroutante à réellement bloquante. Quelques difficultés mineures, mais déroutantes de prime abord : le vocabulaire employé est différent selon les formulaires : par exemple, on parle de 'Periodical' ou 'Journal' pour désigner le même type de publication ; un titre doit être recherché dans la rubrique "Find Publication" (interface "Advanced Search"), "PublicationTitle" (dans le pavé d'édition de requête) ou "Publication Names" (dans le pavé "Refine by") Le nombre limité d'articles par page (20 ou 50) (et il ne semble pas possible de forcer l'affichage d'un plus grand nombre d'articles) oblige à consulter un nombre important de pages. 22
Une recherche par "Refine your search", par exemple Refine by People/Names/More (le "More" sert à afficher l'ensemble des items) limite le nombre de réponses à 100 sans possibilité de naviguer et d'obtenir les réponses suivantes. Il ne semble pas possible d'exiger comme critère de recherche une égalité exacte avec un titre (ou nom) de publication. (PublicationTitle:xxx). La page renvoie l'ensemble des publications dont le titre contient la chaîne de caractères (entourée de caractères séparateurs). Par conséquent, pour tous les titres courts (par exemple Computer), il apparaît que le seul moyen d'obtenir le nombre de publications pour ce titre exact consiste à effectuer la requête sur ce nom puis à décomposer avec le pavé Refine by / Publications Names. Les guillemets ("double quotation marks") sont indispensables pour rechercher une chaîne de caractères contenant des espaces mais la recherche avec ou sans guillemets sur une chaîne sans espaces renvoie des valeurs différentes : visiblement, en l'absence de guillemets, la recherche est étendue au pluriel, au 's (Dobb renvoie Dr. Dobb's), peut-être à d'autres formes. Par exemple, la recherche de informatic dans 'Find publication' renvoie les titres contenant Informatics mais pas Informatica. Le nombre de "citations" (au sens de nombre de réponses) affiché est fantaisiste : une requête 'type de publication=Proceedings ' depuis le portail Guide renvoie 14090 actes de conférence pour lesquels le plus grand nombre de citations est 31 (et 0 pour la majorité des actes de conférence). La même requête pour les Journaux renvoie 0 pour tous les Journaux Quelques difficultés plus sérieuses, limitant la fiabilité des résultats obtenus Certains résultats doivent être ignorés : Une recherche affinée par un "Refine by / Publication Names", après avoir fourni une chaîne de caractères à chercher dans PublicationName, renvoie des résultats qu'il faut absolument ignorer : par exemple, la recherche de la chaine "Computer" pour le type Journal (PublishedAs:periodical) fournit une liste de titres accompagnés du nombre d'articles ; parmi ces titres, on trouve les actes de conférence dont le titre de la publication contient la chaine (exemple "ITiCSE '03: Proceedings of the 8th annual conference on Innovation and technology in computer science education") et qui sont également parus dans un journal (de titre quelconque, dans l'exemple SIGSE Bulletin). Le compte obtenu pour cette publication/Actes de conférence ne concerne que les articles également parus dans un journal et pas le titre dans son ensemble et est donc inexploitable les journaux où ont été aussi publiés des actes de conférence dont le titre de la publication (titre des actes de conférence) contient la chaîne. Le compte obtenu pour ce journal ne concerne que ces articles et n'est donc pas complet. Dans l'exemple précédent, on obtient SIGSE Bulletin avec le nombre d'articles également parus dans des Actes de conférence de titre contenant Computer, ce qui est inexploitable. Doublons: Par exemple, dans la liste des journaux de "The Guide" (bibliographic listing), on obtient deux fois "Computer Music Journal" ou " Computing in Science and Engineering" avec mêmes dates et même complément, deux fois "Computers in Libraries" avec dates différentes (mais intervalles qui se recouvrent) .... 23
Le nombre de publications obtenu pour des requêtes identiques est différent selon la méthode employée Quelques exemples : Nombre de publications par type (requêtes effectuées le 09/09/10) - nombre de publications de type Proceeding (sur les 1 568 378 au total) = 716 877 en interrogeant "Advanced Search (avec uniquement Proceeding coché") et 702 787 avec un "Refine by All Publications" après une recherche totale (sans restriction) ; - nombre de publications de type Proceeding pour [1999-2008] (sur 746 517 au total) = 368 960 actes de conférence par la restriction sur l'interface et 361 941 en effectuant un "Refine by All Publications" ; - 162 626 "Book" par un "Advanced Search/Book" et 160 457 par un "Advanced Search/All" puis "Refine by All Publications" ; - 623 312 "Journal" par advanced search/Journal, et 567 498 "Periodical" par un "Advanced Search/All puis Refine by All Publications". totaux différents : Une recherche "Advanced Search" (sans restriction de type) pour [2006-2008] renvoie 316933. Un "Refine by/All publications" ventile selon les types de publications. Nous obtenons Proceeding (167 289), Periodical (107 326), Book (23307), Thesis (8 777), Technical Report (29) dont la somme est égale à 306 728. recherche en se limitant à un intervalle de temps - une recherche par "Browse the Guide/ choix d'un type de publi/Journal" (qui renvoie 1116 le 09/09/10) puis un "Refine by/Publication Year", par exemple, [1999-2008] renvoie une erreur (la ligne en jaune : aucune réponse) ; - la même requête "Refine by/Publication Year" exécutée après une navigation de 1 page (par exemple) dans l'ensemble des 1116 titres de journaux renvoie une réponse : 193 ; - cette réponse est incohérente avec des recherches directes sur certains journaux : on ne trouve pas, par exemple "ACM Computing Surveys" dans la liste des 193, alors qu'une recherche des publications de ce journal entre 1999 et 2008 renvoie 290 publications. 24
Vous pouvez aussi lire