Que nous apprennent les citations bibliographiques des articles scientifiques ?
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Que nous apprennent les citations bibliographiques des articles scientifiques ? Une contribution linguistique à l'évaluation de la production scientifique. Marc BERTIN¹ et Jean-Pierre DESCLES² Laboratoire LaLIC Paris-Sorbonne 28 Rue Serpente 75006 Paris 1 marc.bertin@paris4.sorbonne.fr 2 jean-pierre.descles@paris4.sorbonne.fr Résumé : Les citations bibliographiques ont un rôle important dans l'évaluation de la science. Cependant, il n'existe pas encore de théorie de la citation permettant d'expliquer leurs portées au sein des communications scientifiques. L'Exploration Contextuelle et la plateforme EXCOM, en annotant sémantiquement et automatiquement les renvois bibliographiques permet d'envisager cette problématique sous un nouvel angle. Mots-clés : Bibliométrie; Exploration Contextuelle; EXCOM; Evaluation de la science; Articles scientifiques; bibliosémantique. Introduction L'utilisation des articles scientifiques pour évaluer un domaine scientifique appel nécessairement une composante d'ordre statistique. La bibliométrie, tout comme la scientométrie, est un outil pertinent qui soulève aujourd'hui un certain nombre de questions. Aussi la bibliométrie sera au coeur de notre réflexion et plus particulièrement l'étude des citations bibliographiques au sein des articles scientifiques. Depuis une vingtaine d'années, de nombreux travaux se sont interrogés sur l'importance de la citation autrement que d'un point de vue quantitatif. Il en résulte qu'une théorie de la citation est de plus en plus nécessaire afin de mieux comprendre le rôle des articles scientifiques au sein de la recherche. Les indicateurs bibliométriques s'appuient implicitement sur le fait que les propos pertinents d'un auteur sont généralement cités par un autre auteur. Il est donc raisonnable de penser qu'un article souvent cité est utile à la communauté scientifique et que plus le nombre de citations est important, plus son influence sera grande ainsi que sa contribution. Pour appuyer ces propos, nous pouvons citer Cole et Cole [COL73] : « The number of citations is taken to represent the relative scientific significance or « quality » of paper. » De Solla Price, en 1970, [PRI70] propose une clarification des termes « citation » et « reference » en introduisant la distinction suivante : « If paper R contains a bibliographic note using and describing paper C, then R contains a reference to C and C has a citation from R ». Afin de d'appréhender plus largement la citation, nous devons également nous intéresser à la motivation des auteurs. Mais si actuellement, il y a une profonde distinction entre la motivation des auteurs à citer et la citation en elle-même, Luukkonen et Zuckerman [LUU90; ZUC87] soulignerons que « The existence of various cognitive meanings of citations and motivations for citing does not necessarily invalidate the use of citations as (imperfect) performance measures » . L'utilisation d'une approche 1
numérique et statistique pour évaluer la science n'est pas parfaite, comme le souligne, Hoeffel en constant que :”Impact Factor is not a perfect tool to measure the quality of articles but there is nothing better and it has advantage of already being in existence and is, therefore, a good technique for scientific evaluation”. Les citations et la bibliographie jouent un rôle fondamental, mais reste un phénomène mal compris. Le comptage des références bibliographiques sans tenir compte de leurs significations ou de leurs différents rôles dans les textes est l'approche actuelle. Après une brève présentation des indicateurs bibliométriques, nous présenterons dans un premier temps les différentes approches et études qui gravitent autour de la citation, essayerons de comprendre ce que la citation implique et ce qui amène l'auteur à citer ces confrères. Puis nous proposerons une nouvelle approche en nous appuyant sur l'exploration contextuelle [DES91, DES96]. À travers une étude linguistique de corpus d'articles scientifiques, nous avons obtenu une classification des renvois bibliographiques utilisant des marqueurs linguistiques, offrant ainsi des éléments de réponses au rôle de la citation et à sa portée. L'implémentation de ces ressources linguistiques au sein de la plateforme EXCOM offre la possibilité d'annoter sémantiquement et automatiquement les textes scientifiques permettant d'envisager de nouveaux types d'indicateurs non plus biblimétriques mais bibliosémantiques. Les indicateurs bibliométriques Les indicateurs bibliométriques sont multiples, et servent dans de nombreux domaines. Aujourd'hui, ils permettent avant tout d'évaluer la productivité d'un pays, d'un domaine, d'un laboratoire ou bien d'un chercheur. Cependant, cet indicateur reste déconseillé au niveau de l'individu. Les quantités mesurables peuvent être le nombre de publications, le nombre de co-signatures et co-publications, le nombre de citations qui montrent l’impact des articles cités. Les liens scientifiques des citations indiquent le rapport d’influence entre communautés scientifiques. Enfin, le nombre de brevets ainsi que les citations de brevets sont des indicateurs d’inventivité, d’innovation et de capacité technologiques et sont généralement mis en relation avec les ressources investies dans les activités de recherche et développement. L’essor de ce nouveau champ d’investigation n’a été rendu possible qu’avec la création de l’Institute for Scientific Information par E. Garfield [GAR65] et surtout l'avènement des bases de données bibliographiques informatisées qui ont permis de rendre accessible leurs traitements. Disposer d'une base de données permettant de référencer ainsi les auteurs, les journaux et les auteurs qui citent les journaux a été le point de départ de l'élaboration du Facteur d'Impact. Il n'est plus à démontrer l'importance des citations qui sont très présentes dans les systèmes informatiques comme le SCI de l'ISI ou Citeseer. Aussi retiendrons-nous les citations suivantes qui ont le mérite de proposer une définition claire du rôle du facteur d'impact dans le cadre de l'évaluation de la science et des chercheurs. Il faut souligner que le terme “impact factor” a été utilisé en Europe pour décrire à la fois l'impact d'un journal et d'un auteur. Pour Garfield, “It is one thing to use impact factors to compare journals and quite another to use them to compare authors. Journal impact factors generally involve relatively large populations of articles and citations. Individual authors, on average, produce much smaller numbers of articles although some are phenomenal.” Le facteur d'impact est donc un indicateur permettant avant tout d'évaluer les journaux. Les limitations et les biais Si la bibliométrie rajoute de la valeur à la vue des pairs, elle ne peut que difficilement les remplacer. Ils sont des mesures et non des signes précieux de la qualité de la recherche. Ce débordement, en dehors des canaux de communication classique n'est-il pas le signe précurseur que l'hégémonie du FI de ces cinquante dernières années a vécu et qu'il est désormais nécessaire d'envisager une évaluation quantitative à une évaluation qualitative de la publication scientifique? La bibliométrie 2
apporte donc une mesure des activités de recherche, mais des limites d'ordres techniques et conceptuelles ne permettent pas l'utilisation à l'unanimité des indicateurs à l'ensemble de la production scientifique. Si les journaux en science de l'information s'intéressent naturellement à cette problématique, nous constaterons que cette question touche des domaines qui dépassent ce cadre. Garfield [GAR00] mentionnera par la suite : « I first mentioned the idea of an impact factor in 1955. At that time it did not occur to me that it would one day become the subject of widespread controversy. [...] I expected that it would be used constructively while recognizing that in the wrong hands it might be abused ». On peut non seulement affirmer que les moyens actuels ne permettent pas d'identifier la valeur d'un papier. Mais qu'elle conduit à des pratiques qui peuvent mettre en péril la qualité des articles. Les conséquences ne sont pas sans importance. Cela peut provoquer des comportements antiscientifiques comme le plagiat, la publication dans une revue où le FI est élevé plutôt que dans une revue adéquate ou bien encore de diviser les données en partie ridiculement petites. Toutes les revues ne sont pas recensées et pour celles qui le sont, il peut y avoir sur- ou sous-estimation de la revue et donc des travaux et des équipes. Les domaines sont inégalement représentés et les indicateurs bibliométriques s’appliquent très difficilement pour les sciences humaines et sociales. On notera que l'autocitation, la citation d’un article controversé ainsi que la citation négative ne sont pas prise en compte par l’approche statistique (ce qui n'est plus forcement vrai pour l'autocitation). De plus, les ouvrages ne sont pas considérés. Nous pouvons aussi constater que deux ans n'est pas forcement une période suffisante pour qu'un article se révèle. En effet, cette période varie en fonction de la discipline or il s'agit de la durée retenue pour le calcul du facteur d'impact. Pour le moment, il n'y a guère de solutions innovantes, seulement de nouvelles approches statistiques permettant de minimiser les biais introduits. Mesurer la qualité de la production est relativement difficile dans le sens où les indicateurs bibliométriques caractérisent le contenant et non le contenu. Elle apporte une valeur et des mesures, mais ils ne sont pas et ne doivent pas être des signes de la qualité de la recherche scientifique. On constatera ces dernières années une attitude du « publish or perish » conduisant à des pratiques d'écriture qui peuvent mettre en péril la qualité des articles. Nous sommes désormais dans l’ère du « publier ou mourir ». L'un des risques encourus par cet état des faits est sans doute à court terme une production scientifique accrue, mais d'une qualité moindre, nécessitant de parcourir un certain nombre de publications pour couvrir une pensée ou un concept. À moyen terme un risque d'uniformisation de la recherche est présent et de ce déclin de la diversité, nous risquons d’avoir à moyen terme une recherche homogène. Si les articles pointant du doigt les biais introduits par cette méthode d'évaluation sont de plus en plus nombreux, ils ne proposent cependant guère de solutions innovantes, seulement de nouvelles approches statistiques permettant de minimiser les biais introduits. Un rôle économique L'importance de cet outil n'est pas négligeable dans le sens où elle a un rôle économique, voir politique. Que ce soit la classification de Shangaï ou la nécessité des investisseurs à évaluer les risques afin d’octroyer des crédits à un laboratoire ou une équipe, les indicateurs bibliométriques jouent un rôle prépondérant quant à l’évaluation de la science. Identifier la production scientifique et vouloir porposer son évaluation est un exercice difficile. Sans rentrer dans un débat d'actualité, je soulignerai une prise de conscience plus vive de cette problématique avec la classification de Shangaï. De même, si l'approche de Garfield est loin d'offrir à travers le Facteur d'Impact une solution très pertinente, elle n'en reste pas moins la solution la plus présente, et cela, malgré les biais introduits et souvent discutés dans la littérature scientifique et cela, quelque soit la discipline. 3
Théorie de la citation Nous avons constaté que les principaux indicateurs bibliométriques s'expriment à l'aide de la bibliographie. Nous allons donc étudier le processus de citation à travers les articles scientifiques. Elle est à la base des indicateurs puisque l'analyse des échanges à grande échelle de citation entre les différents acteurs est riche en enseignement. Elle peut éclairer par exemple les relations entre disciplines scientifiques, les affinités et interdépendances entre pays, l’impact et l’influence de différents journaux scientifiques. Nous citerons Price [PRI63] dont l'approche de la problématique souligne sa formation de physicien. «On étudie le comportement d'un gaz à différentes conditions de température et de pression. On ne s'intéresse pas à une molécule appelée Georges, se déplaçant à une vitesse spécifique et située en un endroit spécifique à un instant donné; on considère seulement la moyenne de l'ensemble total des molécules où certaines sont plus rapides que d'autres, où elles sont situées au hasard et se déplaçant en différentes directions.» Au-delà de l'aspect purement quantitatif de cette thermodynamique des auteurs, nous pouvons nous interroger sur la citation en elle-même, son sens et surtout les motivations des auteurs. Cependant, de la part des bibliométriciens, il est difficile de concevoir la citation selon un autre angle que celui de la quantité et de la distribution. Price soulignera que l'on : « ne peut pas tabler sur la rigueur, la cohérence et la conscience absolue de tous les auteurs dans la notation de leurs sources ». Ce qui signifie qu'il faut tenir compte « des méfaits de certains auteurs citant de préférence leurs propres articles, ceux de leurs amis ou ceux de savants puissants ou importants conférant un statut à leur travail ». Cronin [CRO84] remarquera qu'il n'est pas nécessaire d'avoir lu un article pour le citer, [PRI72] affirmant déjà que « la pratique consistant à écrire d'abord l'article, puis à ajouter pour la décoration le quota orthodoxe d'une douzaine de références, ne fausse pas sensiblement en moyenne le souci consciencieux de rendre justice aux articles sur lesquels s'est appuyé le travail ». La motivation des auteurs et les conséquences des citations seraient distinctes d'un point de vue analytique. « The existence of various cognitive meanings of citations and motivations for citing does not necessarily invalidate the use of citations as (imperfect) performance measures » [LUU90; ZUC87]. Malgré ces propos, nous maintiendrons que la complexité de la citation se révèle à travers les différentes interprétations qui en sont faites. Quand est-il précisément ? Qu'elle est le processus de la citation et qu’elles sont les motivations des auteurs à user (voir abuser) de la citation ? L'effet Saint Mathieu Cependant, le décompte des citations induit un phénomène intéressant nommé l'effet Saint Mathieu. Il est important de comprendre l'effet Saint Mathieu qui biaise la référence en ne citant ou ne faisant référence qu'à des auteurs de plus grandes notoriétés lorsque le choix se pose. Cette démarche a pour dessein de mieux convaincre à force de « nom » l'argumentation présentée dans leurs articles. Merton [MER95] définit l'effet Saint Mathieu : « The Matthew effect is the accruing of large increments of peer recognition to sicentists of great repute for particular contributions in contrast to the minimizing or withholding of such recognition for scientists who have not yet made their mark. » Cet effet n'est heureusement pas une condition nécessaire pour obtenir une certaine visibilité. À partir du moment où l'apport est significatif, le papier aura un impact et trouvera sa place dans la communauté. Mais ce phénomène induit un écart plus grand entre un papier modestement cité et un papier plus visible sans que cet écart ne soit justifié par un critère scientifique. L'effet Saint Mathieu ne fait qu'amplifier le phénomène en jouant le rôle de catalyseur. Citation et durée de vie de la citation La vie d'un article scientifique est assez simple. En considérant sa fonction première, un papier termine sa vie de deux façons : Soit le papier est non significatif voir insignifiant et il sombrera dans les abîmes de l'oubli et par conséquent ne remplira pas sa fonction première. Soit l'article, apporte une connaissance nouvelle qui se transmutera en « savoir implicite ». Aussi un document 4
non cité peut avoir deux valeurs : il n'a aucun intérêt pour la communauté scientifique ou alors il appartient au « savoir implicite » passé un certain temps. En médecine, passé une certaine période, les articles ne sont que rarement cités. Pendant une durée assez courte, l'article va vivre et être plus ou moins cité. La durée de vie d'un article, c'est à dire, son existence dans les bibliographies des collègues est variable en fonction de son domaine. Price [PRI65], en 1965, a montré que les papiers récents ont un meilleur taux de citation que des papiers affichant un âge certain. Mais nous pouvons également constater que les papiers sont cités avec un taux élevé dans les quelques années qui suivent leurs publications puis chutent. Van Rann a établi que la vie moyenne d'un article selon son taux de citation ne dépassait pas une période de 3 ans après sa parution. Cette période est de deux ou trois ans et est généralement considérée comme « le délai moyen de pénétration des publications dans la communauté des chercheurs » [COU90]. Cela correspond à la période utilisée par le facteur d'impact. Processus de la citation Au-delà ce ces aspect purement quantitatif, nous nous devons de prendre en considération les processus complexes qui amènent les auteurs à utiliser la citation. On peut, simplement s'accorder à dire qu'il s'agirait avant tout d'une tradition scientifique qui aurait pour but l'identification d'un point spécifique localisé dans le texte d'un autre auteur. Dans l'ouvrage de Rousseau et Egghe [EGG90; ROU90], page 204, nous pouvons lire : « Scientific tradition requires, at least since the 19th century, that scientists wrinting articles refer to earlier articles which relate to th theme of the paper. These references are supposed to identify those earlier researchers whose concepts, methods, equipment, etc. inspired or were used by author in developing his or her own article. » Mais il serait encore une fois réducteur de ne pas considérer les différentes motivations des auteurs. Pourquoi un auteur cite un autre auteur, Garfield [GAR77] a identifié en 1964, puis en 1977, 15 raisons différentes : paying homage to pioneers, giving credit for related work, identifying methodology, providing background reading, correcting a work, criticizing previous work, substantiating claims, alerts to a forthcoming work, providing leads to poorly disseminated work, authenticating data and classes of fact – physical constants, etc., identifying original publications in which an idea or concept was discussed, identifying original publication or other work describing an eponymic concept, disclaiming works of others and disputing priority claims. Selon Gilbert citer est avant tout un acte de persuasion. Pour cela, citer quelqu'un faisant autorité permet d'appuyer son argumentation afin de convaincre. Nous retrouvons deux écoles de pensées : l'une peut être qualifiée de normative alors que les sociologues relativistes entrevoient une fonction plus sociale : la citation serait une manière de s’immuniser contre la critique. Small [SMA82] identifia en 1982 cinq distinctions. Un travail peut être : Refuted, Noted Only, Reviewed, Applied, Supported par le travail qui le cite. Ces catégories sont respectivement catégorisées par : negative, perfunctory, compared used et Substantiated De même, la sélection peut être un élément stratégique en faisant référence à l'éditeur du journal ou certains « reviewer » [CAS00]. Un article peut être oublié volontairement ou non en fonction des besoins de l'auteur. Leydesdorff montre que la citation n'a pas le même rôle selon la maturité du domaine de recherche. Enfin, il existe des différences entre l'usage rhétorique des mêmes citations entre un discours d'argumentation et d'un texte scientifique. En 1987, MacRoberts et Latour ont développé le point de vue que les citations ont des fonctions « perfunctory » et « rhetoric ». Ces travaux seront poursuivis par Cozzens [COZ89; COZ97]. Il étudie la citation selon un point de vue sociologique. En 1984, Cronin [CRO84] conclue que la citation doit être considérée comme une : « function in scientific communication among texts » ce qui contraste avec les études précédentes considérant « to the uses of citations within articles ». 5
Les citations ont des rôles précis dans les articles scientifiques et leur répartition n'est pas homogène. Hargens 2000 et Voos and Dagaev 1976 [HAR00; VOO76] ont montré que les citations étaient souvent présentes en début de papier. En introduction se trouvent les papiers plus généraux où l'on fait un état de l'art ...ce qui implique un nombre élevé de publication dans la bibliographie. De même, les papiers faisant appel à des méthodes sont plus souvent cités avec un nombre de citations plus élevé. D'un autre côté, la fonction textuelle des citations peut être très différente. Les citations représentant des travaux importants ou des avancés significatifs par rapport aux travaux antérieurs. Il en résulte actuellement deux approches. On peut considérer la fonction cognitive des références qui s'oppose à l'analyse des citations comme un processus social. Cette dernière est exogène à l'article. Cozzens proposa alors de prendre en considération le fait qu'un auteur a des contraintes externes lien aux normes, tradition et règles qui régissent sont domaine et d'un autre coté, ses connaissances et ses motivations personnelles. La nature même de la science joue un rôle. [COL92] fait la distinction entre « core knowledge » et « frontier knowledge ». et les articles décrivant des domaines encore peu explorés peuvent rapidement être oublié puisqu'il ne peuvent être à la base de réflexion future. Présentement, pour dresser une cartographie de la science à travers l'étude des textes scientifiques, nous devons envisager d'utiliser des cartes de co-citation et ont présenté de nouveaux indicateurs offrant la possibilité d'établir ces cartes (Callon et al. 1986) [CAL86]. Afin de mener une réflexion de fond sur les indicateurs bibliométriques et plus principalement celui du taux de citation, il est nécessaire de comprendre les processus complexes de la citation. Présentement, une citation est associée à un lien, d'ordre quantitatif dont la valeur intrinsèque n'est pas déterminée. Une théorie de la citation est souhaitée et malgré quelques travaux et études sociologiques, nous en sommes encore loin d'une théorie unifiée. Elle est quantifiable, mais de par sa nature évanescente, empêche une utilisation plus fine des indicateurs bibliométriques, introduisant alors des biais liés à la pluralité de ces facettes. Nous allons donc, étapes par étapes étudier selon différentes approches, ce qu'est une citation et son utilité. Au-delà de son caractère purement informatif, régies par des normes bibliographiques dans sa forme, les citations ont une nature multiple et un rôle important dans l'acte de la communication scientifique. Une nouvelle approche : la bibliosémantique Une nouvelle approche de cette problématique doit être envisagée. Nous devons désormais nous intéresser à l'auteur, à ces co-auteurs et également au contenu d'un article selon une approche qualitative. Pour cela, une réflexion sur l'étude des publications doit être entreprise. Sans prétendre fournir un traitement sémantique complet d'un article scientifique, nous pourrons dans un premier temps considérer les relations sémantiques entre l'auteur, les co-auteur et les références bibliographiques. Il serait tout à fait pertinent de savoir si un article est cité de façon positive ou négative. Une référence bibliographique citée en contre-exemple est tout à fait révélatrice des relations entre les travaux des chercheurs. Il peut s'agir entre autres d'une référence par rapport à une définition, une hypothèse ou bien une méthode, mais également d'un point de vue, d'une comparaison ou bien d'une appréciation. Cette approche permettra également de mettre en évidence l'autocitation. La méthode de l'Exploration Contextuelle va permettre, à l'aide d'une étude poussée des indices, une analyse plus fine des références bibliographiques. Peut-on envisager de nouveaux indicateurs s’appuyant sur une nouvelle méthodologie ? Tout comme l’avènement de la bibliométrie s’appuie sur des avancés technologiques, notamment celui des bases de données, la bibliosémantique s’appuie sur des avancés linguistiques et la possibilité de traiter des documents en plein-texte : 1. Accessibilité aux articles en plein-textes 6
2. Une approche linguistique de la problématique Des difficultés sont présentes avant d’avoir un accès complet aux articles scientifiques. ll y a des freins d’ordre éditorial, techniques, juridiques, mais l’accès en ligne est un vecteur de communication que l’on ne peut plus ignorer. L’exploration contextuelle permet aujourd’hui, une étude systématique, sémantique et automatique de ce type de traitement. L’annotation des segments textuels offre de nouvelles possibilités dans notre façon d’appréhender les indicateurs. Nous proposerons donc une classification des relations entre auteurs à base de critères qualitatifs basée sur une étude linguistique textuelle. Bibliographie et renvois bibliographiques Les différents types de renvois bibliographiques permettent d’identifier le segment textuel sur lequel s’appliquera le traitement informatique. L’annotation sémantique résultante dégagera un ensemble de relations permettant alors une catégorisation de l’utilisation de ces renvois. Nous nous proposons d'utiliser les renvois bibliographiques d'un article afin de déterminer des segments textuels sur lesquels nous pourrons appliquer la méthode d'exploration contextuelle. L'appel de citation dans un texte peut prendre différentes formes. Il peut s'agir principalement d'un renvoi numérique ou d'un renvoi par nom d'auteur. Pour cela, nous dresserons une classification des différentes familles numériques et alphanumériques des références bibliographiques. Afin de traiter automatiquement cette tâche d'identification et d'extraction, nous pourrons par exemple définir un alphabet adéquat permettant d'appliquer au corpus un automate fini déterministe. Cette extraction va nous permettre dans un premier temps d'étiqueter le corpus, puis de dresser des listes d'auteurs, de renvois ainsi qu'une bibliographie complète de l'auteur et de ces co-auteurs. Il sera également intéressant, dans notre approche qualitative, d'établir les relations entre les renvois bibliographiques et la bibliographie. Différents textes ont été travaillés d'un point de vue linguistique afin de vérifier si les marqueurs linguistiques sont indépendants des domaines. Exemple de textes scientifiques : Articles scientifiques, articles de synthèses, critiques littéraires, etc ... Nous prendrons comme postulat de départ que la bibliographie est effectivement une donnée essentielle pour l'évaluation des publications. L'appel de citation dans un texte peut prendre différentes formes. Il peut s'agir principalement d'un renvoi numérique ou d'un renvoi par nom d'auteur. Pour cela, nous dresserons une classification des différentes familles numériques et alphanumériques des références bibliographiques. Formats standard et normes Pour ce travail, nous avons utilisé les normes, mais également les « coutumes ». En effet, les renvois bibliographiques dans le texte sont plus ou moins normalisés selon les normes ISO 690-1 (Z 44-005) et ISO 690-2, mais il était nécessaire de prendre en compte des pratiques dépassant le simple renvoi numérique ou alphanumérique afin de pouvoir traiter exhaustivement l'ensemble des renvois bibliographiques. Afin de traiter automatiquement cette tâche d'identification et d'extraction, nous pourrons par exemple définir un alphabet adéquat permettant d'appliquer au corpus un automate fini déterministe. Pour identifier les renvois bibliographiques se trouvant présents dans le texte, nous nous appuierons sur les travaux déjà effectués [BER06], qui proposent un automate à états finis afin de localiser les renvois bibliographiques. Cependant, au lieu de considérer l'aspect numérique d'une référence bibliographique, nous utilisons les renvois dans le texte afin de catégoriser les relations entre auteurs. Nous avons émis l'hypothèse que la pensée de l'auteur par rapport aux travaux de ses confrères se trouve à proximité de la référence bibliographique. Aussi considérons-nous dans cette première approche que la prise de position d'un auteur vis-à-vis de ces confrères se trouve dans un espace proche d'un renvoi bibliographique. 7
Méthodologie Face à ce constat, il serait intéressant pour la communauté scientifique de disposer d'un outil plus qualitatif pour la conception de réseaux d'auteurs. Les outils de cartographie actuels s'appuient sur une approche quantitative et matricielle. Une nouvelle approche de cette problématique doit être envisagée. Sans prétendre fournir un traitement sémantique complet d'un article scientifique, nous pourrons dans un premier temps considérer les relations sémantiques entre l'auteur, les co-auteurs et les références bibliographiques. Il serait tout à fait pertinent de savoir si un article est cité de façon positive ou négative. Une référence bibliographique citée en contre-exemple est tout à fait révélatrice des relations entre les travaux des chercheurs. Il peut s'agir entre autres d'une référence par rapport à une définition, une hypothèse ou bien une méthode, mais également d'un point de vue, d'une comparaison ou bien d'une appréciation. Suite à l’identification des appels bibliographiques, nous proposerons une annotation de ceux-ci avec une catégorie afin de définir comment l'auteur a été cité. Cette catégorisation est définie par l'étude d'indices que nous relèverons dans la phrase. Nous rechercherons les indices positifs/négatifs de citation d'un auteur, ainsi que les citations hypothèses/méthodes utilisées par un auteur. On caractérisera alors ce point de vue comme étant une catégorisation sémantique des références de citation d'auteur. Le renvoi bibliographique qui se trouve dans le texte permet de définir un segment textuel où se trouvera l'information de catégorisation de ce renvoi. L'implémentation informatique de cette approche utilise la plateforme EXCOM (Exploration Contextuelle Multilingue) développée au sein du laboratoire LaLIC. Nous pourrons nous référer à l'article de [DJI06] décrivant plus en détail la plateforme. Nous avons constitué un corpus de travail ou chaque document est composé d'une bibliographie. Il peut s'agir d'articles scientifiques, de compte rendu scientifique, de critiques etc .... L'idée est de proposer une catégorisation qui permet de mettre en évidence la prise de position d'un auteur par rapport à un autre auteur. En effet, une citation, dans un document bien élaboré, implique une mise en relation entre l'auteur et celui qui est cité ou plus exactement une prise de position selon le travail de l'auteur cité. Indicateurs et indices Nous nous proposons donc d'utiliser les renvois bibliographiques identifiés par l'automate à états finis d'un article afin de déterminer des segments textuels et déterminer un espace recherche sémantique associé à cette référence. Les renvois bibliographiques seront alors considérés comme étant nos indicateurs. Les indices linguistiques, quant à eux, permettent de déterminer une information sémantique spécifique. Ils permettent de réduire l’indétermination et de spécifier la qualité du renvoi. Il s'agit du seul savoir dont nous avons besoin pour déterminer nos catégories et se cette information se trouve présente autour de l'indicateur, dans le même segment textuel que celui-ci. La méthode de l'Exploration Contextuelle, développée par Mr Desclés [DES91, DES96], va permettre à l'aide des indices, de lever les indéterminations sémantiques de l'unité linguistique analysée et proposer une catégorisation qualitative des références bibliographiques. Segments textuels et localisation L'indicateur permet de déterminer le segment textuel nécessaire et suffisant à l'accomplissement de notre tâche. Dans cette étude, nous ferons coïncider ce segment textuel avec la phrase. Nous nous gardons la possibilité d'étendre nos recherches à des zones plus larges, comme la théorie nous le permet, si cela s'avérait nécessaire à lever certaines ambiguïtés. Une fois l'espace de recherche déterminé, il faut prendre en compte la localisation de l'indice par rapport à l'indicateur. Nous avons identifié cinq localisations possibles par rapport à l'indicateur : « premier mot du segment textuel | avant le milieu | au milieu | après le milieu | à la fin du 8
segment textuel ». D'un point de vue pratique, seul le contexte droit|gauche est implémenté et se révèle pour le moment suffisant dans le cadre de ce travail. Catégorisation Suite à l’identification des appels bibliographiques, nous pourrons alors proposer une annotation de celles-ci avec une catégorie afin de définir comment l'auteur a été cité. Cette catégorisation est définie par l'étude d'indice que nous relèverons dans la phrase. Nous rechercherons les indices positifs/négatifs de citation d'un auteur, ainsi que les citations hypothèses/méthodes utilisées par un auteur. L'application des règles de l'Exploration Contextuelle permettra ainsi de lever les indéterminations sémantiques de l'unité linguistique analysée. On caractérisera ce point de vue comme étant une catégorisation sémantique des références de citation d'auteur. L'application informatique de cette étude s'effectue dans le cadre de la plateforme EXCOM (Exploration Contextuelle Multilingue) qui est en cours de réalisation au sein du Laboratoire LaLICC. Ce moteur d’annotation sémantique s’appuie sur la méthode de l'Exploration Contextuelle et permet d’étiqueter automatiquement un texte à partir de ressource linguistique. Nous serons alors en mesure d'apporter une information d'ordre sémantique et à terme de proposer une évaluation qualitative des renvois bibliographiques. Enfin, cette approche proposera de dépasser le cadre bibliométrique pour analyser les sources d'un texte et détecter d'éventuelles cliques entre auteurs au sens de la théorie des graphes. Les différentes catégories ont été identifiées par Krushkov Yordan [KRU05] dans son travail de mémoire de maîtrise sous la direction de Mr Desclés. Elles se trouvent à la base de ce travail, aussi allons nous détailler les différentes catégories sur lesquelles nous nous appuyons. Le point de vue est la première catégorie que nous avons identifiée. Il est très présent dans les corpus étudiés. Les indices linguistiques suivants font partie de cette catégorie : « Selon | d’après | pour | considérer que | nous y voyons |comme le dit |... ». Ils sont généralement localisés en amont de l'indicateur. La seconde catégorie à laquelle nous nous sommes intéressés est la comparaison. En effet, nous comparons souvent le travail de nos confrères. Dans ce cas précisément, nous pouvons trouver des similarités ou bien des dissimilarités : « ressembler |comme dans les travaux de | le rapport avec |... ». Pour la non-ressemblance, nous avons comme indices linguistiques : « différer de | contraire l’approche de |contrairement ce qu’affirme |... » La catégorie de l'information est vaste. Pour cela, elle est divisée en sous-catégories comme l'hypothèse, l'analyse et le résultat. Pour la sous-catégorie de l'analyse, nous pouvons donner comme exemple : « a été analysé dans | l’analyse de | lors de son analyse | ... ». Pour concevoir la sous-catégorie des résultats, nous avons considéré les indices linguistiques suivants : « nous avons démontré | donner de nombreux exemples de | a publié ses résultats | a dégagé |... » La catégorie de la définition est également importante avec pour indices : « ils caractérisent | la notion ... introduite dans |... » La catégorie de l'appréciation met en valeur le jugement d'un auteur sur un autre auteur ou plutôt sur un ou plusieurs travaux de celui-ci. Il peut s'agir d'un jugement positif ou négatif : « ont rejeté | n’as pas répondu | en trahissant sérieusement notre proposition | ... ». 9
Cette catégorie est très importante dans le sens où elle apporte une réponse à l'un des biais introduits par l'approche statistique. Point de vue Pris de position Soi-même|Autrui Comparaison Similitude Soi-même|Autrui Dissimilitude Hypothèse Analyse Information Résultat Quotation Soi-même|Autrui Méthode Citation Contre-exemple Definition Soi-même|Autrui Appréciation Accord Autrui Désaccord Figure 1 : Catégorisation des renvois bibliographiques [BER06] Constitution du corpus Pour cette étude, nous avons constitué un corpus d'articles issus du laboratoire LaLIC afin d'identifier les indices et de constituer notre base de connaissances. Afin de traiter le caractère pluridisciplinaire de notre approche, nous avons augmenté le corpus avec des publications extraites de HAL, la base de données de l'INRIA. Nous avons également choisi des articles de la revue INTELLECTICA. Ce petit corpus de test couvre les domaines de la linguistique, de l'informatique, et des sciences cognitives afin de démontrer la capacité du système à traiter une information multidisciplinaire. À la rédaction de cet article, le corpus est exclusivement constitué de textes en français. La couverture de l'anglais sera une prochaine étape dans le développement de ce système. Plateforme informatique L’architecture informatique de la machine à annoter automatiquement EXCOM, qui s’inspire de l’architecture modulaire GATE, est décrite dans la figure suivante. Les textes traités par EXCOM sont d’abord prétraités pour les préparer à une segmentation en phrases, paragraphes et sections en s'appuyant sur les travaux de [MOU99a, MOU99b]. Le résultat de l’application de ces règles est un texte annoté. Les annotations sont des marques sous forme d’éléments et attributs XML. La sémantique de ces annotations est liée à l’organisation de la catégorie du point de vue reconnue par le système EXCOM. L'objectif de cette plateforme est de proposer une exploration du texte afin de l'augmenter d'informations sémantiques sous forme d'annotations. Si la plupart des travaux menés dans ce domaine s'appuient sur une analyse morpho-syntaxique, la méthode préconisée pour cette plateforme est l'Exploration Contextuelle et utilise une base de connaissances, constituée de marqueurs linguistiques. Elle permet d’étiqueter automatiquement un texte à partir de ressource linguistique. Déclaration de Règles L'application informatique nécessite l'écriture de règles. Celles-ci se présentent sous la forme d'un fichier XML. Aussi allons-nous détailler une règle qui permet d'annoter la publication selon le point de vue de la méthode, qui est une sous-catégorie de information. 10
Cette règle traite donc du point de vue de l'information : point_de_vue="information". L'indicateur a pour valeur : valeur="RenvBiblio" qui permet de retrouver les renvois bibliographiques et identifier l'espace de recherche qui est la phrase : espace_de_recherche="phrase". Les indices, de type liste, sont définis par leur contexte qui peut être droite ou gauche par rapport à l'indicateur, dans l'espace de recherche préalablement identifié. Dans le cas présent, les deux indices se trouvent à droite de l'indicateur. Si l'ensemble des conditions de cette règle est validé, alors EXCOM annote le segment textuel en ajoutant un attribut : Résultats Les résultats sont affichés sous la forme suivante : Le segment textuel est coloré en bleu. L'indicateur est en vert et les indices primaires et secondaires sont respectivement en vert clair et mauve. Figure 2 : Exemple du point de vue méthode [BER06] Discussion Le premier point que nous discuterons est celui des renvois bibliographiques. L'étude des segments textuels repose principalement sur l'identification de ces renvois. Aussi est-il très important dans cette approche que l'ensemble des renvois soit reconnu. Si sur cet exemple, aucun problème d'identification n'a mis à défaut cette approche, il faudra cependant tenir compte, sur des corpus plus littéraires, de la notion de courant ou de personnes associées en tant que telles. Par exemple, « Selon Pottier, nous devons concevoir que ... ». Le deuxième point est une remarque d'ordre quantitative. Sur cet exemple, nous avons constaté que l'auteur se référait plusieurs fois à la même publication d'un de ces confrères selon le point de vue de la méthode. Si l'identification des renvois bibliographiques peut apporter une possibilité nouvelle en porposant des pondérations, il faut bien garder à l'esprit que notre approche, va au-delà d'une simple pondération puisqu'à une référence bibliographique, nous faisons correspondre une catégorie sémantique. 11
Conclusion La bibliosémantique se caractérise par une étude linguistique des citations proposant alors une catégorisation. Cette approche offre une nouvelle méthodologie au traitement des citations. À court terme, cette approche permettra de proposer un outil beaucoup plus fin et complémentaire à l'approche proposée actuellement. D'une part, la prise en compte de la bibliographie comme unité est loin d'être satisfaisante et de nombreux biais sont introduits. Le fait de pouvoir catégoriser la bibliographie par une analyse linguistique donc disposer d'une approche qualitative et automatisée via la plateforme informatique EXCOM offrira un outil pertinent pour l'étude des articles scientifiques. À moyen terme de nouvelles possibilités d'exploration des textes scientifiques seront envisageables en cartographiant un domaine de recherche. L'un des avantages, est que contrairement à une approche statistique, nous pouvons étudier et obtenir des résultats sur un très petit nombre de publications, à l'échelle d'un laboratoire par exemple, tout en conservant la possibilité de travailler à une plus grande échelle. À l'approche statistique de l'évaluation, l'approche linguistique permet de porter un regard qualitatif des relations entre les travaux des différents auteurs. Perspectives Avec cette approche, nous avons la possibilité de d'affiner quelques méthodologies issues de la scientométrie. Selon Leydesdorff [LEY01] présente clairement dans son ouvrage « The Challenge of Scientometrics » les orientations à prendre pour une analyse textuelle des données. Le choix de choisir de textes comme unité d'analyse est selon lui le plus pertinent. En effet, l'article contient un grand nombre de termes qui peuvent être utilisés à travers différentes méthodes. L'une des problématiques sous-jacentes est de pouvoir, à l'aide d'une approche classique de co- occurrence et co-absence de justifier ces réseaux. En effet, l'utilisation de la méthodologie des « co- word » implique de choisir les mots comme unités d'analyse et leur co-occurrence en tant qu'attribut. L'approche de Hesse étant lexicographique, elle peut effectivement se prêter à cette approche. De façon simple, il exprime que le maillage du réseau est avant tout constitué de mot dont la position de l'un par rapport aux autres joue un rôle et dont la signification doit être comprise. Il ne retiendra pas pour ces travaux deux autres types de réseaux qui sont les réseaux sémantiques et les réseaux sémiotiques, les réseaux sémantiques étant généralement utilisés pour la représentation des connaissances. L'hypothèse de départ, jugé plausible par Leydesdorff, est qu'un auteur dans un même article scientifique essayera de ne pas utiliser les mots dans un seul et unique sens, et que leurs usages seront en quelque sorte codifiés. Citons [LEY01] : « It is a plausible assumption that in one and the same scientific article, author(s) will try to prevent variation in the meanings of words, and hence word usage can be expected to be as « codified » as possible. » L'idée est d'associer aux agrégations issuent de la structure du document des mots afin d'identifier une éventuelle structure, et si celle-ci se révèle, alors qu'elle valeur cognitive porte t'elle ? Aussi, en dépassant le cadre lexicographique et en proposant des catégories sémantiques, nous pourrions à terme, déterminer une structure des articles qui restera à définir. S'agira-t'il alors d'une structure cognitive d'un domaine scientifique ? D'un point de vue plus pragmatique, cette étude permet d'envisager une nouvelle façon de naviguer au sein des bibliothèques de demain qui seront numériques et permettront aux chercheurs d'accéder à un nombre incommensurable d'information en full-texte. À travers l'étude de la bibliosémantique, nous avons un outil pour l'évaluation de la science [BER06] mais également pour la recherche d'informations au sein des bibliothèques numériques. Si devant des millions de références bibliographiques, nous pouvons nous inspirer de la cartographie et des études venant de la bibliométrie, la bibliosémantique permettra de relier tout type de document qui s'appuie sur la bibliographie et proposera de nouveaux types de classement de l'information. Ce type d’approche trouve donc une application directe au sein des bibliothèques numériques avec des perspectives innovantes. 12
Bibliographie [BER06] Bertin M., Desclés J.P., Djioua B.,Krushkov Y., (2006) « Automatic Annotation in Text for Bibliometrics Use », FLAIRS 2006, Floride, 11-13 mai. [CAL86] Callon, M., Law, J., & Rip, A. (Eds.). (1986). « Mapping the Dynamics of Science and Technology ». London: Macmillan. [CAS00] Case, D. O., & Higgins, G. M. (2000). « How Can We Investigate Citation Behavior? A Study of Reasons for Citing Literature in Communication ». Journal of the American Society for Information Science, 51(7), 635-645. [COU90] Courtial, Jean Pierre, (1990).« Introduction à la scientométrie : De la bibliométrie à la veille technologique », p.49. [COL73] Cole, J. R., & Cole, S. (1973). « Social Stratification in Science ». Chicago: The University of Chicago Press. [COL92] Cole, S. (1992). « Making Science. Between Nature and Society ». London: Harvard University Press. [COZ89]Cozzens, S. E. (1989). « What do citations count? The rhetoric-first model ». Scientometrics, 15(5- 6), pp. 437-447. [COZ97] Cozzens, S. E. (1997). « The Discovery of Growth: Statistical Glimpses of Twentieth-Century Science ». In J. Krige & D. Pestre (Eds.), Science in the Twentieth Century pp. 127-142. [CRO84] Cronin, B., (1984). « The Citation Process: The Role and Significance of Citations in Scientific Communication »,1984, Taylor Graham, London. [DES91] Desclés, J. P., (1997). « Exploration contextuelle et sémantique: un système expert qui trouve les valeurs sémantiques des temps de l’indicatif dans un texte. », 1991, Knowledge modeling and expertise transfert p.371–400. [DES97] Desclés, J. P., « Système d’exploration contextuelle. » Co-texte et calcul du sens p.215–232. 1997. [DJI06] Brahim, D. , Flores, J.G., Blais, A., Desclés J-P., Gael, G., Jackiewicz, A., Le Priol, F., Leila,N.B., Sauzay B., (2006). « EXCOM: an automatic annotation engine for semantic information », FLAIRS 2006, Floride, 11-13 mai. [EGG90; ROU90] L. Egghe R. Rousseau (1990) « Introduction to informetrics ». Quantitative methods in Library; Documentation and Information Science. Elsevier, 1990, pp. 450. [GAR65] Garfield, E., (1965). « Can citation indexing be automated ? » National Bureau of Standards Miscellaneous.. Publication, 269:189–192. [GAR77] Garfield, E. (1977). « Can Citation Indexing Be Automated? » In Essay of an Information Scientist, vol. 1 (Vol. 1). Philadelphia: ISI Press. [GAR00] Garfield, E. (2000) « The use of JCR and JPI in Measuring Short and Long Term Journal Impact »; Council of Scientific Editors Annual Meeting May 9 [HAR00] Hargens, L. L. (2000). Graphing Micro-Regions in the Web of Knowledge: A Comparative Reference-Network Analysis. In B. Cronin & H. B. Atkins (Eds.), The Web of Knowledge. A Festschrift in Honor of Eugene Garfield (pp. 497-516). Medford: ASIS. 13
Vous pouvez aussi lire