Que nous apprennent les citations bibliographiques des articles scientifiques ?

La page est créée Christophe Wagner
 
CONTINUER À LIRE
Que nous apprennent les citations bibliographiques des articles scientifiques ?
Que nous apprennent les citations
     bibliographiques des articles scientifiques ?
                           Une contribution linguistique à
                      l'évaluation de la production scientifique.

                                Marc BERTIN¹ et Jean-Pierre DESCLES²

                                           Laboratoire LaLIC
                                            Paris-Sorbonne
                                       28 Rue Serpente 75006 Paris

                                    1 marc.bertin@paris4.sorbonne.fr
                                2 jean-pierre.descles@paris4.sorbonne.fr

      Résumé : Les citations bibliographiques ont un rôle important dans l'évaluation de la science.
      Cependant, il n'existe pas encore de théorie de la citation permettant d'expliquer leurs portées au
      sein des communications scientifiques. L'Exploration Contextuelle et la plateforme EXCOM,
      en annotant sémantiquement et automatiquement les renvois bibliographiques permet
      d'envisager cette problématique sous un nouvel angle.

      Mots-clés : Bibliométrie; Exploration Contextuelle; EXCOM; Evaluation de la science;
      Articles scientifiques; bibliosémantique.

Introduction
L'utilisation des articles scientifiques pour évaluer un domaine scientifique appel nécessairement
une composante d'ordre statistique. La bibliométrie, tout comme la scientométrie, est un outil
pertinent qui soulève aujourd'hui un certain nombre de questions. Aussi la bibliométrie sera au
coeur de notre réflexion et plus particulièrement l'étude des citations bibliographiques au sein des
articles scientifiques. Depuis une vingtaine d'années, de nombreux travaux se sont interrogés sur
l'importance de la citation autrement que d'un point de vue quantitatif. Il en résulte qu'une théorie de
la citation est de plus en plus nécessaire afin de mieux comprendre le rôle des articles scientifiques
au sein de la recherche. Les indicateurs bibliométriques s'appuient implicitement sur le fait que les
propos pertinents d'un auteur sont généralement cités par un autre auteur. Il est donc raisonnable de
penser qu'un article souvent cité est utile à la communauté scientifique et que plus le nombre de
citations est important, plus son influence sera grande ainsi que sa contribution. Pour appuyer ces
propos, nous pouvons citer Cole et Cole [COL73] : « The number of citations is taken to represent
the relative scientific significance or « quality » of paper. »
De Solla Price, en 1970, [PRI70] propose une clarification des termes « citation » et « reference »
en introduisant la distinction suivante : « If paper R contains a bibliographic note using and
describing paper C, then R contains a reference to C and C has a citation from R ». Afin de
d'appréhender plus largement la citation, nous devons également nous intéresser à la motivation des
auteurs. Mais si actuellement, il y a une profonde distinction entre la motivation des auteurs à citer
et la citation en elle-même, Luukkonen et Zuckerman [LUU90; ZUC87] soulignerons que « The
existence of various cognitive meanings of citations and motivations for citing does not necessarily
invalidate the use of citations as (imperfect) performance measures » . L'utilisation d'une approche

                                                      1
numérique et statistique pour évaluer la science n'est pas parfaite, comme le souligne, Hoeffel en
constant que :”Impact Factor is not a perfect tool to measure the quality of articles but there is
nothing better and it has advantage of already being in existence and is, therefore, a good
technique for scientific evaluation”.
Les citations et la bibliographie jouent un rôle fondamental, mais reste un phénomène mal compris.
Le comptage des références bibliographiques sans tenir compte de leurs significations ou de leurs
différents rôles dans les textes est l'approche actuelle. Après une brève présentation des indicateurs
bibliométriques, nous présenterons dans un premier temps les différentes approches et études qui
gravitent autour de la citation, essayerons de comprendre ce que la citation implique et ce qui
amène l'auteur à citer ces confrères. Puis nous proposerons une nouvelle approche en nous appuyant
sur l'exploration contextuelle [DES91, DES96]. À travers une étude linguistique de corpus d'articles
scientifiques, nous avons obtenu une classification des renvois bibliographiques utilisant des
marqueurs linguistiques, offrant ainsi des éléments de réponses au rôle de la citation et à sa portée.
L'implémentation de ces ressources linguistiques au sein de la plateforme EXCOM offre la
possibilité d'annoter sémantiquement et automatiquement les textes scientifiques permettant
d'envisager de nouveaux types d'indicateurs non plus biblimétriques mais bibliosémantiques.

Les indicateurs bibliométriques
Les indicateurs bibliométriques sont multiples, et servent dans de nombreux domaines. Aujourd'hui,
ils permettent avant tout d'évaluer la productivité d'un pays, d'un domaine, d'un laboratoire ou bien
d'un chercheur. Cependant, cet indicateur reste déconseillé au niveau de l'individu. Les quantités
mesurables peuvent être le nombre de publications, le nombre de co-signatures et co-publications,
le nombre de citations qui montrent l’impact des articles cités. Les liens scientifiques des citations
indiquent le rapport d’influence entre communautés scientifiques. Enfin, le nombre de brevets ainsi
que les citations de brevets sont des indicateurs d’inventivité, d’innovation et de capacité
technologiques et sont généralement mis en relation avec les ressources investies dans les activités
de recherche et développement. L’essor de ce nouveau champ d’investigation n’a été rendu possible
qu’avec la création de l’Institute for Scientific Information par E. Garfield [GAR65] et surtout
l'avènement des bases de données bibliographiques informatisées qui ont permis de rendre
accessible leurs traitements. Disposer d'une base de données permettant de référencer ainsi les
auteurs, les journaux et les auteurs qui citent les journaux a été le point de départ de l'élaboration du
Facteur d'Impact. Il n'est plus à démontrer l'importance des citations qui sont très présentes dans les
systèmes informatiques comme le SCI de l'ISI ou Citeseer. Aussi retiendrons-nous les citations
suivantes qui ont le mérite de proposer une définition claire du rôle du facteur d'impact dans le
cadre de l'évaluation de la science et des chercheurs. Il faut souligner que le terme “impact factor” a
été utilisé en Europe pour décrire à la fois l'impact d'un journal et d'un auteur. Pour Garfield, “It is
one thing to use impact factors to compare journals and quite another to use them to compare
authors. Journal impact factors generally involve relatively large populations of articles and
citations. Individual authors, on average, produce much smaller numbers of articles although some
are phenomenal.” Le facteur d'impact est donc un indicateur permettant avant tout d'évaluer les
journaux.

Les limitations et les biais
Si la bibliométrie rajoute de la valeur à la vue des pairs, elle ne peut que difficilement les remplacer.
Ils sont des mesures et non des signes précieux de la qualité de la recherche. Ce débordement, en
dehors des canaux de communication classique n'est-il pas le signe précurseur que l'hégémonie du
FI de ces cinquante dernières années a vécu et qu'il est désormais nécessaire d'envisager une
évaluation quantitative à une évaluation qualitative de la publication scientifique? La bibliométrie

                                                   2
apporte donc une mesure des activités de recherche, mais des limites d'ordres techniques et
conceptuelles ne permettent pas l'utilisation à l'unanimité des indicateurs à l'ensemble de la
production scientifique.

Si les journaux en science de l'information s'intéressent naturellement à cette problématique, nous
constaterons que cette question touche des domaines qui dépassent ce cadre. Garfield [GAR00]
mentionnera par la suite : « I first mentioned the idea of an impact factor in 1955. At that time it did
not occur to me that it would one day become the subject of widespread controversy. [...] I expected
that it would be used constructively while recognizing that in the wrong hands it might be abused ».
On peut non seulement affirmer que les moyens actuels ne permettent pas d'identifier la valeur d'un
papier. Mais qu'elle conduit à des pratiques qui peuvent mettre en péril la qualité des articles. Les
conséquences ne sont pas sans importance. Cela peut provoquer des comportements
antiscientifiques comme le plagiat, la publication dans une revue où le FI est élevé plutôt que dans
une revue adéquate ou bien encore de diviser les données en partie ridiculement petites. Toutes les
revues ne sont pas recensées et pour celles qui le sont, il peut y avoir sur- ou sous-estimation de la
revue et donc des travaux et des équipes. Les domaines sont inégalement représentés et les
indicateurs bibliométriques s’appliquent très difficilement pour les sciences humaines et sociales.
On notera que l'autocitation, la citation d’un article controversé ainsi que la citation négative ne sont
pas prise en compte par l’approche statistique (ce qui n'est plus forcement vrai pour l'autocitation).
De plus, les ouvrages ne sont pas considérés. Nous pouvons aussi constater que deux ans n'est pas
forcement une période suffisante pour qu'un article se révèle. En effet, cette période varie en
fonction de la discipline or il s'agit de la durée retenue pour le calcul du facteur d'impact. Pour le
moment, il n'y a guère de solutions innovantes, seulement de nouvelles approches statistiques
permettant de minimiser les biais introduits.

Mesurer la qualité de la production est relativement difficile dans le sens où les indicateurs
bibliométriques caractérisent le contenant et non le contenu. Elle apporte une valeur et des mesures,
mais ils ne sont pas et ne doivent pas être des signes de la qualité de la recherche scientifique. On
constatera ces dernières années une attitude du « publish or perish » conduisant à des pratiques
d'écriture qui peuvent mettre en péril la qualité des articles. Nous sommes désormais dans l’ère du «
publier ou mourir ». L'un des risques encourus par cet état des faits est sans doute à court terme une
production scientifique accrue, mais d'une qualité moindre, nécessitant de parcourir un certain
nombre de publications pour couvrir une pensée ou un concept. À moyen terme un risque
d'uniformisation de la recherche est présent et de ce déclin de la diversité, nous risquons d’avoir à
moyen terme une recherche homogène. Si les articles pointant du doigt les biais introduits par cette
méthode d'évaluation sont de plus en plus nombreux, ils ne proposent cependant guère de solutions
innovantes, seulement de nouvelles approches statistiques permettant de minimiser les biais
introduits.

Un rôle économique
L'importance de cet outil n'est pas négligeable dans le sens où elle a un rôle économique, voir
politique. Que ce soit la classification de Shangaï ou la nécessité des investisseurs à évaluer les
risques afin d’octroyer des crédits à un laboratoire ou une équipe, les indicateurs bibliométriques
jouent un rôle prépondérant quant à l’évaluation de la science. Identifier la production scientifique
et vouloir porposer son évaluation est un exercice difficile. Sans rentrer dans un débat d'actualité, je
soulignerai une prise de conscience plus vive de cette problématique avec la classification de
Shangaï. De même, si l'approche de Garfield est loin d'offrir à travers le Facteur d'Impact une
solution très pertinente, elle n'en reste pas moins la solution la plus présente, et cela, malgré les
biais introduits et souvent discutés dans la littérature scientifique et cela, quelque soit la discipline.

                                                    3
Théorie de la citation
Nous avons constaté que les principaux indicateurs bibliométriques s'expriment à l'aide de la
bibliographie. Nous allons donc étudier le processus de citation à travers les articles scientifiques.
Elle est à la base des indicateurs puisque l'analyse des échanges à grande échelle de citation entre
les différents acteurs est riche en enseignement. Elle peut éclairer par exemple les relations entre
disciplines scientifiques, les affinités et interdépendances entre pays, l’impact et l’influence de
différents journaux scientifiques. Nous citerons Price [PRI63] dont l'approche de la problématique
souligne sa formation de physicien. «On étudie le comportement d'un gaz à différentes conditions
de température et de pression. On ne s'intéresse pas à une molécule appelée Georges, se déplaçant
à une vitesse spécifique et située en un endroit spécifique à un instant donné; on considère
seulement la moyenne de l'ensemble total des molécules où certaines sont plus rapides que d'autres,
où elles sont situées au hasard et se déplaçant en différentes directions.» Au-delà de l'aspect
purement quantitatif de cette thermodynamique des auteurs, nous pouvons nous interroger sur la
citation en elle-même, son sens et surtout les motivations des auteurs. Cependant, de la part des
bibliométriciens, il est difficile de concevoir la citation selon un autre angle que celui de la quantité
et de la distribution. Price soulignera que l'on : « ne peut pas tabler sur la rigueur, la cohérence et
la conscience absolue de tous les auteurs dans la notation de leurs sources ». Ce qui signifie qu'il
faut tenir compte « des méfaits de certains auteurs citant de préférence leurs propres articles, ceux
de leurs amis ou ceux de savants puissants ou importants conférant un statut à leur travail ».
Cronin [CRO84] remarquera qu'il n'est pas nécessaire d'avoir lu un article pour le citer, [PRI72]
affirmant déjà que « la pratique consistant à écrire d'abord l'article, puis à ajouter pour la
décoration le quota orthodoxe d'une douzaine de références, ne fausse pas sensiblement en
moyenne le souci consciencieux de rendre justice aux articles sur lesquels s'est appuyé le travail ».
La motivation des auteurs et les conséquences des citations seraient distinctes d'un point de vue
analytique. « The existence of various cognitive meanings of citations and motivations for citing
does not necessarily invalidate the use of citations as (imperfect) performance measures » [LUU90;
ZUC87]. Malgré ces propos, nous maintiendrons que la complexité de la citation se révèle à travers
les différentes interprétations qui en sont faites. Quand est-il précisément ? Qu'elle est le processus
de la citation et qu’elles sont les motivations des auteurs à user (voir abuser) de la citation ?

L'effet Saint Mathieu
Cependant, le décompte des citations induit un phénomène intéressant nommé l'effet Saint Mathieu.
Il est important de comprendre l'effet Saint Mathieu qui biaise la référence en ne citant ou ne faisant
référence qu'à des auteurs de plus grandes notoriétés lorsque le choix se pose. Cette démarche a
pour dessein de mieux convaincre à force de « nom » l'argumentation présentée dans leurs articles.
Merton [MER95] définit l'effet Saint Mathieu : « The Matthew effect is the accruing of large
increments of peer recognition to sicentists of great repute for particular contributions in contrast to
the minimizing or withholding of such recognition for scientists who have not yet made their
mark. » Cet effet n'est heureusement pas une condition nécessaire pour obtenir une certaine
visibilité. À partir du moment où l'apport est significatif, le papier aura un impact et trouvera sa
place dans la communauté. Mais ce phénomène induit un écart plus grand entre un papier
modestement cité et un papier plus visible sans que cet écart ne soit justifié par un critère
scientifique. L'effet Saint Mathieu ne fait qu'amplifier le phénomène en jouant le rôle de catalyseur.

Citation et durée de vie de la citation
La vie d'un article scientifique est assez simple. En considérant sa fonction première, un papier
termine sa vie de deux façons : Soit le papier est non significatif voir insignifiant et il sombrera
dans les abîmes de l'oubli et par conséquent ne remplira pas sa fonction première. Soit l'article,
apporte une connaissance nouvelle qui se transmutera en « savoir implicite ». Aussi un document

                                                   4
non cité peut avoir deux valeurs : il n'a aucun intérêt pour la communauté scientifique ou alors il
appartient au « savoir implicite » passé un certain temps. En médecine, passé une certaine période,
les articles ne sont que rarement cités. Pendant une durée assez courte, l'article va vivre et être plus
ou moins cité. La durée de vie d'un article, c'est à dire, son existence dans les bibliographies des
collègues est variable en fonction de son domaine. Price [PRI65], en 1965, a montré que les papiers
récents ont un meilleur taux de citation que des papiers affichant un âge certain. Mais nous pouvons
également constater que les papiers sont cités avec un taux élevé dans les quelques années qui
suivent leurs publications puis chutent. Van Rann a établi que la vie moyenne d'un article selon son
taux de citation ne dépassait pas une période de 3 ans après sa parution. Cette période est de deux
ou trois ans et est généralement considérée comme « le délai moyen de pénétration des publications
dans la communauté des chercheurs » [COU90]. Cela correspond à la période utilisée par le facteur
d'impact.

Processus de la citation
Au-delà ce ces aspect purement quantitatif, nous nous devons de prendre en considération les
processus complexes qui amènent les auteurs à utiliser la citation. On peut, simplement s'accorder à
dire qu'il s'agirait avant tout d'une tradition scientifique qui aurait pour but l'identification d'un point
spécifique localisé dans le texte d'un autre auteur. Dans l'ouvrage de Rousseau et Egghe [EGG90;
ROU90], page 204, nous pouvons lire : « Scientific tradition requires, at least since the 19th century,
that scientists wrinting articles refer to earlier articles which relate to th theme of the paper. These
references are supposed to identify those earlier researchers whose concepts, methods, equipment,
etc. inspired or were used by author in developing his or her own article. »
Mais il serait encore une fois réducteur de ne pas considérer les différentes motivations des auteurs.
Pourquoi un auteur cite un autre auteur, Garfield [GAR77] a identifié en 1964, puis en 1977, 15
raisons différentes : paying homage to pioneers, giving credit for related work, identifying
methodology, providing background reading, correcting a work, criticizing previous work,
substantiating claims, alerts to a forthcoming work, providing leads to poorly disseminated work,
authenticating data and classes of fact – physical constants, etc., identifying original publications
in which an idea or concept was discussed, identifying original publication or other work
describing an eponymic concept, disclaiming works of others and disputing priority claims.
Selon Gilbert citer est avant tout un acte de persuasion. Pour cela, citer quelqu'un faisant autorité
permet d'appuyer son argumentation afin de convaincre. Nous retrouvons deux écoles de pensées :
l'une peut être qualifiée de normative alors que les sociologues relativistes entrevoient une fonction
plus sociale : la citation serait une manière de s’immuniser contre la critique. Small [SMA82]
identifia en 1982 cinq distinctions. Un travail peut être : Refuted, Noted Only, Reviewed, Applied,
Supported par le travail qui le cite. Ces catégories sont respectivement catégorisées par : negative,
perfunctory, compared used et Substantiated
De même, la sélection peut être un élément stratégique en faisant référence à l'éditeur du journal ou
certains « reviewer » [CAS00]. Un article peut être oublié volontairement ou non en fonction des
besoins de l'auteur. Leydesdorff montre que la citation n'a pas le même rôle selon la maturité du
domaine de recherche. Enfin, il existe des différences entre l'usage rhétorique des mêmes citations
entre un discours d'argumentation et d'un texte scientifique. En 1987, MacRoberts et Latour ont
développé le point de vue que les citations ont des fonctions « perfunctory » et « rhetoric ». Ces
travaux seront poursuivis par Cozzens [COZ89; COZ97]. Il étudie la citation selon un point de vue
sociologique. En 1984, Cronin [CRO84] conclue que la citation doit être considérée comme une :
« function in scientific communication among texts » ce qui contraste avec les études précédentes
considérant « to the uses of citations within articles ».

                                                     5
Les citations ont des rôles précis dans les articles scientifiques et leur répartition n'est pas
homogène. Hargens 2000 et Voos and Dagaev 1976 [HAR00; VOO76] ont montré que les citations
étaient souvent présentes en début de papier. En introduction se trouvent les papiers plus généraux
où l'on fait un état de l'art ...ce qui implique un nombre élevé de publication dans la bibliographie.
De même, les papiers faisant appel à des méthodes sont plus souvent cités avec un nombre de
citations plus élevé.
D'un autre côté, la fonction textuelle des citations peut être très différente. Les citations représentant
des travaux importants ou des avancés significatifs par rapport aux travaux antérieurs. Il en résulte
actuellement deux approches. On peut considérer la fonction cognitive des références qui s'oppose à
l'analyse des citations comme un processus social. Cette dernière est exogène à l'article. Cozzens
proposa alors de prendre en considération le fait qu'un auteur a des contraintes externes lien aux
normes, tradition et règles qui régissent sont domaine et d'un autre coté, ses connaissances et ses
motivations personnelles. La nature même de la science joue un rôle. [COL92] fait la distinction
entre « core knowledge » et « frontier knowledge ». et les articles décrivant des domaines encore
peu explorés peuvent rapidement être oublié puisqu'il ne peuvent être à la base de réflexion future.

Présentement, pour dresser une cartographie de la science à travers l'étude des textes scientifiques,
nous devons envisager d'utiliser des cartes de co-citation et ont présenté de nouveaux indicateurs
offrant la possibilité d'établir ces cartes (Callon et al. 1986) [CAL86].

Afin de mener une réflexion de fond sur les indicateurs bibliométriques et plus principalement celui
du taux de citation, il est nécessaire de comprendre les processus complexes de la citation.
Présentement, une citation est associée à un lien, d'ordre quantitatif dont la valeur intrinsèque n'est
pas déterminée. Une théorie de la citation est souhaitée et malgré quelques travaux et études
sociologiques, nous en sommes encore loin d'une théorie unifiée. Elle est quantifiable, mais de par
sa nature évanescente, empêche une utilisation plus fine des indicateurs bibliométriques,
introduisant alors des biais liés à la pluralité de ces facettes. Nous allons donc, étapes par étapes
étudier selon différentes approches, ce qu'est une citation et son utilité. Au-delà de son caractère
purement informatif, régies par des normes bibliographiques dans sa forme, les citations ont une
nature multiple et un rôle important dans l'acte de la communication scientifique.

Une nouvelle approche : la bibliosémantique
Une nouvelle approche de cette problématique doit être envisagée. Nous devons désormais nous
intéresser à l'auteur, à ces co-auteurs et également au contenu d'un article selon une approche
qualitative. Pour cela, une réflexion sur l'étude des publications doit être entreprise. Sans prétendre
fournir un traitement sémantique complet d'un article scientifique, nous pourrons dans un premier
temps considérer les relations sémantiques entre l'auteur, les co-auteur et les références
bibliographiques. Il serait tout à fait pertinent de savoir si un article est cité de façon positive ou
négative. Une référence bibliographique citée en contre-exemple est tout à fait révélatrice des
relations entre les travaux des chercheurs. Il peut s'agir entre autres d'une référence par rapport à
une définition, une hypothèse ou bien une méthode, mais également d'un point de vue, d'une
comparaison ou bien d'une appréciation. Cette approche permettra également de mettre en évidence
l'autocitation. La méthode de l'Exploration Contextuelle va permettre, à l'aide d'une étude poussée
des indices, une analyse plus fine des références bibliographiques.
Peut-on envisager de nouveaux indicateurs s’appuyant sur une nouvelle méthodologie ?
Tout comme l’avènement de la bibliométrie s’appuie sur des avancés technologiques, notamment
celui des bases de données, la bibliosémantique s’appuie sur des avancés linguistiques et la
possibilité de traiter des documents en plein-texte :
   1. Accessibilité aux articles en plein-textes

                                                    6
2. Une approche linguistique de la problématique
Des difficultés sont présentes avant d’avoir un accès complet aux articles scientifiques. ll y a des
freins d’ordre éditorial, techniques, juridiques, mais l’accès en ligne est un vecteur de
communication que l’on ne peut plus ignorer. L’exploration contextuelle permet aujourd’hui, une
étude systématique, sémantique et automatique de ce type de traitement. L’annotation des segments
textuels offre de nouvelles possibilités dans notre façon d’appréhender les indicateurs. Nous
proposerons donc une classification des relations entre auteurs à base de critères qualitatifs basée
sur une étude linguistique textuelle.

Bibliographie et renvois bibliographiques
Les différents types de renvois bibliographiques permettent d’identifier le segment textuel sur
lequel s’appliquera le traitement informatique. L’annotation sémantique résultante dégagera un
ensemble de relations permettant alors une catégorisation de l’utilisation de ces renvois.
Nous nous proposons d'utiliser les renvois bibliographiques d'un article afin de déterminer des
segments textuels sur lesquels nous pourrons appliquer la méthode d'exploration contextuelle.
L'appel de citation dans un texte peut prendre différentes formes. Il peut s'agir principalement d'un
renvoi numérique ou d'un renvoi par nom d'auteur. Pour cela, nous dresserons une classification des
différentes familles numériques et alphanumériques des références bibliographiques. Afin de traiter
automatiquement cette tâche d'identification et d'extraction, nous pourrons par exemple définir un
alphabet adéquat permettant d'appliquer au corpus un automate fini déterministe. Cette extraction va
nous permettre dans un premier temps d'étiqueter le corpus, puis de dresser des listes d'auteurs, de
renvois ainsi qu'une bibliographie complète de l'auteur et de ces co-auteurs. Il sera également
intéressant, dans notre approche qualitative, d'établir les relations entre les renvois bibliographiques
et la bibliographie. Différents textes ont été travaillés d'un point de vue linguistique afin de vérifier
si les marqueurs linguistiques sont indépendants des domaines. Exemple de textes scientifiques :
Articles scientifiques, articles de synthèses, critiques littéraires, etc ... Nous prendrons comme
postulat de départ que la bibliographie est effectivement une donnée essentielle pour l'évaluation
des publications. L'appel de citation dans un texte peut prendre différentes formes. Il peut s'agir
principalement d'un renvoi numérique ou d'un renvoi par nom d'auteur. Pour cela, nous dresserons
une classification des différentes familles numériques et alphanumériques des références
bibliographiques.

Formats standard et normes
Pour ce travail, nous avons utilisé les normes, mais également les « coutumes ». En effet, les
renvois bibliographiques dans le texte sont plus ou moins normalisés selon les normes ISO 690-1 (Z
44-005) et ISO 690-2, mais il était nécessaire de prendre en compte des pratiques dépassant le
simple renvoi numérique ou alphanumérique afin de pouvoir traiter exhaustivement l'ensemble des
renvois bibliographiques. Afin de traiter automatiquement cette tâche d'identification et d'extraction,
nous pourrons par exemple définir un alphabet adéquat permettant d'appliquer au corpus un
automate fini déterministe. Pour identifier les renvois bibliographiques se trouvant présents dans le
texte, nous nous appuierons sur les travaux déjà effectués [BER06], qui proposent un automate à
états finis afin de localiser les renvois bibliographiques. Cependant, au lieu de considérer l'aspect
numérique d'une référence bibliographique, nous utilisons les renvois dans le texte afin de
catégoriser les relations entre auteurs. Nous avons émis l'hypothèse que la pensée de l'auteur par
rapport aux travaux de ses confrères se trouve à proximité de la référence bibliographique. Aussi
considérons-nous dans cette première approche que la prise de position d'un auteur vis-à-vis de ces
confrères se trouve dans un espace proche d'un renvoi bibliographique.

                                                   7
Méthodologie
Face à ce constat, il serait intéressant pour la communauté scientifique de disposer d'un outil plus
qualitatif pour la conception de réseaux d'auteurs. Les outils de cartographie actuels s'appuient sur
une approche quantitative et matricielle. Une nouvelle approche de cette problématique doit être
envisagée. Sans prétendre fournir un traitement sémantique complet d'un article scientifique, nous
pourrons dans un premier temps considérer les relations sémantiques entre l'auteur, les co-auteurs et
les références bibliographiques. Il serait tout à fait pertinent de savoir si un article est cité de façon
positive ou négative. Une référence bibliographique citée en contre-exemple est tout à fait
révélatrice des relations entre les travaux des chercheurs. Il peut s'agir entre autres d'une référence
par rapport à une définition, une hypothèse ou bien une méthode, mais également d'un point de vue,
d'une comparaison ou bien d'une appréciation. Suite à l’identification des appels bibliographiques,
nous proposerons une annotation de ceux-ci avec une catégorie afin de définir comment l'auteur a
été cité. Cette catégorisation est définie par l'étude d'indices que nous relèverons dans la phrase.
Nous rechercherons les indices positifs/négatifs de citation d'un auteur, ainsi que les citations
hypothèses/méthodes utilisées par un auteur. On caractérisera alors ce point de vue comme étant
une catégorisation sémantique des références de citation d'auteur. Le renvoi bibliographique qui se
trouve dans le texte permet de définir un segment textuel où se trouvera l'information de
catégorisation de ce renvoi. L'implémentation informatique de cette approche utilise la plateforme
EXCOM (Exploration Contextuelle Multilingue) développée au sein du laboratoire LaLIC. Nous
pourrons nous référer à l'article de [DJI06] décrivant plus en détail la plateforme.
Nous avons constitué un corpus de travail ou chaque document est composé d'une bibliographie. Il
peut s'agir d'articles scientifiques, de compte rendu scientifique, de critiques etc .... L'idée est de
proposer une catégorisation qui permet de mettre en évidence la prise de position d'un auteur par
rapport à un autre auteur. En effet, une citation, dans un document bien élaboré, implique une mise
en relation entre l'auteur et celui qui est cité ou plus exactement une prise de position selon le travail
de l'auteur cité.

Indicateurs et indices
Nous nous proposons donc d'utiliser les renvois bibliographiques identifiés par l'automate à états
finis d'un article afin de déterminer des segments textuels et déterminer un espace recherche
sémantique associé à cette référence. Les renvois bibliographiques seront alors considérés comme
étant nos indicateurs. Les indices linguistiques, quant à eux, permettent de déterminer une
information sémantique spécifique. Ils permettent de réduire l’indétermination et de spécifier la
qualité du renvoi. Il s'agit du seul savoir dont nous avons besoin pour déterminer nos catégories et
se cette information se trouve présente autour de l'indicateur, dans le même segment textuel que
celui-ci. La méthode de l'Exploration Contextuelle, développée par Mr Desclés [DES91, DES96],
va permettre à l'aide des indices, de lever les indéterminations sémantiques de l'unité linguistique
analysée et proposer une catégorisation qualitative des références bibliographiques.

Segments textuels et localisation
L'indicateur permet de déterminer le segment textuel nécessaire et suffisant à l'accomplissement de
notre tâche. Dans cette étude, nous ferons coïncider ce segment textuel avec la phrase. Nous nous
gardons la possibilité d'étendre nos recherches à des zones plus larges, comme la théorie nous le
permet, si cela s'avérait nécessaire à lever certaines ambiguïtés. Une fois l'espace de recherche
déterminé, il faut prendre en compte la localisation de l'indice par rapport à l'indicateur. Nous avons
identifié cinq localisations possibles par rapport à l'indicateur :

« premier mot du segment textuel | avant le milieu | au milieu | après le milieu | à la fin du

                                                    8
segment textuel ». D'un point de vue pratique, seul le contexte droit|gauche est implémenté et se
révèle pour le moment suffisant dans le cadre de ce travail.

Catégorisation
Suite à l’identification des appels bibliographiques, nous pourrons alors proposer une annotation de
celles-ci avec une catégorie afin de définir comment l'auteur a été cité. Cette catégorisation est
définie par l'étude d'indice que nous relèverons dans la phrase. Nous rechercherons les indices
positifs/négatifs de citation d'un auteur, ainsi que les citations hypothèses/méthodes utilisées par un
auteur. L'application des règles de l'Exploration Contextuelle permettra ainsi de lever les
indéterminations sémantiques de l'unité linguistique analysée. On caractérisera ce point de vue
comme étant une catégorisation sémantique des références de citation d'auteur. L'application
informatique de cette étude s'effectue dans le cadre de la plateforme EXCOM (Exploration
Contextuelle Multilingue) qui est en cours de réalisation au sein du Laboratoire LaLICC. Ce moteur
d’annotation sémantique s’appuie sur la méthode de l'Exploration Contextuelle et permet
d’étiqueter automatiquement un texte à partir de ressource linguistique. Nous serons alors en
mesure d'apporter une information d'ordre sémantique et à terme de proposer une évaluation
qualitative des renvois bibliographiques. Enfin, cette approche proposera de dépasser le cadre
bibliométrique pour analyser les sources d'un texte et détecter d'éventuelles cliques entre auteurs au
sens de la théorie des graphes. Les différentes catégories ont été identifiées par Krushkov Yordan
[KRU05] dans son travail de mémoire de maîtrise sous la direction de Mr Desclés. Elles se trouvent
à la base de ce travail, aussi allons nous détailler les différentes catégories sur lesquelles nous nous
appuyons.
Le point de vue est la première catégorie que nous avons identifiée. Il est très présent dans les
corpus étudiés. Les indices linguistiques suivants font partie de cette catégorie :
« Selon | d’après | pour | considérer que | nous y voyons |comme le dit |... ».
Ils sont généralement localisés en amont de l'indicateur.
La seconde catégorie à laquelle nous nous sommes intéressés est la comparaison. En effet, nous
comparons souvent le travail de nos confrères. Dans ce cas précisément, nous pouvons trouver des
similarités ou bien des dissimilarités :
« ressembler |comme dans les travaux de | le rapport avec |... ».
Pour la non-ressemblance, nous avons comme indices linguistiques :
« différer de | contraire l’approche de |contrairement ce qu’affirme |... »
La catégorie de l'information est vaste. Pour cela, elle est divisée en sous-catégories comme
l'hypothèse, l'analyse et le résultat. Pour la sous-catégorie de l'analyse, nous pouvons donner comme
exemple :
« a été analysé dans | l’analyse de | lors de son analyse | ... ».
Pour concevoir la sous-catégorie des résultats, nous avons considéré les indices linguistiques
suivants :
« nous avons démontré | donner de nombreux exemples de | a publié ses résultats | a dégagé |... »
La catégorie de la définition est également importante avec pour indices :
« ils caractérisent | la notion ... introduite dans |... »
La catégorie de l'appréciation met en valeur le jugement d'un auteur sur un autre auteur ou plutôt sur
un ou plusieurs travaux de celui-ci. Il peut s'agir d'un jugement positif ou négatif :
« ont rejeté | n’as pas répondu | en trahissant sérieusement notre proposition | ... ».

                                                              9
Cette catégorie est très importante dans le sens où elle apporte une réponse à l'un des biais introduits
par l'approche statistique.

                                         Point de vue
                                                                Pris de position
                                        Soi-même|Autrui
                                         Comparaison              Similitude
                                        Soi-même|Autrui          Dissimilitude
                                                                  Hypothèse
                                                                   Analyse
                                          Information              Résultat
                       Quotation        Soi-même|Autrui            Méthode
                                                                   Citation
                                                                Contre-exemple
                                           Definition
                                        Soi-même|Autrui
                                         Appréciation              Accord
                                             Autrui               Désaccord

                  Figure 1 : Catégorisation des renvois bibliographiques [BER06]

Constitution du corpus
Pour cette étude, nous avons constitué un corpus d'articles issus du laboratoire LaLIC afin
d'identifier les indices et de constituer notre base de connaissances. Afin de traiter le caractère
pluridisciplinaire de notre approche, nous avons augmenté le corpus avec des publications extraites
de HAL, la base de données de l'INRIA. Nous avons également choisi des articles de la revue
INTELLECTICA. Ce petit corpus de test couvre les domaines de la linguistique, de l'informatique,
et des sciences cognitives afin de démontrer la capacité du système à traiter une information
multidisciplinaire. À la rédaction de cet article, le corpus est exclusivement constitué de textes en
français. La couverture de l'anglais sera une prochaine étape dans le développement de ce système.

Plateforme informatique
L’architecture informatique de la machine à annoter automatiquement EXCOM, qui s’inspire de
l’architecture modulaire GATE, est décrite dans la figure suivante. Les textes traités par EXCOM
sont d’abord prétraités pour les préparer à une segmentation en phrases, paragraphes et sections en
s'appuyant sur les travaux de [MOU99a, MOU99b]. Le résultat de l’application de ces règles est un
texte annoté. Les annotations sont des marques sous forme d’éléments et attributs XML. La
sémantique de ces annotations est liée à l’organisation de la catégorie du point de vue reconnue par
le système EXCOM. L'objectif de cette plateforme est de proposer une exploration du texte afin de
l'augmenter d'informations sémantiques sous forme d'annotations. Si la plupart des travaux menés
dans ce domaine s'appuient sur une analyse morpho-syntaxique, la méthode préconisée pour cette
plateforme est l'Exploration Contextuelle et utilise une base de connaissances, constituée de
marqueurs linguistiques. Elle permet d’étiqueter automatiquement un texte à partir de ressource
linguistique.

Déclaration de Règles
L'application informatique nécessite l'écriture de règles. Celles-ci se présentent sous la forme d'un
fichier XML. Aussi allons-nous détailler une règle qui permet d'annoter la publication selon le point
de vue de la méthode, qui est une sous-catégorie de information.

                                                  10
Cette règle traite donc du point de vue de l'information : point_de_vue="information". L'indicateur
a pour valeur : valeur="RenvBiblio" qui permet de retrouver les renvois bibliographiques et
identifier l'espace de recherche qui est la phrase : espace_de_recherche="phrase". Les indices, de
type liste, sont définis par leur contexte qui peut être droite ou gauche par rapport à l'indicateur,
dans l'espace de recherche préalablement identifié. Dans le cas présent, les deux indices se trouvent
à droite de l'indicateur. Si l'ensemble des conditions de cette règle est validé, alors EXCOM annote
le segment textuel en ajoutant un attribut : 

Résultats
Les résultats sont affichés sous la forme suivante : Le segment textuel est coloré en bleu.
L'indicateur est en vert et les indices primaires et secondaires sont respectivement en vert clair et
mauve.

                       Figure 2 : Exemple du point de vue méthode [BER06]

Discussion
Le premier point que nous discuterons est celui des renvois bibliographiques. L'étude des segments
textuels repose principalement sur l'identification de ces renvois. Aussi est-il très important dans
cette approche que l'ensemble des renvois soit reconnu. Si sur cet exemple, aucun problème
d'identification n'a mis à défaut cette approche, il faudra cependant tenir compte, sur des corpus plus
littéraires, de la notion de courant ou de personnes associées en tant que telles. Par exemple, « Selon
Pottier, nous devons concevoir que ... ».
Le deuxième point est une remarque d'ordre quantitative. Sur cet exemple, nous avons constaté que
l'auteur se référait plusieurs fois à la même publication d'un de ces confrères selon le point de vue
de la méthode. Si l'identification des renvois bibliographiques peut apporter une possibilité nouvelle
en porposant des pondérations, il faut bien garder à l'esprit que notre approche, va au-delà d'une
simple pondération puisqu'à une référence bibliographique, nous faisons correspondre une catégorie
sémantique.

                                                   11
Conclusion
La bibliosémantique se caractérise par une étude linguistique des citations proposant alors une
catégorisation. Cette approche offre une nouvelle méthodologie au traitement des citations. À court
terme, cette approche permettra de proposer un outil beaucoup plus fin et complémentaire à
l'approche proposée actuellement. D'une part, la prise en compte de la bibliographie comme unité
est loin d'être satisfaisante et de nombreux biais sont introduits. Le fait de pouvoir catégoriser la
bibliographie par une analyse linguistique donc disposer d'une approche qualitative et automatisée
via la plateforme informatique EXCOM offrira un outil pertinent pour l'étude des articles
scientifiques. À moyen terme de nouvelles possibilités d'exploration des textes scientifiques seront
envisageables en cartographiant un domaine de recherche.
L'un des avantages, est que contrairement à une approche statistique, nous pouvons étudier et
obtenir des résultats sur un très petit nombre de publications, à l'échelle d'un laboratoire par
exemple, tout en conservant la possibilité de travailler à une plus grande échelle. À l'approche
statistique de l'évaluation, l'approche linguistique permet de porter un regard qualitatif des relations
entre les travaux des différents auteurs.

Perspectives
Avec cette approche, nous avons la possibilité de d'affiner quelques méthodologies issues de la
scientométrie. Selon Leydesdorff [LEY01] présente clairement dans son ouvrage « The Challenge
of Scientometrics » les orientations à prendre pour une analyse textuelle des données. Le choix de
choisir de textes comme unité d'analyse est selon lui le plus pertinent. En effet, l'article contient un
grand nombre de termes qui peuvent être utilisés à travers différentes méthodes.
L'une des problématiques sous-jacentes est de pouvoir, à l'aide d'une approche classique de co-
occurrence et co-absence de justifier ces réseaux. En effet, l'utilisation de la méthodologie des « co-
word » implique de choisir les mots comme unités d'analyse et leur co-occurrence en tant
qu'attribut. L'approche de Hesse étant lexicographique, elle peut effectivement se prêter à cette
approche. De façon simple, il exprime que le maillage du réseau est avant tout constitué de mot
dont la position de l'un par rapport aux autres joue un rôle et dont la signification doit être comprise.
Il ne retiendra pas pour ces travaux deux autres types de réseaux qui sont les réseaux sémantiques et
les réseaux sémiotiques, les réseaux sémantiques étant généralement utilisés pour la représentation
des connaissances. L'hypothèse de départ, jugé plausible par Leydesdorff, est qu'un auteur dans un
même article scientifique essayera de ne pas utiliser les mots dans un seul et unique sens, et que
leurs usages seront en quelque sorte codifiés. Citons [LEY01] : « It is a plausible assumption that
in one and the same scientific article, author(s) will try to prevent variation in the meanings of
words, and hence word usage can be expected to be as « codified » as possible. » L'idée est
d'associer aux agrégations issuent de la structure du document des mots afin d'identifier une
éventuelle structure, et si celle-ci se révèle, alors qu'elle valeur cognitive porte t'elle ? Aussi, en
dépassant le cadre lexicographique et en proposant des catégories sémantiques, nous pourrions à
terme, déterminer une structure des articles qui restera à définir. S'agira-t'il alors d'une structure
cognitive d'un domaine scientifique ? D'un point de vue plus pragmatique, cette étude permet
d'envisager une nouvelle façon de naviguer au sein des bibliothèques de demain qui seront
numériques et permettront aux chercheurs d'accéder à un nombre incommensurable d'information
en full-texte. À travers l'étude de la bibliosémantique, nous avons un outil pour l'évaluation de la
science [BER06] mais également pour la recherche d'informations au sein des bibliothèques
numériques. Si devant des millions de références bibliographiques, nous pouvons nous inspirer de
la cartographie et des études venant de la bibliométrie, la bibliosémantique permettra de relier tout
type de document qui s'appuie sur la bibliographie et proposera de nouveaux types de classement de
l'information. Ce type d’approche trouve donc une application directe au sein des bibliothèques
numériques avec des perspectives innovantes.

                                                   12
Bibliographie
[BER06] Bertin M., Desclés J.P., Djioua B.,Krushkov Y., (2006) « Automatic Annotation in Text for
Bibliometrics Use », FLAIRS 2006, Floride, 11-13 mai.

[CAL86] Callon, M., Law, J., & Rip, A. (Eds.). (1986). « Mapping the Dynamics of Science and
Technology ». London: Macmillan.

[CAS00] Case, D. O., & Higgins, G. M. (2000). « How Can We Investigate Citation Behavior? A Study of
Reasons for Citing Literature in Communication ». Journal of the American Society for Information Science,
51(7), 635-645.

[COU90] Courtial, Jean Pierre, (1990).« Introduction à la scientométrie : De la bibliométrie à la veille
technologique », p.49.
[COL73] Cole, J. R., & Cole, S. (1973). « Social Stratification in Science ». Chicago: The University of
Chicago Press.

[COL92] Cole, S. (1992). « Making Science. Between Nature and Society ». London: Harvard University
Press.

[COZ89]Cozzens, S. E. (1989). « What do citations count? The rhetoric-first model ». Scientometrics, 15(5-
6), pp. 437-447.

[COZ97] Cozzens, S. E. (1997). « The Discovery of Growth: Statistical Glimpses of Twentieth-Century
Science ». In J. Krige & D. Pestre (Eds.), Science in the Twentieth Century pp. 127-142.

[CRO84] Cronin, B., (1984). « The Citation Process: The Role and Significance of Citations in Scientific
Communication »,1984, Taylor Graham, London.

[DES91] Desclés, J. P., (1997). « Exploration contextuelle et sémantique: un système expert qui trouve les
valeurs sémantiques des temps de l’indicatif dans un texte. », 1991, Knowledge modeling and expertise
transfert p.371–400.

[DES97] Desclés, J. P., « Système d’exploration contextuelle. » Co-texte et calcul du sens p.215–232. 1997.

[DJI06] Brahim, D. , Flores, J.G., Blais, A., Desclés J-P., Gael, G., Jackiewicz, A., Le Priol, F., Leila,N.B.,
Sauzay B., (2006). « EXCOM: an automatic annotation engine for semantic information », FLAIRS 2006,
Floride, 11-13 mai.

[EGG90; ROU90] L. Egghe R. Rousseau (1990) « Introduction to informetrics ». Quantitative methods in
Library; Documentation and Information Science. Elsevier, 1990, pp. 450.
[GAR65] Garfield, E., (1965). « Can citation indexing be automated ? » National Bureau of Standards
Miscellaneous.. Publication, 269:189–192.

[GAR77] Garfield, E. (1977). « Can Citation Indexing Be Automated? » In Essay of an Information
Scientist, vol. 1 (Vol. 1). Philadelphia: ISI Press.

[GAR00] Garfield, E. (2000) « The use of JCR and JPI in Measuring Short and Long Term Journal Impact »;
Council of Scientific Editors Annual Meeting May 9

[HAR00] Hargens, L. L. (2000). Graphing Micro-Regions in the Web of Knowledge: A Comparative
Reference-Network Analysis. In B. Cronin & H. B. Atkins (Eds.), The Web of Knowledge.
A Festschrift in Honor of Eugene Garfield (pp. 497-516). Medford: ASIS.

                                                      13
Vous pouvez aussi lire