LA DEFINITION DANS LE TEXTE

La page est créée Bernard Thierry
 
CONTINUER À LIRE
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

                        LA DEFINITION DANS LE TEXTE

                  Elsa PASCUAL* et Marie-Paule PÉRY-WOODLEY**

* IRIT/PRESCOT, Université Paul Sabatier, 118 route de Narbonne, 31 062 Toulouse cedex, France.
Tél. (33) 61 55 63 18. Email : pascual@irit.fr
** ERSS/PRESCOT, Université de Toulouse Le Mirail, 5 allées Antonio-Machado, 31058 Toulouse
cedex, France. Tél. (33) 61 50 36 09. Email : pery@cict.fr

INTRODUCTION

        Dans le cadre de traitements automatiques de textes à consignes, nous étudions
un objet textuel particulier : la définition. Dans ce type de textes, les définitions jouent
un rôle majeur : ce sont des objets particulièrement riches sur le plan sémantique, qui de
ce fait, doivent avoir, plus qu’ailleurs, de solides propriétés d’univocité et d’efficacité
communicationnelle : le message doit être totalement univoque pour que la consigne
soit opérante, et l’effort de perception doit être minimisé en termes, entre autres, de
lecture.

        Le traitement automatique de définitions dans les textes à consignes constitue un
enjeu important dans plusieurs applications :
– en compréhension et en génération automatiques de textes à consignes ;
– dans le domaine du marquage automatique de documents (dans les termes d’une
  DTD SGML par exemple) ;
– en terminologie et en extraction automatique de connaissances, où on peut citer deux
  secteurs de recherche nécessitant une bonne compréhension du fonctionnement des
  définitions : la construction automatique de glossaires à partir de textes, et
  l’extraction, toujours à partir de textes, de relations sémantiques entre les concepts
  dénommés par les termes (Cf. [Hearst 92]).

      Ce type d’applications prend une importance particulière dans le domaine des
manuels en lignes et de la documentation technique numérisée.

        Bien que cette étude s’intègre dans le projet “Textes à Consignes”, nous ne nous
focaliserons ici sur aucun type de texte en particulier. Il s’agit d’un travail préliminaire
et général, dont la prochaine étape sera l’étude spécifique des textes à consignes.
Notons néanmoins que nos résultats sont pertinents pour ce type de textes.

        Les définitions prennent des formes très variées, aussi bien dans leur expression
langagière que dans leur structuration interne, ou encore dans leur réalisation
typographique et dispositionnelle. De ce fait, on peut se demander s’il est légitime de
considérer qu’il existe un objet unique “définition”. Les études sur la définition
s’attachent à mettre en évidence la polysémie du terme même, qui recouvre des
activités très diverses (Cf. [Rey 90], [Martin 90]). Par ailleurs, des différences
considérables apparaissent dès qu’on observe des définitions dans des corpus, tout
d’abord entre les définitions de dictionnaires et les énoncés définitoires dans les textes.

                                                 1
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

Ces derniers, sur lesquels va porter notre travail, sont eux-mêmes appelés à varier en
fonction d’un certain nombre de paramètres : les plus évidents ont trait aux
connaissances que les producteurs du texte supposent partagées par le “lectorat” visé;
d’autres, peut-être moins visibles ou moins analysés, concernent l’impact du domaine
ou celui du type de texte. On peut s’attendre à ce que les variations dans la formulation
des définitions reflètent ces différences discursives. Cela dit, dans une perspective
pragmatique, il semble légitime de considérer ces formulations diverses comme des
variantes d’un même acte de parole ; dans une perspective cognitive, on peut avancer
que savoir reconnaître qu’un objet textuel est une définition est bien un aspect de la
compétence textuelle, tout comme le fait d’être capable de produire des définitions
reconnaissables en tant que telles (Cf. la notion d’“énoncé définitoire ordinaire” [Riegel
90]). En vue de traitements automatiques, une mise en œuvre de méthodes linguistiques
fines est requise, ces variations rendent le repérage, l’analyse et la génération très
complexes. Dans ce qui suit, tout en nous attachant à interpréter la diversité des
réalisations, c’est la spécificité linguistique et plus particulièrement textuelle de l’objet
définition que nous cherchons à cerner.

        Notre étude est en effet consacrée non seulement au texte de la définition, mais
aussi à la définition dans le texte. A notre connaissance, les recherches actuelles à ce
sujet s’intéressent à la définition hors-texte. Or la position de la définition dans un
texte, ainsi que son articulation avec le reste du texte contraignent sa forme ; et
réciproquement, la présence d’une définition dans un texte contraint le contexte de
celle-ci. Son étude hors-texte ne peut donc capturer qu’une partie de sa richesse.

        En ce qui concerne le texte de la définition, nous nous intéresserons :
– à ses structures rhétoriques et à ses schémas de structures rhétoriques ;
– à son architecture, c’est-à-dire aux objets textuels pouvant la composer, et aux
  relations entre ces objets.

       En ce qui concerne la définition dans le texte, nous nous intéresserons :
– aux marqueurs syntaxiques, lexicaux, typographiques et dispositionnels de la
  définition dans un texte.
– à son statut dans l’architecture globale du texte.

I. LA DEFINITION DANS LE TEXTE

1. Notions préliminaires

       Dans l’introduction, nous avons, à plusieurs reprises, qualifié la définition
d’objet textuel. Cette notion, si elle peut se comprendre intuitivement, nécessite d’être
définie plus strictement, à partir de la notion de mise en forme matérielle (Cf.
[Pascual 91b]).

Mise en forme matérielle : c’est l’ensemble des propriétés de réalisation appliquées à un
texte. Ces propriétés sont de nature :
– syntaxique : nominalisation, forme interrogative, apposition, relative appositive, etc.
– typographique : caractères, polices, corps, styles, couleurs, etc.

                                                 2
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

– dispositionnelle : justification, colonage, marges horizontales et verticales, sauts de
  lignes, de pages, etc.

Objet textuel : c’est un segment caractéristique de texte, rendu perceptible par un jeu de
contrastes de la mise en forme matérielle : mise en relief, mise en parallèle, etc.

Ces deux notions permettent de définir celle d’architecture textuelle.

Architecture textuelle : c’est une composante abstraite du texte, constituée de
l’ensemble des objets textuels ainsi que des relations qu’ils entretiennent entre eux.

Exemple :

Soit l’image de texte suivante1 :
                                           CHAPITRE I
                                              Théorème : M _______
                                                ________________

                                                M __________
                                                ________________
                                                __________

                                                Démonstration : M ____
                                                ________________
                                                ________________
                                                __________
                                           CHAPITRE II
                                                    M __________
                                                ________________
                                                ________________
                                                ___________

Dans cet exemple, l’architecture du texte réside dans le fait que dans ce texte
apparaissent deux chapitres numérotés, que dans le premier chapitre apparaissent un
théorème et sa démonstration, séparés par un paragraphe, etc.
Les objets textuels sont : le mot “théorème” et le corps du théorème, le mot
“démonstration” et la démonstration elle-même, le paragraphe, l’entête “chapitre I” et
le corps du chapitre, l’entête “chapitre II” et le corps du chapitre.
La mise en forme matérielle de ce texte est constituée de toutes les propriétés
typographiques, dispositionnelles et syntaxiques qui nous permettent de percevoir cette
architecture ; par exemple : choix de police de caractères, de graisse et de corps
spéciaux pour les caractères des mots “chapitre”, “théorème”, “démonstration”,
disposition spatiale particulière de ces mots, choix du système romain majuscule pour
la numérotation des chapitres, etc.

D’autres exemples d’objets textuels sont : une introduction, une conclusion, une
section, une partie, un avertissement, un commentaire, une annotation, une explication,

1   Dans une image de texte (Cf. [Pascual 91b]), M ____ dénote une chaîne de caractères non distinguée.

                                                     3
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

une définition, un exemple, une démonstration, une rubrique, une liste, une
énumération, une alternance, un résumé, etc.

2. Les marqueurs de la définition

        Les philosophes du langage ont très pertinemment attiré l’attention sur le fait
que la parole est action, et sur le rôle de facteurs extra-linguistiques dans
l’interprétation de ces actions ([Austin 62], [Searle 75], [Strawson 71], [Grice 57]).
Cela a encouragé les travaux sur la représentation des connaissances du monde et sur la
modélisation des raisonnements à partir de ces connaissances. Nous nous situons dans
le cadre fourni par la pragmatique linguistique aux recherches sur le discours, mais nos
travaux ont pour objet les textes eux-mêmes : nous cherchons à mettre en lumière les
aspects de la mise en forme matérielle qui sont autant de marqueurs guidant le lecteur
dans le processus de construction de sens à partir d’un texte. Pour ce faire, nous nous
démarquons des nombreuses études portant sur les “connecteurs”, sur plusieurs points.
Premièrement, là où ces travaux se focalisent presque exclusivement sur des marqueurs
lexicaux, nous présentons une conception plus large et plus ouverte de la notion de
marqueur, qui tient compte de la typographie, de la ponctuation et de la disposition
spatiale, aussi bien que de configurations lexico-syntaxiques. Deuxièmement, nous ne
partons pas d’expressions ou de séries d’expressions préétablies2, mais nous prenons
comme point de départ un objet textuel, – ici, la définition –, pour recenser les
marqueurs auxquels il est associé. Enfin, nous insistons sur la variabilité des marqueurs,
en fonction de paramètres situationnels et contextuels qui restent à préciser. Notre
réflexion s’articule autour de deux axes complémentaires : un travail de modélisation
des objets textuels, fondé sur la notion harrissienne de métalangage, et une étude des
marqueurs attestés en corpus.

    2.1. Fondements théoriques

       a. Formes d’expression d’une définition

        L’expression d’une définition dans un texte peut se faire ou bien par une
formulation entièrement discursive (ou “textuelle”), – ainsi de la formulation “Je définis
A comme étant B”–, ou bien par une formulation comportant des réductions ou
transformations linguistiques, mais accompagnées d’éléments particuliers de mise en
forme matérielle. De fait, l’analyse suggère l’existence d’un continuum, allant de
formulations où les moyens discursifs sont prédominants et ceux de la mise en forme
matérielle les plus réduits (formes dites “discursives développées”), à des formulations
où ce rapport est inversé (formes dites “réduites à réalisation particulière)3. Ces
formulations semblent équivalentes du point de vue sémantique.
Nous montrons ci-dessous quelques représentants de ce continuum , où terme et corps-
déf notent respectivement un terme défini et une phraséologie définissante
quelconques :

2 On pense bien sûr aux travaux de Ducrot en linguistique ([Ducrot 80]), mais aussi, dans le domaine de
la compréhension automatique du discours, à ceux de [Reichman 84] sur les marqueurs conversationnels,
et à ceux de Cohen sur les marqueurs dans l’argumentation ([Cohen 84]).
3 Cette constatation s’applique aussi bien à tous les autres types d’objets textuels (Cf. [Virbel 89]).

                                                  4
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

1.     On définit terme comme corps-déf.

2.     (On donne / On pose / Soit / etc.)4 la définition de terme comme corps-déf.

3.     (On donne / On pose / Soit / etc.) la définition suivante : terme est corps-déf.

4.     terme (se définit / est définissable) (par / comme) corps-déf.

5.     terme (se définit / est définissable) ainsi : corps-déf.

6.     corps-déf (constitue / représente / est / etc.) la définition de terme.

7.     La définition de terme est la suivante : corps-déf.

8. DEFINITION de terme : terme est corps-déf.

9. DEFINITION de terme : corps-déf.

10. DEFINITION : terme est corps-déf.

11. DEF : terme est corps-déf.

12. On donne le nom de terme à corps-déf .

13. corps-déf. C’est ce qu’on appelle terme.

14. ... qu’on appelle terme, c’est-à-dire corps-déf ...

15. corps-déf, appelé terme.

16. ... terme. C’est corps-déf .

17. ... corps-déf, terme...

18. terme : corps-déf.

19. terme est corps-déf.

20. ∅ terme est corps-déf.

21.        terme est corps-déf

22.        terme est _______              avec _______ = corps-déf
                     _______                   _______
                     _______                   _______

4 Le   symbole / associé aux parenthèses dénote l’alternative.

                                                      5
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

L’examen de cet exemple nous conduit à remarquer que l’expression d’une définition
peut s’effectuer non seulement par le biais de procédés typo-dispositionnels, mais aussi
grâce à une famille de formulations entièrement ou partiellement discursives ;
l’exemple étudié suggère un continuum entre une ou des formulations où les moyens
expressifs discursifs sont prédominants et ceux de la mise en forme matérielle les plus
réduits, et des formulations où ce rapport est inversé :
– les cas 1 à 7 renvoient à des formulations entièrement discursives, liées entre elles
   (transformationnellement).
– les cas 8 à 11 renvoient à des formulations comportant un détachement lexical
   associé à des procédés de mise en forme matérielle particuliers (types de caractères,
   disposition spatiale).
– les autres cas renvoient à des formulations où un lexème de la famille “définir” et
   dérivés n’est plus attesté, mais où la dénotation de l’acte “définir” est marquée par
   une propriété de mise en forme matérielle, qui peut correspondre :
   • à des configurations lexico-syntaxiques(cas 12 à17),
   • aux types de caractères utilisés (cas 18 et 19),
   • à des symboles diacritiques ou autres (cas 20),
   • à des procédés de type graphique (cas 21),
   • à des dispositions spécifiques (cas 22).

        Autrement dit, la marque de la présence d’une définition dans un texte peut être
une formulation discursive développée mettant en relation un terme et le corps
proprement dit de la définition, ou peut être, à l’opposé, un ensemble de paramètres
typographiques et dispositionnels appliqués directement au corps-même de la
définition, ou peut encore être une formulation intermédiaire entre ces deux possibilités.

      b. Les marqueurs comme éléments du métalangage textuel

        Les marques discursives de définitions manifestent un contenu métatextuel :
elles expriment la sémantique du segment de texte argument quand à sa nature (de
définition) et sa fonction structurelle au sein du texte. Dans l’esprit de Z. S. Harris à
propos de la relation langage/métalangage (Cf. [Harris 68]), on peut considérer que les
marques syntaxiques, typographiques et dispositionnelles sont des traces des
transformations et réductions effectuées à partir de la forme discursive développée.
Elles aussi sont donc des éléments du métalangage textuel (métalangage présent au
sein-même des textes). Nous renvoyons à [Virbel 89], à [Pascual 91b], et à [Pascual et
Virbel 93] pour plus de précisions.

      c. L’acte de définir

       L’examen des formes discursives mises en regard des phénomènes de mise en
forme matérielle ainsi que celui de leurs conditions énonciatives suggèrent qu’elles
possèdent une valeur performative et qu’on peut les caractériser comme des actes de
discours particuliers à vocation spécifiquement textuelle ([Virbel 85]). Lorsqu’une
personne écrit “Je définis A comme B” ou “DEFINITION de A : B”, elle demande, dans
les deux cas, que le segment textuel B soit considéré comme la définition de A. Par
conséquent, le statut de “définition” de B dépend d’une action particulière que l’auteur

                                                 6
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

réalise et qui consiste en ce qu’il indique comment B doit être entendu. D’autre part, le
critère de satisfaction d’un acte de discours correspond à sa performativité et non pas à
son adéquation à un modèle préexistant. Ainsi, cette “définition” peut par ailleurs être
réussie ou ratée par rapport à l’art de définir un terme, elle tire son statut de “définition”
de la performativité d’un acte textuel particulier. De même, une démonstration peut être
fausse dans un univers mathématique ou logique, mais si elle a été performée en tant
que “démonstration” dans un texte donné, elle doit être considérée comme telle dans
l’univers de la performativité textuelle.
En évoquant les actes de discours, nous nous référons aux travaux de Austin, puis de
Searle et de Strawson dans le cadre de la philosophie analytique du langage
([Austin 62], [Searle 75], [Strawson 71]).

        Selon Riegel ([Riegel 87]), l’énonciation d’une définition est un acte
empiriquement observable, qui répond à la question, implicite ou explicite, “qu’est-ce
que X”, interprétée comme une demande d’information sur le sens de X. Divisant les
définitions en deux catégories, il les analyse selon la classification de Searle : la
définition stipulatoire, consistant à assigner un sens arbitraire à un terme existant ou
nouveau, fait intervenir au moins trois types d’actes illocutoires : déclaratif, commissif
et directif ; quant à la définition descriptive, qui spécifie l’usage des mots à l’intérieur
d’une communauté linguistique, elle se range dans la catégorie des illocutions
assertives.

   2.2. Marqueurs discursifs

        Ce qui semble caractériser la définition dans le texte, – et contribuer à
l’identification de la définition en tant qu’objet textuel –, est un décrochement
énonciatif métalinguistique. Les marques linguistiques de ce décrochement ont suscité
l’intérêt de lexicographes et de terminologues à la recherche d'informations définitoires
dans les textes ([Candel 94], [Thoiron et Béjoint 91]). Leurs objectifs diffèrent
cependant des nôtres de deux façons : d’abord, ils pensent en termes de relations
lexicales, typiquement entre un terme et une expression du vocabulaire général, ou du
vocabulaire scientifique général, alors que nous envisageons la définition en tant
qu’objet textuel, pouvant s’étendre sur plusieurs phrases, et les “jalons
métalinguistiques” [Candel 94] comme contribuant à la démarcation de l’objet
définition. Ensuite, parce que nous visons, à terme, la possibilité de procéder à des
repérages les plus complets possible d’énoncés définitoires dans des bases de données
textuelles, nous ne pouvons nous contenter de relever les expressions les plus typiques
ou les plus explicitement métalinguistiques ; nous sommes au contraire soumises à un
impératif d’exhaustivité maximale. Nous admettons toutefois que le respect de cet
impératif est fonction de la variabilité liée au domaine et au type de texte, qui reste
encore à mesurer en ce qui concerne le marquage métalinguistique des énoncés
définitoires. En dépit de ces différences, ces travaux sont pour nous d’un intérêt
considérable. D. Candel en particulier fournit une série de schèmes des différents types
d’expression sélectionnés parmi 700 énoncés définitoires provenant d’un corpus de
vulgarisation scientifique. Nous présentons certains de ces schèmes ci-dessous. Ils
correspondent largement à ceux que, par d’autres méthodes, nous avons nous-mêmes
observés au cours de l’analyse d’un manuel de géomorphologie, dont sont tirés les
exemples 1-4 :

                                                 7
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

• Reformulations allant du général (corps-déf formulé en vocabulaire scientifique
  général) au spécialisé (terme) :
corps-déf appelé / baptisé / dit aussi / connu sous le nom de terme
corps-déf (c’est) ce qu’on appelle / on parle alors de / on dit terme
corps-déf sont regroupés sous le nom de terme
corps-déf est/ c'est terme
corps-déf il s’agit alors de / il s’agit donc de / c’est-à-dire terme

      Ex. 1 : La mer qui gèle, comme c'est le cas dans les régions polaires à la fin de l'été, prend
      d'abord une contexture huileuse, due à la coexistence de petits cristaux de glace flottant :
      c'est le slush (la bouillie).
      Ex. 2 : Si (…) le litage n'est pas celui d'une stratification mais qu'il a été acquis par une
      lamination au cours de la descente, on parle d'arène fauchée.

• Reformulations allant du spécialisé au général :
terme qui désigne / en d’autres termes corps-déf
on appelle / on a convenu d’appeler / on donne le nom de terme (à) corps-déf
terme est souvent défini comme corps-déf
terme ou corps-déf
terme est / c’est corps-déf
terme / c’est-à-dire corps-déf

      Ex. 3 : Une grande partie des déformations qu'elle subit se concentre dans ce qu'on appelle
      les bandes bleues, c'est-à-dire des zones à cristaux.
      Ex. 4 : On appelle alass les dépressions indécises dues à la dégradation du permafrost.

        Ces marqueurs sont loin d'être univoques : il est clair que leur utilisation dans le
repérage de définitions ne pourra être efficace que si on est capable de leur associer,
dans leur environnement immédiat, des régularités syntaxiques, typo-dispositionnelles
et de ponctuation .

   2.3. Marqueurs typographiques et dispositionnels

       Selon la section 2.1, il apparaît que l’approche de la dimension visuelle du texte
n’est guère dissociable de celle de sa composante discursive. Elle n’en est ici isolée que
pour la commodité de la présentation. En effet, les marqueurs typographiques et
dispositionnels participent, de la même façon qu’une formulation discursive, à l’acte de
discours. Ils comportent donc une dimension significative. De plus, ils s’articulent de
façon complexe avec les marqueurs discursifs. Dans le cas précis de la définition, ces
marqueurs contribuent non seulement à indiquer la nature (de définition) du segment
argument, mais aussi à situer structurellement la définition dans le texte (par exemple
en indiquant sa position dans une structure hiérarchique englobante).

        L’aspect le plus immédiatement appréhendable à propos de la dimension
visuelle du texte réside dans cette situation ambivalente (Cf. [Virbel 89]) : alors que la
mise en forme matérielle du texte réalise des éléments de sens qui peuvent être cruciaux
(aspect que nous identifions en termes de dimension significative de la mise en forme
matérielle), de très nombreuses mises en forme matérielle, fondées sur de multiples
différentiations de propriétés typographiques et/ou de dispositions spatiales des

                                                    8
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

caractères, semblent équivalentes du point de vue significatif. Tel est le cas de
l’exemple présenté en 2.1. Qui plus est, il n’existe pas de convention absolue régissant
les procédés de mise en forme matérielle, hormis, pour certaines d’entre elles, dans la
tradition et l’art typographique, ou dans des domaines restreints (“instructions aux
auteurs”, formats de collections, petites annonces, etc.). De sorte que ces conventions se
créent localement et sont plus des valeurs différentielles et contrastives qu’absolues des
éléments de mise en forme matérielle : s’il n’existe pas de règles comportant des
notations absolues, la mise en forme matérielle d’un texte respecte une règle globale de
contraste, c’est-à-dire un système d’identités et de différences perceptibles. Ceci
signifie par exemple que quelle que soit la manière dont est dénotée l’expression d’une
définition (selon l’exemple ci-dessus), toutes les définitions du texte (ou toutes celles
d’une même catégorie s’il y a lieu d’en distinguer) seront réalisées de la même manière
lorsque l’efficacité communicationnelle est recherchée.

        Cette question peut être mise en relation avec le problème de la relation
intention/convention telle que l’a développée Strawson dans son analyse des actes de
discours non strictement conventionnels. Appliquée au texte (Cf. [Virbel 89]), la
proposition de Strawson est la suivante :
– l’auteur (ou tout autre acteur textuel5 : typographe, maquettiste, etc.) a l’intention de
  produire un effet sur le lecteur, c’est-à-dire, dans le cas qui nous concerne ici, que
  celui-ci (com)prenne sa définition comme une définition.
– pour que cet effet ait lieu, il faut que le lecteur reconnaisse l’intention de l’auteur. En
  effet, s’il ne reconnaît pas l’intention de définir (de la part de l’auteur), le lecteur ne
  pourra pas comprendre le segment textuel concerné comme une définition (ceci est
  particulièrement sensible dans les cas 12 à 22 présentés en section 2.1, où les lexèmes
  de la famille “définir” sont absents). (De la même façon, dans le cadre des actes de
  discours généraux, un individu ne pourra pas se sentir menacé, par exemple, s’il ne
  reconnaît pas une menace de la part d’un autre individu).
– pour marquer son intention, l’auteur doit utiliser des moyens qui rendent la
  reconnaissance de celle-ci possible, mais qui n’ont pas à être conventionnels
  puisqu’ils sont juste une manifestation de sa volonté de signifier
  conventionnellement. Ces moyens, dans le cas du texte, sont ceux de la mise en
  forme matérielle : le principe de contraste, dans la mise en forme matérielle,
  fonctionne comme un marqueur d’intentionnalité.

        Cette approche des propriétés contrastives de la mise en forme matérielle permet
de lier méthodologiquement marques discursives et marques typo-dispositionnelles. Ce
lien est concrétisé à travers la notion d’architecture textuelle : comme défini en
section 1, l’architecture d’un texte correspond à un niveau abstrait des structures
textuelles, rendues perceptibles par un jeu de contrastes dans la mise en forme
matérielle.

3. Topographie du texte : situation de la définition

       Une méthode linguistique fondée par Virbel (Cf. [Virbel 85, 89, 92] et
[Gross 75]) dans le cadre de la lexicologie formelle, a conduit à l’élaboration d’un

5   Cf. [Mojahid 90].

                                                 9
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

modèle de représentation de l’architecture textuelle (Cf. [Pascual 91a, 91b]). Ce
modèle, prenant ses sources dans la relation langage/métalangage,
– permet de représenter la quasi-totalité des objets textuels pouvant apparaître dans les
  documents scientifiques et techniques,
– prend en compte les relations complexes existant entre objets textuels (relations
  hiérarchiques, sémantiques, logiques, etc.),
– classifie et caractérise finement les objets textuels (regroupement en classes d’entités
  ayant des comportements identiques du point de vue syntaxique et conceptuel, et des
  correspondances morpho-dispositionnelles équivalentes).
Dans le contexte de ce modèle, nous avons réalisé une sorte de topographie du texte :
en particulier, nous avons établi la liste des objets textuels pouvant comporter en leur
sein une définition, et pour chacun d’entre eux, nous avons étudié la façon dont la
définition peut se combiner avec les autres objets textuels. Nous présentons ici une
partie de nos résultats.

         La définition peut apparaître au sein des objets textuels suivants :
–   chapitres, sections, parties, etc.
–   paragraphes,
–   items de liste ou d’énumération,
–   exercices, problèmes, propositions, etc.
–   démonstrations, preuves, lemmes, corollaires, etc.
–   rubriques,
–   introductions, conclusions.

Par contre, il semble qu’elle ne puisse pas apparaître dans certains objets, comme par
exemple les avertissements, garanties, remerciements, avis, recommandations,
certificats, etc.

De plus, la définition peut être l’unique objet constitutif des objets textuels suivants :
– chapitres, sections, parties, etc.
– paragraphes,
– items de liste ou d’énumération.

En revanche, elle ne peut pas apparaître seule dans les objets textuels suivants :
– démonstrations, preuves, lemmes, corollaires, etc.
– rubriques.

La liste des objets textuels pouvant se combiner avec une définition au sein de ces
derniers objets est fournie dans [Pascual 91a]. Nous en donnerons ici un exemple : celui
de la démonstration ; outre qu’une démonstration peut comprendre une définition, elle
peut aussi comporter :
– des paragraphes,
– des commentaires, gloses, annotations, précisions, explications, etc.
– des exercices, propositions, problèmes, hypothèses, théorèmes, etc.
– des énumérations, des listes, des alternances.

                                                 10
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

       Une telle étude systématique présente des intérêts multiples :
– en génération, formalisée sous forme d’une grammaire par exemple, elle peut garantir
  la bonne formation, de ce point de vue, des textes générés, évitant, par exemple,
  d’obtenir un texte “incorrect” du fait qu’il comporterait une démonstration composée
  uniquement d’une définition (Cf. [Pascual 93]).
– en analyse, elle peut permettre, dès la reconnaissance des marques d’objets textuels
  (et avant-même leur analyse interne) d’écarter les interprétations erronées (Cf.
  [Pascual et Virbel 92]).

II. LE TEXTE DE LA DEFINITION

1. Remarques préliminaires

        Il peut sembler artificiel et méthologiquement douteux de séparer ainsi le texte
de la définition, – son corps –, et le métadiscours l’introduisant dans le texte. Nous
sommes amenées à le faire, de façon provisoire, dans cette première étape du travail. Il
s'agit en effet de reprendre, de relier, et d'approfondir, dans le cadre présenté dans
l'introduction, des travaux antérieurs concernant d'une part l'architecturation des textes,
et d'autre part la structure interne du texte définitoire. L'analyse présentée ci-après a
porté sur un cas particulier : des définitions isolées, hors-contexte. Elle nous permet
cependant de formuler des hypothèses de départ sur le fonctionnement discursif des
définitions dans les textes.

2. Schémas de structure rhétorique dans un corpus de définitions

        L’objet textuel définition est un objet structuré, dont la structure peut être
représentée selon le modèle de la “Rhetorical Structure Theory” [Mann et Thompson
86, 87, 88].

   2.1. La “Rhetorical Structure Theory” (RST)

        De nombreux modèles de la structuration textuelle sont fondés sur la notion de
relation entre des éléments textuels (phrases, propositions, …). Le modèle RST
présente l'avantage d'être le plus précis – sans doute parce qu'il se situe dans le contexte
de la génération de texte –, et celui d'avoir été beaucoup retravaillé (Cf. [Hovy 90],
[Maier 91]. Selon ce modèle, les éléments du texte, – propositions ou groupes de
propositions –, entretiennent entre eux des liens de nature propositionnelle. Ces
“propositions relationnelles” sont définies comme les “propositions implicites qui se
dégagent des combinaisons de propositions dans le texte”. Elles sont indépendantes de
toute signalisation spécifique, mais essentielles à la construction d’une interprétation
cohérente. Ainsi pour interpréter comme un texte cohérent la série de consignes
suivante, on posera l’existence d’une proposition relationnelle entre 1 et 2-3 :

      Ex. 5 :
      1. Replacer le combiné sur le support mural.
      2. Insérer la base du combiné d'abord,
      3. puis enfoncer fermement la partie supérieure

                                                  11
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

La structure résultante sera représentée par le schéma 1 :

                                                    but

                                       1                           2-3

                                                Schéma 1

         Les relations sont asymmétriques, reliant un noyau, indépendant, et un satellite,
qui est subordonné. Elles sont définies en termes de contraintes sur le noyau et le
satellite, et d'effet sur le lecteur. Les auteurs proposent une liste de départ de vingt-trois
relations, où sont distinguées relations référentielles et relations propositionnelles, tout
en signalant que cette liste ne peut être exhaustive : la nature sémantique et
pragmatique des relations est en effet liée au domaine et au type de texte.

    2.2. Types de propositions relationnelles et schémas de structure dans le corpus

        Nous avons réalisé une étude sur un corpus de définitions de concepts de base
en psychologie, informatique et techniques de gestion. Ce corpus est composé de
définitions rédigées sans contraintes de forme par des étudiants dans le cadre d’un
projet de tuteur intelligent [Daniel et al. 92]. Les représentations issues de l’analyse
fournissent dans ce projet des éléments pour la modélisation de l’utilisateur, qui a son
tour détermine la stratégie d'intervention du système tuteur. L’analyse esquissée ci-
dessous diffère quelque peu de celle présentée au terme du projet initial [Péry-Woodley
90, 93]. Le texte retenu pour l’analyse est le “dialogue” question-réponse (Q-R) dans
son intégralité. La numérotation des éléments de la réponse correspond aux
“propositions”6 reliées par les relations.

       Ex. 6 : (Q) Qu’est-ce que le conditionnement? (R) C’est l’acquisition d’un comportement
       nouveau en réponse à un stimulus neutre (ne provoquant pas de réponse initialement). Il
       s’obtient à l’aide d’expériences répétées et par des renforcements du stimulus neutre
       (appelé stimulus conditionnel).

       Ex. 7 : (Q) Qu’est-ce que la récupération spontanée? (R) Phénomène correspondant à la
       levée naturelle de l’inhibition inhérente à l’extinction d’un conditionnement.

    2.3. Corpus [Nicaud et Prince 91]

        Le corpus a été recueilli dans trois domaines différents, de façon à tester la
dépendance domaniale des observations livrées par son analyse. Il se compose de 338
définitions réparties comme suit :
– Psychologie : 72 définitions (6 concepts soumis à 12 sujets) ;
– Informatique : 227 définitions (2 concepts soumis à 53 sujets, et 1 concept soumis à
  121 sujets) ;

6 Les unités prises en compte par le modèle sont définies de façon assez floue par les auteurs ; ce flou est
symptomatique de la difficulté de repérer à la surface des textes des unités minimales de sens ; par
ailleurs, l'unité d'analyse peut varier selon la finesse de granularité désirée.

                                                    12
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

– Techniques de gestion : 39 définitions (1 concept soumis à 39 sujets).

    2.4. Analyse

        L’analyse procède par recherche de patrons récurrents de formes et de fonctions.
Il s’agit à ce stade d’un processus interprétatif, qui suggère ici que trois types de
relation sont prédominants dans le corpus, trois formes de la relation d’élaboration du
modèle de Mann et Thompson7, signalées par des marqueurs suffisamment clairs et peu
diversifiés pour être utilisables dans le cadre d’un traitement automatique.

      a. Les relations

• il y a relation d’identification quand un lien est établi entre un segment de texte et une
dénomination correspondant au concept à définir. On va retrouver ici les marqueurs
discursifs évoqués en 2.2. Si la définition commence par l’identification, celle-ci fait le
lien avec la question. et peut alors prendre trois formes :
– la dénomination est reprise, et la relation d’identité avec la reformulation est
   explicitée (copule), ce qui donne le schéma suivant :
   déterminant (dét.) + terme + copule + dét. + corps-déf (Ex. 9);
– la reformulation est introduite par “c’est” :
   c’est + dét. + corps-déf (Ex. 6).
– ellipse de “c’est” :
         détØ + corps-déf (Ex. 7).
Si au contraire l’identification intervient en fin de définition, elle comporte toujours la
reprise de la dénomination sur laquelle porte la question :
         corps-déf + c'est + dét + terme (Ex. 8)
Il s’agit alors de mettre en relation cette dénomination avec le corps de la définition. On
verra que cela correspond à un schéma canonique.

      Ex. 8 (Q) Qu’est-ce que la récupération spontanée? (R1) Après avoir observé une
      extinction et après une période de repos si on recommence une série de tests, on observe
      une RC à la présentation de SC : (R2) c’est la récupération spontanée de l’apprentissage.

                                             définition

                                    Q                         R8

                                           identification

                                    R1                        R2

7 [Hovy 90] constate également la nécessité d'affiner la relation d'élaboration dans certains types de
textes et propose une ébauche de typologie.
8 Ce premier stade de l'analyse, commun à tous les exemples, ne sera pas répété. Pour les exemples
suivants, seule l'analyse de R sera présentée.

                                                 13
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

                                         Schéma 2 (Ex. 8)

• il y a relation d’explicitation/illustration entre une proposition (généralement une
reformulation définitoire) et des exemples servant à l’illustrer ;
      Ex. 9 (Q) Qu’est-ce qu’un tri? (R1) Un tri est un rangement ordonné de mots, lettres ou
      chiffres. (R2) Ils peuvent être rangés dans un ordre prédéfini, par exemple dans un ordre
      croissant ou décroissant.

                                     explicitation/illustration

                                    R1                         R2

                                         Schéma 3 (Ex. 9)

      Ex. 10 (Q) Qu’est-ce qu’un tri? (R1) Un tri permet de classer des éléments suivant un
      certain ordre (croissant ou décroissant). (R2) Il peut se faire sur des éléments numériques,
      alpha-numériques ou alphabétiques. (R3) On peut trier des éléments suivant plusieurs
      méthodes : quicksort, dichotomie, insertion, heapsort, sélection, méthode bulle.

                                     explicitation/illustration

                            R1                           R2             R3

                                         Schéma 4 (Ex. 10)

• il y a relation de situation/explication entre une proposition et la description de la
fonction ou des attributs du terme à définir.
      Ex. 11 (Q) Qu’est-ce que l’extinction? (R1) C’est le désapprentissage. (R2) Si l’on ne
      présente plus que le stimulus neutre il n’y aura plus de réponse. (R3) Pour Pavlov après le
      conditionnement on ne présente plus que le son le chien ne salivera plus.

                                       situation/explication

                                  R1                          R2-R3

                                         Schéma 5 (Ex. 11)

      b. Les marqueurs de relations

       La figure 1 résume les traits linguistiques associés aux relations identifiées
comme prédominantes dans le corpus. On constate qu’à côté des marques “classiques”
comme “ si…alors ”ou “ par exemple ” on a des marques plus fines, configurations de
syntaxe et de ponctuation qui ici semblent fonctionner de façon équivalente. Ainsi, dans

                                                  14
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

les définitions du corpus, une liste, – c’est-à-dire une suite de noms séparés par des
virgules et sans déterminant, se terminant par “ etc. ” ou des points de suspension –,
peut régulièrement être interprétée comme une marque de la relation
d’explicitation/illustration. Dans les deux exemples d’explicitation/illustration, on
notera la conjonction de “ pouvoir ” et d’un autre marqueur : “ par exemple ” dans
l'exemple 9, des listes dans l'exemple 10.

        identification                explicitation / illustration          situation / explication
• Initiale :                         (par) exemple                       si P1 , (alors) P2
dét+terme+est+dét+corps-déf          N1,N2, ...., Nn (etc) (...)         lorsque P1, alors P2
c’est +dét+corps-déf                 il existe / nous avons              quand P1, alors P2
détØ +corps-déf                      plusieurs/(de) nombreux             P1, alors P2
• Finale :                           SAdj1 ou SAdj2 ou SAdjn             P1, futur(P2)
.,;} c’est +dét+terme                                                    P1, on observe/constate P2

                        Figure 1. Marques de relations entre propositions9

        Les propositions dont sont constituées les définitions, liées entre elles par les
relations décrites ci-dessus, forment des structures qui peuvent faire l'objet d'une
comparaison avec des définitions “expertes”. Les “schémas textuels” qui résultent des
relations entre segments correspondent plus ou moins aux schémas “canoniques”.
Ainsi, les schémas de définition qui fournissent à McKeown [McKeown 85] le
fondement textuel de son système de génération automatique de textes comportent tous
la relation d’identification, souvent absente des définitions d’étudiants. C’est la
présence de cette relation qui distingue l’exemple 12, reconnaissable comme définition,
de l’exemple 13, qui ne l’est pas. Tous deux sont des réponses à la question : “ Qu’est-
ce que la récupération spontanée ? ”.
       Ex. 12 Après une extinction et un temps de repos, si on représente le stimulus conditionnel,
       on observe le comportement initialement induit par le conditionnement : c’est le
       phénomène de la récupération spontanée.

       Ex. 13 Après extinction et une période de repos, on présente de nouveau le stimulus
       conditionnel à l’animal, on constate de nouveau la réaction conditionnelle.

3. Architecture interne de la définition

        Dans la partie I.3., nous avons signalé l’existence d’un modèle de représentation
de l’architecture textuelle ([Pascual 91a, 91b]) dans le contexte duquel nous avons
établi la liste des objets textuels pouvant comporter en leur sein une définition, ainsi
que l’ensemble des contraintes de combinaison à l’intérieur de chaque objet textuel.

9La figure 1 fait appel aux abréviations suivantes : dét = déterminant; détØ = absence de déterminant; N
= nom; SAdj = syntagme adjectival; P = proposition.

                                                   15
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

        De la même façon, nous avons établi, grâce à ce modèle, que les seuls objets
textuels pouvant composer une définition sont : les paragraphes, les listes, les
énumérations et les alternances.

CONCLUSION

        L’acquis principal du présent travail réside en le fait que deux approches très
différentes des structures textuelles ont pu être mises en relation, sans pour autant se
contredire. Selon nous, c’est la focalisation sur un objet textuel particulier qui a permis
d’aboutir à ce résultat. En effet, une étude antérieure avait montré la difficulté de
représenter les phénomènes pris en compte par le modèle de représentation de
l’architecture textuelle dans les termes de la RST ([Pascual 92]).

        La complémentarité des approches permet maintenant d’aborder d’autres
questions (dont certaines sont d’ores et déjà en cours d’étude), qui concernent
principalement les relations entre les différents types de structures textuelles. Nous les
listons ci-dessous :

Structure sémantique / structure rhétorique
        Dès à présent, nous nous intéressons à deux structures entremêlées au sein des
définitions : d’une part la structuration rhétorique entre les propositions (relations de
justification, d’illustration, d’identification, …), et d’autre part une structuration
sémantique émergeant de l’articulation entre les différentes classes d’informations
sémantiques représentées (par exemple, dans le domaine de la géomorphologie : mode
de formation, disposition dans l’espace, …). Une étude a été lancée à ce sujet (projet
ICE, A. Borillo et M.-P. Péry-Woodley).

Architecture / structure rhétorique de la définition
        Une perspective à court terme de notre travail est la mise en correspondance
entre architecture textuelle et structure rhétorique, dans le contexte précis de la
définition. Dans l’état actuel de nos travaux, d’une part nous avons une liste quasi-
exhaustive des objets textuels pouvant composer une définition ; d’autre part, nous en
connaissons des schémas de structures rhétoriques. Nous sommes donc en mesure de
confronter ces deux vues des structures textuelles de façon systématique. Nous espérons
voir émerger, dans ce cadre contraint, des règles de mise en correspondance.

Architecture / structure rhétorique du texte
        Par ailleurs, nous avons mis au jour des données concernant les relations
architecturales entre l’objet définition et les autres objets textuels (Cf. I.3). Dans le
même état d’esprit, nous comptons analyser, en termes de relations rhétoriques, les
liens entre les définitions et leur contexte. Ces résultats nous permettraient alors de
généraliser cet effort de mise en correspondance entre les deux modèles (architecture et
structure rhétorique) aux relations entre les définitions et le reste du texte.

Définition et structure phrastique

                                                 16
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995

       Il n’y a pas coïncidence systématique entre l’objet textuel définition et la phrase.
Non seulement dans le sens où la définition peut comporter plusieurs phrases, ou ne
représenter qu’une partie de phrase (structure appositive par exemple), mais surtout
parce qu’elle chevauche souvent les frontières de phrase, comme on l’a vu par exemple
dans les schémas de type “... corps-déf. C’est terme.”.

Formulation de la définition
        Il semble clair que la formulation-même de la définition (au niveau
typographique, dispositionnel, syntaxique, lexical, …) dépend de facteurs tels que le
but du discours, le type de document, le domaine de connaissances, la “culture” du
lecteur, et les connaissances partagées. Le travail envisagé sur un corpus précis de
textes à consignes devrait conduire à l’élaboration de connaissances à ce sujet.
Enfin, nous pensons que l’efficacité communicationnelle recherchée (lisibilité,
correction, …) influence fortement la formulation de la définition. On envisage, à ce
sujet, une collaboration avec des chercheurs en psycho-linguistique.

                                                 17
Vous pouvez aussi lire