LA DEFINITION DANS LE TEXTE
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 LA DEFINITION DANS LE TEXTE Elsa PASCUAL* et Marie-Paule PÉRY-WOODLEY** * IRIT/PRESCOT, Université Paul Sabatier, 118 route de Narbonne, 31 062 Toulouse cedex, France. Tél. (33) 61 55 63 18. Email : pascual@irit.fr ** ERSS/PRESCOT, Université de Toulouse Le Mirail, 5 allées Antonio-Machado, 31058 Toulouse cedex, France. Tél. (33) 61 50 36 09. Email : pery@cict.fr INTRODUCTION Dans le cadre de traitements automatiques de textes à consignes, nous étudions un objet textuel particulier : la définition. Dans ce type de textes, les définitions jouent un rôle majeur : ce sont des objets particulièrement riches sur le plan sémantique, qui de ce fait, doivent avoir, plus qu’ailleurs, de solides propriétés d’univocité et d’efficacité communicationnelle : le message doit être totalement univoque pour que la consigne soit opérante, et l’effort de perception doit être minimisé en termes, entre autres, de lecture. Le traitement automatique de définitions dans les textes à consignes constitue un enjeu important dans plusieurs applications : – en compréhension et en génération automatiques de textes à consignes ; – dans le domaine du marquage automatique de documents (dans les termes d’une DTD SGML par exemple) ; – en terminologie et en extraction automatique de connaissances, où on peut citer deux secteurs de recherche nécessitant une bonne compréhension du fonctionnement des définitions : la construction automatique de glossaires à partir de textes, et l’extraction, toujours à partir de textes, de relations sémantiques entre les concepts dénommés par les termes (Cf. [Hearst 92]). Ce type d’applications prend une importance particulière dans le domaine des manuels en lignes et de la documentation technique numérisée. Bien que cette étude s’intègre dans le projet “Textes à Consignes”, nous ne nous focaliserons ici sur aucun type de texte en particulier. Il s’agit d’un travail préliminaire et général, dont la prochaine étape sera l’étude spécifique des textes à consignes. Notons néanmoins que nos résultats sont pertinents pour ce type de textes. Les définitions prennent des formes très variées, aussi bien dans leur expression langagière que dans leur structuration interne, ou encore dans leur réalisation typographique et dispositionnelle. De ce fait, on peut se demander s’il est légitime de considérer qu’il existe un objet unique “définition”. Les études sur la définition s’attachent à mettre en évidence la polysémie du terme même, qui recouvre des activités très diverses (Cf. [Rey 90], [Martin 90]). Par ailleurs, des différences considérables apparaissent dès qu’on observe des définitions dans des corpus, tout d’abord entre les définitions de dictionnaires et les énoncés définitoires dans les textes. 1
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 Ces derniers, sur lesquels va porter notre travail, sont eux-mêmes appelés à varier en fonction d’un certain nombre de paramètres : les plus évidents ont trait aux connaissances que les producteurs du texte supposent partagées par le “lectorat” visé; d’autres, peut-être moins visibles ou moins analysés, concernent l’impact du domaine ou celui du type de texte. On peut s’attendre à ce que les variations dans la formulation des définitions reflètent ces différences discursives. Cela dit, dans une perspective pragmatique, il semble légitime de considérer ces formulations diverses comme des variantes d’un même acte de parole ; dans une perspective cognitive, on peut avancer que savoir reconnaître qu’un objet textuel est une définition est bien un aspect de la compétence textuelle, tout comme le fait d’être capable de produire des définitions reconnaissables en tant que telles (Cf. la notion d’“énoncé définitoire ordinaire” [Riegel 90]). En vue de traitements automatiques, une mise en œuvre de méthodes linguistiques fines est requise, ces variations rendent le repérage, l’analyse et la génération très complexes. Dans ce qui suit, tout en nous attachant à interpréter la diversité des réalisations, c’est la spécificité linguistique et plus particulièrement textuelle de l’objet définition que nous cherchons à cerner. Notre étude est en effet consacrée non seulement au texte de la définition, mais aussi à la définition dans le texte. A notre connaissance, les recherches actuelles à ce sujet s’intéressent à la définition hors-texte. Or la position de la définition dans un texte, ainsi que son articulation avec le reste du texte contraignent sa forme ; et réciproquement, la présence d’une définition dans un texte contraint le contexte de celle-ci. Son étude hors-texte ne peut donc capturer qu’une partie de sa richesse. En ce qui concerne le texte de la définition, nous nous intéresserons : – à ses structures rhétoriques et à ses schémas de structures rhétoriques ; – à son architecture, c’est-à-dire aux objets textuels pouvant la composer, et aux relations entre ces objets. En ce qui concerne la définition dans le texte, nous nous intéresserons : – aux marqueurs syntaxiques, lexicaux, typographiques et dispositionnels de la définition dans un texte. – à son statut dans l’architecture globale du texte. I. LA DEFINITION DANS LE TEXTE 1. Notions préliminaires Dans l’introduction, nous avons, à plusieurs reprises, qualifié la définition d’objet textuel. Cette notion, si elle peut se comprendre intuitivement, nécessite d’être définie plus strictement, à partir de la notion de mise en forme matérielle (Cf. [Pascual 91b]). Mise en forme matérielle : c’est l’ensemble des propriétés de réalisation appliquées à un texte. Ces propriétés sont de nature : – syntaxique : nominalisation, forme interrogative, apposition, relative appositive, etc. – typographique : caractères, polices, corps, styles, couleurs, etc. 2
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 – dispositionnelle : justification, colonage, marges horizontales et verticales, sauts de lignes, de pages, etc. Objet textuel : c’est un segment caractéristique de texte, rendu perceptible par un jeu de contrastes de la mise en forme matérielle : mise en relief, mise en parallèle, etc. Ces deux notions permettent de définir celle d’architecture textuelle. Architecture textuelle : c’est une composante abstraite du texte, constituée de l’ensemble des objets textuels ainsi que des relations qu’ils entretiennent entre eux. Exemple : Soit l’image de texte suivante1 : CHAPITRE I Théorème : M _______ ________________ M __________ ________________ __________ Démonstration : M ____ ________________ ________________ __________ CHAPITRE II M __________ ________________ ________________ ___________ Dans cet exemple, l’architecture du texte réside dans le fait que dans ce texte apparaissent deux chapitres numérotés, que dans le premier chapitre apparaissent un théorème et sa démonstration, séparés par un paragraphe, etc. Les objets textuels sont : le mot “théorème” et le corps du théorème, le mot “démonstration” et la démonstration elle-même, le paragraphe, l’entête “chapitre I” et le corps du chapitre, l’entête “chapitre II” et le corps du chapitre. La mise en forme matérielle de ce texte est constituée de toutes les propriétés typographiques, dispositionnelles et syntaxiques qui nous permettent de percevoir cette architecture ; par exemple : choix de police de caractères, de graisse et de corps spéciaux pour les caractères des mots “chapitre”, “théorème”, “démonstration”, disposition spatiale particulière de ces mots, choix du système romain majuscule pour la numérotation des chapitres, etc. D’autres exemples d’objets textuels sont : une introduction, une conclusion, une section, une partie, un avertissement, un commentaire, une annotation, une explication, 1 Dans une image de texte (Cf. [Pascual 91b]), M ____ dénote une chaîne de caractères non distinguée. 3
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 une définition, un exemple, une démonstration, une rubrique, une liste, une énumération, une alternance, un résumé, etc. 2. Les marqueurs de la définition Les philosophes du langage ont très pertinemment attiré l’attention sur le fait que la parole est action, et sur le rôle de facteurs extra-linguistiques dans l’interprétation de ces actions ([Austin 62], [Searle 75], [Strawson 71], [Grice 57]). Cela a encouragé les travaux sur la représentation des connaissances du monde et sur la modélisation des raisonnements à partir de ces connaissances. Nous nous situons dans le cadre fourni par la pragmatique linguistique aux recherches sur le discours, mais nos travaux ont pour objet les textes eux-mêmes : nous cherchons à mettre en lumière les aspects de la mise en forme matérielle qui sont autant de marqueurs guidant le lecteur dans le processus de construction de sens à partir d’un texte. Pour ce faire, nous nous démarquons des nombreuses études portant sur les “connecteurs”, sur plusieurs points. Premièrement, là où ces travaux se focalisent presque exclusivement sur des marqueurs lexicaux, nous présentons une conception plus large et plus ouverte de la notion de marqueur, qui tient compte de la typographie, de la ponctuation et de la disposition spatiale, aussi bien que de configurations lexico-syntaxiques. Deuxièmement, nous ne partons pas d’expressions ou de séries d’expressions préétablies2, mais nous prenons comme point de départ un objet textuel, – ici, la définition –, pour recenser les marqueurs auxquels il est associé. Enfin, nous insistons sur la variabilité des marqueurs, en fonction de paramètres situationnels et contextuels qui restent à préciser. Notre réflexion s’articule autour de deux axes complémentaires : un travail de modélisation des objets textuels, fondé sur la notion harrissienne de métalangage, et une étude des marqueurs attestés en corpus. 2.1. Fondements théoriques a. Formes d’expression d’une définition L’expression d’une définition dans un texte peut se faire ou bien par une formulation entièrement discursive (ou “textuelle”), – ainsi de la formulation “Je définis A comme étant B”–, ou bien par une formulation comportant des réductions ou transformations linguistiques, mais accompagnées d’éléments particuliers de mise en forme matérielle. De fait, l’analyse suggère l’existence d’un continuum, allant de formulations où les moyens discursifs sont prédominants et ceux de la mise en forme matérielle les plus réduits (formes dites “discursives développées”), à des formulations où ce rapport est inversé (formes dites “réduites à réalisation particulière)3. Ces formulations semblent équivalentes du point de vue sémantique. Nous montrons ci-dessous quelques représentants de ce continuum , où terme et corps- déf notent respectivement un terme défini et une phraséologie définissante quelconques : 2 On pense bien sûr aux travaux de Ducrot en linguistique ([Ducrot 80]), mais aussi, dans le domaine de la compréhension automatique du discours, à ceux de [Reichman 84] sur les marqueurs conversationnels, et à ceux de Cohen sur les marqueurs dans l’argumentation ([Cohen 84]). 3 Cette constatation s’applique aussi bien à tous les autres types d’objets textuels (Cf. [Virbel 89]). 4
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 1. On définit terme comme corps-déf. 2. (On donne / On pose / Soit / etc.)4 la définition de terme comme corps-déf. 3. (On donne / On pose / Soit / etc.) la définition suivante : terme est corps-déf. 4. terme (se définit / est définissable) (par / comme) corps-déf. 5. terme (se définit / est définissable) ainsi : corps-déf. 6. corps-déf (constitue / représente / est / etc.) la définition de terme. 7. La définition de terme est la suivante : corps-déf. 8. DEFINITION de terme : terme est corps-déf. 9. DEFINITION de terme : corps-déf. 10. DEFINITION : terme est corps-déf. 11. DEF : terme est corps-déf. 12. On donne le nom de terme à corps-déf . 13. corps-déf. C’est ce qu’on appelle terme. 14. ... qu’on appelle terme, c’est-à-dire corps-déf ... 15. corps-déf, appelé terme. 16. ... terme. C’est corps-déf . 17. ... corps-déf, terme... 18. terme : corps-déf. 19. terme est corps-déf. 20. ∅ terme est corps-déf. 21. terme est corps-déf 22. terme est _______ avec _______ = corps-déf _______ _______ _______ _______ 4 Le symbole / associé aux parenthèses dénote l’alternative. 5
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 L’examen de cet exemple nous conduit à remarquer que l’expression d’une définition peut s’effectuer non seulement par le biais de procédés typo-dispositionnels, mais aussi grâce à une famille de formulations entièrement ou partiellement discursives ; l’exemple étudié suggère un continuum entre une ou des formulations où les moyens expressifs discursifs sont prédominants et ceux de la mise en forme matérielle les plus réduits, et des formulations où ce rapport est inversé : – les cas 1 à 7 renvoient à des formulations entièrement discursives, liées entre elles (transformationnellement). – les cas 8 à 11 renvoient à des formulations comportant un détachement lexical associé à des procédés de mise en forme matérielle particuliers (types de caractères, disposition spatiale). – les autres cas renvoient à des formulations où un lexème de la famille “définir” et dérivés n’est plus attesté, mais où la dénotation de l’acte “définir” est marquée par une propriété de mise en forme matérielle, qui peut correspondre : • à des configurations lexico-syntaxiques(cas 12 à17), • aux types de caractères utilisés (cas 18 et 19), • à des symboles diacritiques ou autres (cas 20), • à des procédés de type graphique (cas 21), • à des dispositions spécifiques (cas 22). Autrement dit, la marque de la présence d’une définition dans un texte peut être une formulation discursive développée mettant en relation un terme et le corps proprement dit de la définition, ou peut être, à l’opposé, un ensemble de paramètres typographiques et dispositionnels appliqués directement au corps-même de la définition, ou peut encore être une formulation intermédiaire entre ces deux possibilités. b. Les marqueurs comme éléments du métalangage textuel Les marques discursives de définitions manifestent un contenu métatextuel : elles expriment la sémantique du segment de texte argument quand à sa nature (de définition) et sa fonction structurelle au sein du texte. Dans l’esprit de Z. S. Harris à propos de la relation langage/métalangage (Cf. [Harris 68]), on peut considérer que les marques syntaxiques, typographiques et dispositionnelles sont des traces des transformations et réductions effectuées à partir de la forme discursive développée. Elles aussi sont donc des éléments du métalangage textuel (métalangage présent au sein-même des textes). Nous renvoyons à [Virbel 89], à [Pascual 91b], et à [Pascual et Virbel 93] pour plus de précisions. c. L’acte de définir L’examen des formes discursives mises en regard des phénomènes de mise en forme matérielle ainsi que celui de leurs conditions énonciatives suggèrent qu’elles possèdent une valeur performative et qu’on peut les caractériser comme des actes de discours particuliers à vocation spécifiquement textuelle ([Virbel 85]). Lorsqu’une personne écrit “Je définis A comme B” ou “DEFINITION de A : B”, elle demande, dans les deux cas, que le segment textuel B soit considéré comme la définition de A. Par conséquent, le statut de “définition” de B dépend d’une action particulière que l’auteur 6
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 réalise et qui consiste en ce qu’il indique comment B doit être entendu. D’autre part, le critère de satisfaction d’un acte de discours correspond à sa performativité et non pas à son adéquation à un modèle préexistant. Ainsi, cette “définition” peut par ailleurs être réussie ou ratée par rapport à l’art de définir un terme, elle tire son statut de “définition” de la performativité d’un acte textuel particulier. De même, une démonstration peut être fausse dans un univers mathématique ou logique, mais si elle a été performée en tant que “démonstration” dans un texte donné, elle doit être considérée comme telle dans l’univers de la performativité textuelle. En évoquant les actes de discours, nous nous référons aux travaux de Austin, puis de Searle et de Strawson dans le cadre de la philosophie analytique du langage ([Austin 62], [Searle 75], [Strawson 71]). Selon Riegel ([Riegel 87]), l’énonciation d’une définition est un acte empiriquement observable, qui répond à la question, implicite ou explicite, “qu’est-ce que X”, interprétée comme une demande d’information sur le sens de X. Divisant les définitions en deux catégories, il les analyse selon la classification de Searle : la définition stipulatoire, consistant à assigner un sens arbitraire à un terme existant ou nouveau, fait intervenir au moins trois types d’actes illocutoires : déclaratif, commissif et directif ; quant à la définition descriptive, qui spécifie l’usage des mots à l’intérieur d’une communauté linguistique, elle se range dans la catégorie des illocutions assertives. 2.2. Marqueurs discursifs Ce qui semble caractériser la définition dans le texte, – et contribuer à l’identification de la définition en tant qu’objet textuel –, est un décrochement énonciatif métalinguistique. Les marques linguistiques de ce décrochement ont suscité l’intérêt de lexicographes et de terminologues à la recherche d'informations définitoires dans les textes ([Candel 94], [Thoiron et Béjoint 91]). Leurs objectifs diffèrent cependant des nôtres de deux façons : d’abord, ils pensent en termes de relations lexicales, typiquement entre un terme et une expression du vocabulaire général, ou du vocabulaire scientifique général, alors que nous envisageons la définition en tant qu’objet textuel, pouvant s’étendre sur plusieurs phrases, et les “jalons métalinguistiques” [Candel 94] comme contribuant à la démarcation de l’objet définition. Ensuite, parce que nous visons, à terme, la possibilité de procéder à des repérages les plus complets possible d’énoncés définitoires dans des bases de données textuelles, nous ne pouvons nous contenter de relever les expressions les plus typiques ou les plus explicitement métalinguistiques ; nous sommes au contraire soumises à un impératif d’exhaustivité maximale. Nous admettons toutefois que le respect de cet impératif est fonction de la variabilité liée au domaine et au type de texte, qui reste encore à mesurer en ce qui concerne le marquage métalinguistique des énoncés définitoires. En dépit de ces différences, ces travaux sont pour nous d’un intérêt considérable. D. Candel en particulier fournit une série de schèmes des différents types d’expression sélectionnés parmi 700 énoncés définitoires provenant d’un corpus de vulgarisation scientifique. Nous présentons certains de ces schèmes ci-dessous. Ils correspondent largement à ceux que, par d’autres méthodes, nous avons nous-mêmes observés au cours de l’analyse d’un manuel de géomorphologie, dont sont tirés les exemples 1-4 : 7
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 • Reformulations allant du général (corps-déf formulé en vocabulaire scientifique général) au spécialisé (terme) : corps-déf appelé / baptisé / dit aussi / connu sous le nom de terme corps-déf (c’est) ce qu’on appelle / on parle alors de / on dit terme corps-déf sont regroupés sous le nom de terme corps-déf est/ c'est terme corps-déf il s’agit alors de / il s’agit donc de / c’est-à-dire terme Ex. 1 : La mer qui gèle, comme c'est le cas dans les régions polaires à la fin de l'été, prend d'abord une contexture huileuse, due à la coexistence de petits cristaux de glace flottant : c'est le slush (la bouillie). Ex. 2 : Si (…) le litage n'est pas celui d'une stratification mais qu'il a été acquis par une lamination au cours de la descente, on parle d'arène fauchée. • Reformulations allant du spécialisé au général : terme qui désigne / en d’autres termes corps-déf on appelle / on a convenu d’appeler / on donne le nom de terme (à) corps-déf terme est souvent défini comme corps-déf terme ou corps-déf terme est / c’est corps-déf terme / c’est-à-dire corps-déf Ex. 3 : Une grande partie des déformations qu'elle subit se concentre dans ce qu'on appelle les bandes bleues, c'est-à-dire des zones à cristaux. Ex. 4 : On appelle alass les dépressions indécises dues à la dégradation du permafrost. Ces marqueurs sont loin d'être univoques : il est clair que leur utilisation dans le repérage de définitions ne pourra être efficace que si on est capable de leur associer, dans leur environnement immédiat, des régularités syntaxiques, typo-dispositionnelles et de ponctuation . 2.3. Marqueurs typographiques et dispositionnels Selon la section 2.1, il apparaît que l’approche de la dimension visuelle du texte n’est guère dissociable de celle de sa composante discursive. Elle n’en est ici isolée que pour la commodité de la présentation. En effet, les marqueurs typographiques et dispositionnels participent, de la même façon qu’une formulation discursive, à l’acte de discours. Ils comportent donc une dimension significative. De plus, ils s’articulent de façon complexe avec les marqueurs discursifs. Dans le cas précis de la définition, ces marqueurs contribuent non seulement à indiquer la nature (de définition) du segment argument, mais aussi à situer structurellement la définition dans le texte (par exemple en indiquant sa position dans une structure hiérarchique englobante). L’aspect le plus immédiatement appréhendable à propos de la dimension visuelle du texte réside dans cette situation ambivalente (Cf. [Virbel 89]) : alors que la mise en forme matérielle du texte réalise des éléments de sens qui peuvent être cruciaux (aspect que nous identifions en termes de dimension significative de la mise en forme matérielle), de très nombreuses mises en forme matérielle, fondées sur de multiples différentiations de propriétés typographiques et/ou de dispositions spatiales des 8
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 caractères, semblent équivalentes du point de vue significatif. Tel est le cas de l’exemple présenté en 2.1. Qui plus est, il n’existe pas de convention absolue régissant les procédés de mise en forme matérielle, hormis, pour certaines d’entre elles, dans la tradition et l’art typographique, ou dans des domaines restreints (“instructions aux auteurs”, formats de collections, petites annonces, etc.). De sorte que ces conventions se créent localement et sont plus des valeurs différentielles et contrastives qu’absolues des éléments de mise en forme matérielle : s’il n’existe pas de règles comportant des notations absolues, la mise en forme matérielle d’un texte respecte une règle globale de contraste, c’est-à-dire un système d’identités et de différences perceptibles. Ceci signifie par exemple que quelle que soit la manière dont est dénotée l’expression d’une définition (selon l’exemple ci-dessus), toutes les définitions du texte (ou toutes celles d’une même catégorie s’il y a lieu d’en distinguer) seront réalisées de la même manière lorsque l’efficacité communicationnelle est recherchée. Cette question peut être mise en relation avec le problème de la relation intention/convention telle que l’a développée Strawson dans son analyse des actes de discours non strictement conventionnels. Appliquée au texte (Cf. [Virbel 89]), la proposition de Strawson est la suivante : – l’auteur (ou tout autre acteur textuel5 : typographe, maquettiste, etc.) a l’intention de produire un effet sur le lecteur, c’est-à-dire, dans le cas qui nous concerne ici, que celui-ci (com)prenne sa définition comme une définition. – pour que cet effet ait lieu, il faut que le lecteur reconnaisse l’intention de l’auteur. En effet, s’il ne reconnaît pas l’intention de définir (de la part de l’auteur), le lecteur ne pourra pas comprendre le segment textuel concerné comme une définition (ceci est particulièrement sensible dans les cas 12 à 22 présentés en section 2.1, où les lexèmes de la famille “définir” sont absents). (De la même façon, dans le cadre des actes de discours généraux, un individu ne pourra pas se sentir menacé, par exemple, s’il ne reconnaît pas une menace de la part d’un autre individu). – pour marquer son intention, l’auteur doit utiliser des moyens qui rendent la reconnaissance de celle-ci possible, mais qui n’ont pas à être conventionnels puisqu’ils sont juste une manifestation de sa volonté de signifier conventionnellement. Ces moyens, dans le cas du texte, sont ceux de la mise en forme matérielle : le principe de contraste, dans la mise en forme matérielle, fonctionne comme un marqueur d’intentionnalité. Cette approche des propriétés contrastives de la mise en forme matérielle permet de lier méthodologiquement marques discursives et marques typo-dispositionnelles. Ce lien est concrétisé à travers la notion d’architecture textuelle : comme défini en section 1, l’architecture d’un texte correspond à un niveau abstrait des structures textuelles, rendues perceptibles par un jeu de contrastes dans la mise en forme matérielle. 3. Topographie du texte : situation de la définition Une méthode linguistique fondée par Virbel (Cf. [Virbel 85, 89, 92] et [Gross 75]) dans le cadre de la lexicologie formelle, a conduit à l’élaboration d’un 5 Cf. [Mojahid 90]. 9
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 modèle de représentation de l’architecture textuelle (Cf. [Pascual 91a, 91b]). Ce modèle, prenant ses sources dans la relation langage/métalangage, – permet de représenter la quasi-totalité des objets textuels pouvant apparaître dans les documents scientifiques et techniques, – prend en compte les relations complexes existant entre objets textuels (relations hiérarchiques, sémantiques, logiques, etc.), – classifie et caractérise finement les objets textuels (regroupement en classes d’entités ayant des comportements identiques du point de vue syntaxique et conceptuel, et des correspondances morpho-dispositionnelles équivalentes). Dans le contexte de ce modèle, nous avons réalisé une sorte de topographie du texte : en particulier, nous avons établi la liste des objets textuels pouvant comporter en leur sein une définition, et pour chacun d’entre eux, nous avons étudié la façon dont la définition peut se combiner avec les autres objets textuels. Nous présentons ici une partie de nos résultats. La définition peut apparaître au sein des objets textuels suivants : – chapitres, sections, parties, etc. – paragraphes, – items de liste ou d’énumération, – exercices, problèmes, propositions, etc. – démonstrations, preuves, lemmes, corollaires, etc. – rubriques, – introductions, conclusions. Par contre, il semble qu’elle ne puisse pas apparaître dans certains objets, comme par exemple les avertissements, garanties, remerciements, avis, recommandations, certificats, etc. De plus, la définition peut être l’unique objet constitutif des objets textuels suivants : – chapitres, sections, parties, etc. – paragraphes, – items de liste ou d’énumération. En revanche, elle ne peut pas apparaître seule dans les objets textuels suivants : – démonstrations, preuves, lemmes, corollaires, etc. – rubriques. La liste des objets textuels pouvant se combiner avec une définition au sein de ces derniers objets est fournie dans [Pascual 91a]. Nous en donnerons ici un exemple : celui de la démonstration ; outre qu’une démonstration peut comprendre une définition, elle peut aussi comporter : – des paragraphes, – des commentaires, gloses, annotations, précisions, explications, etc. – des exercices, propositions, problèmes, hypothèses, théorèmes, etc. – des énumérations, des listes, des alternances. 10
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 Une telle étude systématique présente des intérêts multiples : – en génération, formalisée sous forme d’une grammaire par exemple, elle peut garantir la bonne formation, de ce point de vue, des textes générés, évitant, par exemple, d’obtenir un texte “incorrect” du fait qu’il comporterait une démonstration composée uniquement d’une définition (Cf. [Pascual 93]). – en analyse, elle peut permettre, dès la reconnaissance des marques d’objets textuels (et avant-même leur analyse interne) d’écarter les interprétations erronées (Cf. [Pascual et Virbel 92]). II. LE TEXTE DE LA DEFINITION 1. Remarques préliminaires Il peut sembler artificiel et méthologiquement douteux de séparer ainsi le texte de la définition, – son corps –, et le métadiscours l’introduisant dans le texte. Nous sommes amenées à le faire, de façon provisoire, dans cette première étape du travail. Il s'agit en effet de reprendre, de relier, et d'approfondir, dans le cadre présenté dans l'introduction, des travaux antérieurs concernant d'une part l'architecturation des textes, et d'autre part la structure interne du texte définitoire. L'analyse présentée ci-après a porté sur un cas particulier : des définitions isolées, hors-contexte. Elle nous permet cependant de formuler des hypothèses de départ sur le fonctionnement discursif des définitions dans les textes. 2. Schémas de structure rhétorique dans un corpus de définitions L’objet textuel définition est un objet structuré, dont la structure peut être représentée selon le modèle de la “Rhetorical Structure Theory” [Mann et Thompson 86, 87, 88]. 2.1. La “Rhetorical Structure Theory” (RST) De nombreux modèles de la structuration textuelle sont fondés sur la notion de relation entre des éléments textuels (phrases, propositions, …). Le modèle RST présente l'avantage d'être le plus précis – sans doute parce qu'il se situe dans le contexte de la génération de texte –, et celui d'avoir été beaucoup retravaillé (Cf. [Hovy 90], [Maier 91]. Selon ce modèle, les éléments du texte, – propositions ou groupes de propositions –, entretiennent entre eux des liens de nature propositionnelle. Ces “propositions relationnelles” sont définies comme les “propositions implicites qui se dégagent des combinaisons de propositions dans le texte”. Elles sont indépendantes de toute signalisation spécifique, mais essentielles à la construction d’une interprétation cohérente. Ainsi pour interpréter comme un texte cohérent la série de consignes suivante, on posera l’existence d’une proposition relationnelle entre 1 et 2-3 : Ex. 5 : 1. Replacer le combiné sur le support mural. 2. Insérer la base du combiné d'abord, 3. puis enfoncer fermement la partie supérieure 11
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 La structure résultante sera représentée par le schéma 1 : but 1 2-3 Schéma 1 Les relations sont asymmétriques, reliant un noyau, indépendant, et un satellite, qui est subordonné. Elles sont définies en termes de contraintes sur le noyau et le satellite, et d'effet sur le lecteur. Les auteurs proposent une liste de départ de vingt-trois relations, où sont distinguées relations référentielles et relations propositionnelles, tout en signalant que cette liste ne peut être exhaustive : la nature sémantique et pragmatique des relations est en effet liée au domaine et au type de texte. 2.2. Types de propositions relationnelles et schémas de structure dans le corpus Nous avons réalisé une étude sur un corpus de définitions de concepts de base en psychologie, informatique et techniques de gestion. Ce corpus est composé de définitions rédigées sans contraintes de forme par des étudiants dans le cadre d’un projet de tuteur intelligent [Daniel et al. 92]. Les représentations issues de l’analyse fournissent dans ce projet des éléments pour la modélisation de l’utilisateur, qui a son tour détermine la stratégie d'intervention du système tuteur. L’analyse esquissée ci- dessous diffère quelque peu de celle présentée au terme du projet initial [Péry-Woodley 90, 93]. Le texte retenu pour l’analyse est le “dialogue” question-réponse (Q-R) dans son intégralité. La numérotation des éléments de la réponse correspond aux “propositions”6 reliées par les relations. Ex. 6 : (Q) Qu’est-ce que le conditionnement? (R) C’est l’acquisition d’un comportement nouveau en réponse à un stimulus neutre (ne provoquant pas de réponse initialement). Il s’obtient à l’aide d’expériences répétées et par des renforcements du stimulus neutre (appelé stimulus conditionnel). Ex. 7 : (Q) Qu’est-ce que la récupération spontanée? (R) Phénomène correspondant à la levée naturelle de l’inhibition inhérente à l’extinction d’un conditionnement. 2.3. Corpus [Nicaud et Prince 91] Le corpus a été recueilli dans trois domaines différents, de façon à tester la dépendance domaniale des observations livrées par son analyse. Il se compose de 338 définitions réparties comme suit : – Psychologie : 72 définitions (6 concepts soumis à 12 sujets) ; – Informatique : 227 définitions (2 concepts soumis à 53 sujets, et 1 concept soumis à 121 sujets) ; 6 Les unités prises en compte par le modèle sont définies de façon assez floue par les auteurs ; ce flou est symptomatique de la difficulté de repérer à la surface des textes des unités minimales de sens ; par ailleurs, l'unité d'analyse peut varier selon la finesse de granularité désirée. 12
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 – Techniques de gestion : 39 définitions (1 concept soumis à 39 sujets). 2.4. Analyse L’analyse procède par recherche de patrons récurrents de formes et de fonctions. Il s’agit à ce stade d’un processus interprétatif, qui suggère ici que trois types de relation sont prédominants dans le corpus, trois formes de la relation d’élaboration du modèle de Mann et Thompson7, signalées par des marqueurs suffisamment clairs et peu diversifiés pour être utilisables dans le cadre d’un traitement automatique. a. Les relations • il y a relation d’identification quand un lien est établi entre un segment de texte et une dénomination correspondant au concept à définir. On va retrouver ici les marqueurs discursifs évoqués en 2.2. Si la définition commence par l’identification, celle-ci fait le lien avec la question. et peut alors prendre trois formes : – la dénomination est reprise, et la relation d’identité avec la reformulation est explicitée (copule), ce qui donne le schéma suivant : déterminant (dét.) + terme + copule + dét. + corps-déf (Ex. 9); – la reformulation est introduite par “c’est” : c’est + dét. + corps-déf (Ex. 6). – ellipse de “c’est” : détØ + corps-déf (Ex. 7). Si au contraire l’identification intervient en fin de définition, elle comporte toujours la reprise de la dénomination sur laquelle porte la question : corps-déf + c'est + dét + terme (Ex. 8) Il s’agit alors de mettre en relation cette dénomination avec le corps de la définition. On verra que cela correspond à un schéma canonique. Ex. 8 (Q) Qu’est-ce que la récupération spontanée? (R1) Après avoir observé une extinction et après une période de repos si on recommence une série de tests, on observe une RC à la présentation de SC : (R2) c’est la récupération spontanée de l’apprentissage. définition Q R8 identification R1 R2 7 [Hovy 90] constate également la nécessité d'affiner la relation d'élaboration dans certains types de textes et propose une ébauche de typologie. 8 Ce premier stade de l'analyse, commun à tous les exemples, ne sera pas répété. Pour les exemples suivants, seule l'analyse de R sera présentée. 13
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 Schéma 2 (Ex. 8) • il y a relation d’explicitation/illustration entre une proposition (généralement une reformulation définitoire) et des exemples servant à l’illustrer ; Ex. 9 (Q) Qu’est-ce qu’un tri? (R1) Un tri est un rangement ordonné de mots, lettres ou chiffres. (R2) Ils peuvent être rangés dans un ordre prédéfini, par exemple dans un ordre croissant ou décroissant. explicitation/illustration R1 R2 Schéma 3 (Ex. 9) Ex. 10 (Q) Qu’est-ce qu’un tri? (R1) Un tri permet de classer des éléments suivant un certain ordre (croissant ou décroissant). (R2) Il peut se faire sur des éléments numériques, alpha-numériques ou alphabétiques. (R3) On peut trier des éléments suivant plusieurs méthodes : quicksort, dichotomie, insertion, heapsort, sélection, méthode bulle. explicitation/illustration R1 R2 R3 Schéma 4 (Ex. 10) • il y a relation de situation/explication entre une proposition et la description de la fonction ou des attributs du terme à définir. Ex. 11 (Q) Qu’est-ce que l’extinction? (R1) C’est le désapprentissage. (R2) Si l’on ne présente plus que le stimulus neutre il n’y aura plus de réponse. (R3) Pour Pavlov après le conditionnement on ne présente plus que le son le chien ne salivera plus. situation/explication R1 R2-R3 Schéma 5 (Ex. 11) b. Les marqueurs de relations La figure 1 résume les traits linguistiques associés aux relations identifiées comme prédominantes dans le corpus. On constate qu’à côté des marques “classiques” comme “ si…alors ”ou “ par exemple ” on a des marques plus fines, configurations de syntaxe et de ponctuation qui ici semblent fonctionner de façon équivalente. Ainsi, dans 14
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 les définitions du corpus, une liste, – c’est-à-dire une suite de noms séparés par des virgules et sans déterminant, se terminant par “ etc. ” ou des points de suspension –, peut régulièrement être interprétée comme une marque de la relation d’explicitation/illustration. Dans les deux exemples d’explicitation/illustration, on notera la conjonction de “ pouvoir ” et d’un autre marqueur : “ par exemple ” dans l'exemple 9, des listes dans l'exemple 10. identification explicitation / illustration situation / explication • Initiale : (par) exemple si P1 , (alors) P2 dét+terme+est+dét+corps-déf N1,N2, ...., Nn (etc) (...) lorsque P1, alors P2 c’est +dét+corps-déf il existe / nous avons quand P1, alors P2 détØ +corps-déf plusieurs/(de) nombreux P1, alors P2 • Finale : SAdj1 ou SAdj2 ou SAdjn P1, futur(P2) .,;} c’est +dét+terme P1, on observe/constate P2 Figure 1. Marques de relations entre propositions9 Les propositions dont sont constituées les définitions, liées entre elles par les relations décrites ci-dessus, forment des structures qui peuvent faire l'objet d'une comparaison avec des définitions “expertes”. Les “schémas textuels” qui résultent des relations entre segments correspondent plus ou moins aux schémas “canoniques”. Ainsi, les schémas de définition qui fournissent à McKeown [McKeown 85] le fondement textuel de son système de génération automatique de textes comportent tous la relation d’identification, souvent absente des définitions d’étudiants. C’est la présence de cette relation qui distingue l’exemple 12, reconnaissable comme définition, de l’exemple 13, qui ne l’est pas. Tous deux sont des réponses à la question : “ Qu’est- ce que la récupération spontanée ? ”. Ex. 12 Après une extinction et un temps de repos, si on représente le stimulus conditionnel, on observe le comportement initialement induit par le conditionnement : c’est le phénomène de la récupération spontanée. Ex. 13 Après extinction et une période de repos, on présente de nouveau le stimulus conditionnel à l’animal, on constate de nouveau la réaction conditionnelle. 3. Architecture interne de la définition Dans la partie I.3., nous avons signalé l’existence d’un modèle de représentation de l’architecture textuelle ([Pascual 91a, 91b]) dans le contexte duquel nous avons établi la liste des objets textuels pouvant comporter en leur sein une définition, ainsi que l’ensemble des contraintes de combinaison à l’intérieur de chaque objet textuel. 9La figure 1 fait appel aux abréviations suivantes : dét = déterminant; détØ = absence de déterminant; N = nom; SAdj = syntagme adjectival; P = proposition. 15
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 De la même façon, nous avons établi, grâce à ce modèle, que les seuls objets textuels pouvant composer une définition sont : les paragraphes, les listes, les énumérations et les alternances. CONCLUSION L’acquis principal du présent travail réside en le fait que deux approches très différentes des structures textuelles ont pu être mises en relation, sans pour autant se contredire. Selon nous, c’est la focalisation sur un objet textuel particulier qui a permis d’aboutir à ce résultat. En effet, une étude antérieure avait montré la difficulté de représenter les phénomènes pris en compte par le modèle de représentation de l’architecture textuelle dans les termes de la RST ([Pascual 92]). La complémentarité des approches permet maintenant d’aborder d’autres questions (dont certaines sont d’ores et déjà en cours d’étude), qui concernent principalement les relations entre les différents types de structures textuelles. Nous les listons ci-dessous : Structure sémantique / structure rhétorique Dès à présent, nous nous intéressons à deux structures entremêlées au sein des définitions : d’une part la structuration rhétorique entre les propositions (relations de justification, d’illustration, d’identification, …), et d’autre part une structuration sémantique émergeant de l’articulation entre les différentes classes d’informations sémantiques représentées (par exemple, dans le domaine de la géomorphologie : mode de formation, disposition dans l’espace, …). Une étude a été lancée à ce sujet (projet ICE, A. Borillo et M.-P. Péry-Woodley). Architecture / structure rhétorique de la définition Une perspective à court terme de notre travail est la mise en correspondance entre architecture textuelle et structure rhétorique, dans le contexte précis de la définition. Dans l’état actuel de nos travaux, d’une part nous avons une liste quasi- exhaustive des objets textuels pouvant composer une définition ; d’autre part, nous en connaissons des schémas de structures rhétoriques. Nous sommes donc en mesure de confronter ces deux vues des structures textuelles de façon systématique. Nous espérons voir émerger, dans ce cadre contraint, des règles de mise en correspondance. Architecture / structure rhétorique du texte Par ailleurs, nous avons mis au jour des données concernant les relations architecturales entre l’objet définition et les autres objets textuels (Cf. I.3). Dans le même état d’esprit, nous comptons analyser, en termes de relations rhétoriques, les liens entre les définitions et leur contexte. Ces résultats nous permettraient alors de généraliser cet effort de mise en correspondance entre les deux modèles (architecture et structure rhétorique) aux relations entre les définitions et le reste du texte. Définition et structure phrastique 16
Atelier Texte et Communication : Journées “Le texte de type consignes”, Septembre 1995 Il n’y a pas coïncidence systématique entre l’objet textuel définition et la phrase. Non seulement dans le sens où la définition peut comporter plusieurs phrases, ou ne représenter qu’une partie de phrase (structure appositive par exemple), mais surtout parce qu’elle chevauche souvent les frontières de phrase, comme on l’a vu par exemple dans les schémas de type “... corps-déf. C’est terme.”. Formulation de la définition Il semble clair que la formulation-même de la définition (au niveau typographique, dispositionnel, syntaxique, lexical, …) dépend de facteurs tels que le but du discours, le type de document, le domaine de connaissances, la “culture” du lecteur, et les connaissances partagées. Le travail envisagé sur un corpus précis de textes à consignes devrait conduire à l’élaboration de connaissances à ce sujet. Enfin, nous pensons que l’efficacité communicationnelle recherchée (lisibilité, correction, …) influence fortement la formulation de la définition. On envisage, à ce sujet, une collaboration avec des chercheurs en psycho-linguistique. 17
Vous pouvez aussi lire