Serge VERLINDE Thierry SELVA
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Serge VERLINDE Thierry SELVA NOMENCLATURE DE DICTIONNAIRE ET ANALYSE DE CORPUS Since the Dictionnaire des fréquences, published in 1971 by P. IMBS and based mainly on literary texts, no real important frequency count of the French vocabulary has been undertaken. As we are working on a (electronic) learner’s dictionary for French (DAFLES - Dictionnaire d’apprentissage du français langue étrangère ou seconde), we try to use objective criteria for selecting the words described in our dictionary by an analysis of a 50 million words corpus of newspaper texts. A thorough comparison of our frequency list with the word list of another French learner’s dictionary (Dictionnaire du français) and with the list of the Dictionnaire des fréquences reveals unambiguously the strengths and the weaknesses of our own word list. This comparison also shows the necessity of a corpus analysis to give empirical evidence to the lexicographer’s personal intuition. 0. La nomenclature d'un dictionnaire est déterminée en fonction de son public-cible. Un dictionnaire de langue monolingue destiné à des allophones se devra ainsi de ratisser large en décrivant tout le lexique d'une langue, à l’exception des emplois désuets ou très techniques. Le Petit Robert (PR), représentant type de cette catégorie de dictionnaires, en arrive ainsi à une nomenclature de quelque 60 000 mots. Pour un dictionnaire destiné à des apprenants, par contre, une sélection beaucoup plus poussée doit être effectuée. Il convient en effet de ne retenir que le lexique auquel ces apprenants seront confrontés (décodage) et dont ils auront besoin dans les situations de communication standard (encodage). La question qui se pose dès lors est de savoir comment saisir ce lexique. Les critères de sélection appliqués dans les nombreux dictionnaires pour apprenants anglais sont essentiellement basés sur une analyse de corpus, comme par exemple dans le Collins Cobuild. Il est vrai qu'il existe pour l'anglais de solides corpus, échantillons équilibrés de langue parlée et de langue écrite actuelles réunissant différents "genres" de textes, avec entre autres des extraits de textes journalistiques (journaux et magazines), de littérature, de rapports et de lettres. Il s'agit pour l'essentiel des corpus The Bank of English (BOE, 2000) et du British National Corpus (BNC, 2000). La lexicographie française n'a, semble-t-il, pas véritablement suivi les grandes maisons d'édition anglaises dans l'analyse systématique et automatisée de corpus de textes, même si toutes les grandes maisons d'éditions françaises utilisent des bases textuelles lors de la rédaction de leurs dictionnaires, et ceci malgré la voie tracée voici plus de trente ans par le Trésor de la langue française (TLF). C'est ainsi que le seul véritable dictionnaire d'apprentissage actuel pour le français, le Dictionnaire du français (DF) identifie ses quelque 22 000 entrées comme "les mots courants de la conversation et de la presse" (DF, 1999 : VII), en des termes très généraux, sans préciser davantage sur quelle base la sélection de la nomenclature a été effectuée.
Dans le contexte d'un projet de dictionnaire d'apprentissage électronique du français pour non-francophones (Dictionnaire d'apprentissage du français langue étrangère ou seconde - DAFLES) que nous menons au sein de notre groupe de recherche (Grelep - Groupe de recherche en lexicographie pédagogique), nous avons voulu objectiviser la procédure de saisie de la nomenclature. Pour ce faire, nous avons constitué un important corpus de textes (1.) que nous avons analysé sous différents angles (2.). Afin de tester la qualité de notre nomenclature, nous avons procédé à une comparaison de notre nomenclature avec celle du DF (3.) et avec la liste de fréquences tirée du corpus du TLF (1971-1994), qui continue à être avancée par beaucoup comme la liste de référence pour le français (4.). 1. Corpus de textes. Les seuls grands corpus de textes disponibles pour le français sont des corpus de textes journalistiques et des corpus littéraires. Parmi les corpus littéraires, on compte la base de données Frantext, accessible en ligne.1 Des textes littéraires peuvent également être rassemblés par d'autres moyens, comme par exemple sur le site de la Bibliothèque Universelle (ABU, 2000) où l'on trouve le texte intégral et téléchargeable de 267 oeuvres littéraires françaises (situation en juillet 2000), ou sur des sites dédiés à certains auteurs en particulier (Th. SELVA, 2000 par exemple). Il s'agit là toutefois de corpus essentiellement "historiques". Seuls les textes journalistiques peuvent fournir de véritables corpus importants de langue courante actuelle, essentiellement grâce aux cédéroms d'archivage. C'est en utilisant la fonctionnalité d'exportation des textes des articles des cédéroms 1998 des journaux Le Monde (France) et Le Soir (Belgique) que nous avons constitué un corpus de taille moyenne, comptant un peu plus de 54 millions de mots, soit approximativement 100 000 pages de texte A4 ou plus de 350 Mo de texte en version électronique. Les composantes française et belge ont été conservées séparément afin de pouvoir saisir les variantes géographiques. Le corpus a ensuite été lemmatisé à l'aide du logiciel Cordial 6 (version universitaire). Lors de la lemmatisation, chaque forme verbale est rattachée à son infinitif, sauf le participe, qui est reconnu comme lemme indépendant dans un certain nombre de cas, chaque adjectif à sa forme du masculin singulier et chaque substantif à sa forme au singulier. En ce qui concerne le paramétrage de reconnaissance des expressions (combinaisons de mots ou collocations), nous avons opté pour le découpage de ces unités. D’une part, ce choix est justifié par le fait que les critères d’identification ne sont pas transparents. Ainsi, Cordial semble isoler les unités lexicales que Benveniste appelle des synapsies (pomme de terre, chemin de fer - M.-F. MORTUREUX 1997 : 53-54), mais pour des expressions moins figées, l’identification est moins systématique : une expression comme travail à la chaîne est reconnue, mais non une expression comme travail au noir. Le paramétrage choisi a pour conséquence la scission systématique des unités indissociables comme afin de, quant à, etc. ainsi que des mots composés, qui seront récupérés ultérieurement lors de l’analyse.2 L'application du logiciel à n’importe quel fichier texte donne lieu à la génération d’un fichier où figurent trois colonnes : le mot du texte original, sa forme canonique (le lemme) ainsi qu'une identification morphologique de chaque mot sous la forme d'une code numérique. Un traitement informatique des fichiers de sortie Cordial a permis de restaurer le texte sous son apparence d'origine, concaténé, avec, toutefois, des lemmes (ou des lemmes accompagnés du code numérique) au lieu des formes originales. Le corpus lemmatisé compte 1 Pour plus d’informations, on se référera au site INALF (2000), sous la rubrique ‘ressources textuelles’. L’accès à la base est possible moyennant le paiement d’un forfait annuel de 2 000 FRF hors taxes. 2 On avance généralement un taux d’erreur de 5 % lors de la lemmatisation automatique d’un texte.
51 845 143 lemmes avec 25 727 742 lemmes pour le corpus Le Monde et 26 117 401 lemmes pour le corpus Le Soir. L’écart entre les 54 millions de mots du corpus original et les quelque 52 millions de lemmes correspond aux fiches documentaires qui accompagnent chaque article et que nous avons écartées. Le processus de lemmatisation a donc permis d'enrichir les textes originaux de deux types d'informations linguistiques supplémentaires : le lemme et l'identification morphologique de chaque mot. En outre, il a été possible de récupérer, à l'aide de programmes rédigés en C, des informations extra-linguistiques concernant les rubriques des journaux, les dates, etc. Ces informations sont déterminantes pour mieux cerner le vocabulaire typique à un domaine, pour évaluer la dispersion (ir)régulière d'un mot sur une période, etc., analyses qui cadrent davantage dans des études de lexicométrie. Une analyse poussée de ces fichiers de textes lemmatisés est possible grâce à des logiciels d'analyse de textes, dont un certain nombre sont disponibles à des prix démocratiques, voire même gratuitement sur Internet.3 Ces logiciels offrent un certain nombre de fonctionnalités qui facilitent le travail du lexicographe, entre autres la possibilité d'établir des listes de fréquences ou d'effectuer des recherches sur des mots simples, des mots tronqués ou des combinaisons de mots, avec une série de concordances à la sortie. 2. Analyses de corpus : listes de fréquences Selon A. JUILLAND (1970 : XVI), il faut faire remonter les premiers comptages effectués sur des corpus de textes français aux années 20 avec les listes de fréquences de V.A.C. HENMON (1924) et de G.E. VANDER BEKE (1929). Depuis lors, d’autres comptages ont été réalisés, mais il faut bien reconnaître qu'ils sont souvent assez peu performants dans la perspective de l'étude de la langue actuelle. Il y a bien évidemment la liste de fréquences établie lors de l'élaboration du TLF pour un corpus de textes littéraires de 1789 à 1964 d'un peu plus de 70 millions de mots et de plus de 71 000 lemmes ; données qui ont été exploitées exhaustivement par É. BRUNET (1981). Les travaux de A. JUILLAND (1970) et de G. ENGWALL (1984) sont également basés sur des textes littéraires, avec un nombre d'occurrences beaucoup plus restreint, aux alentours de 500 000 mots. Dans le domaine littéraire, il y a en outre les listes de fréquences (des mots du texte et non des lemmes) fournies avec chacune des oeuvres littéraires disponibles sur le site ABU cité précédemment. A notre connaissance, la seule liste de fréquences établie à partir de textes journalistiques disponible à l'heure actuelle, est celle proposée par Jean VÉRONIS sur son site web (VÉRONIS, 2000). Elle a été réalisée pour les textes du Monde diplomatique 1987- 1997 (11 139 376 d’occurrences) et comporte des formes non lemmatisées. Pour la langue parlée, la seule liste accessible au grand public est celle de G. GOUGENHEIM (1967), basée sur quelque 300 000 mots. D'autres projets sont mentionnés çà et là (T. GREIDANUS, 1990 : 13 ; Cl. BLANCHE-BENVENISTE, 1996 : 27). L'ampleur du travail de transcription constitue toutefois un frein important au développement de tels corpus et de leur analyse. Dans le domaine du français sur objectifs spécifiques, il existe également deux listes établies pour le français commercial (A.A. LYNE 1985 et W. CLIJSTERS 1990), sur des corpus plus restreints encore. Dans le Dictionnaire d'apprentissage du français des affaires (DAFA), nous avons utilisé des comptages effectués sur un corpus de 25 millions de mots de textes journalistiques et scientifiques pour assigner à chaque mot de la nomenclature 3 On se reportera au site du Grelep (VERLINDE, 2000) pour l’adresse de sites qui font l’inventaire de ces logiciels.
économique du dictionnaire une indication de fréquence relative en fonction de quatre tranches de fréquence. 2.1. Liste de fréquences du corpus complet Pour établir la liste de fréquences de notre corpus de 51 845 143 millions de lemmes, et par voie de conséquence la nomenclature de notre dictionnaire d'apprentissage, nous avons écarté en premier lieu tous les mots étiquetés comme nom propre (6,53 % du total des lemmes). Nous comptons récupérer ces informations à un stade ultérieur de la rédaction du dictionnaire. Le corpus original sans les noms propres comprend 48 458 014 lemmes, avec 73 975 lemmes différents pour la partie Le Monde et 102 594 lemmes différents pour la partie Le Soir. Après avoir fusionné les deux listes, nous avons isolé les lemmes à fréquence supérieure à 100 et soumis cette liste à un examen minutieux qui nous a amenés à une correction manuelle d'erreurs de lemmatisation. En effet, comme l'illustre le tableau 1, la liste à l'étude présentait des lemmatisations déviantes sous la forme d'une série de formes du féminin ou du pluriel (autres, financière, ancienne, etc.) ainsi que des erreurs de lemmatisation manifestes (jusqu pour jusque, yeu pour oeil, matche, etc.). Les premiers lemmes ont été rattachés à la forme canonique et les quelques erreurs de lemmatisation corrigées à la main. lemme déviant fréquence aujourd 34671 seule 2861 hui 34668 spécialiser 2758 jusqu 30282 internationale 2754 autres 21665 bureaux 2572 parce 15397 sportive 2534 afin 10954 haute 2525 quant 9937 éventuelle 2522 financière 8766 législative 2483 auprès 7638 nationale 2271 tandis 7231 traditionnelle 2260 plupart 6917 différents 2225 yeu 6673 quelqu 2169 première 6473 matche 2128 ancienne 6355 présidentielle 2002 toute 5363 blair 1948 nombreuse 5355 sainte 1936 actuelle 4840 sexuelle 1725 sociale 4727 encontre 1667 professionnelle 4475 exceptionnelle 1643 est-à-dire 4445 tableaux 1630 cents 3513 éliminé 1598 principaux 3484 positive 1590 française 3394 annuelle 1587 locale 3368 individuelle 1580 dernière 3034 définitive 1546 beaux 3007 ores 1504 Tableau 1. Lemmatisations déviantes (échantillon - fréquence supérieure à 1 500).
En outre, quelques noms propres qui n’ont pas été reconnus comme tels par Cordial, comme par exemple Blair, Festina, Jacquet ou Gaulle ont également été écartés de la liste. Dans les cas où un participe passé coexistait avec un infinitif, nous n'avons retenu le participe employé comme adjectif que là où l'emploi adjectival était évident. Dans de nombreux cas toutefois, la décision reste purement subjective. Ce fait ne surprend pas si l'on compare par exemple les nomenclatures du PR et du DF qui sont en désaccord fréquent quant au statut que doit recevoir la forme du participe passé. Parmi de nombreux autres exemples on citera domicilier (PR, uniquement à l’infinitif) et domicilié (DF, uniquement comme adjectif). Dans le tableau, on voit également apparaître les unités lexicales composées d’au moins deux éléments tels que parce que, afin de, quant à, auprès de, à l’encontre de, etc., qui n’ont pas été reconnues comme telles suite au paramétrage de lemmatisation choisi. Nous avons reconstitué ces unités lexicales pour les intégrer également à notre liste de lemmes. Le nombre d'occurrences des particules que, de et à dans ces unités lexicales a été déduit de leur total. Le mot aujourd'hui qui, lors de la lemmatisation, avait été scindé, a été reconstitué. Suite au paramétrage, la lemmatisation de Cordial scinde pratiquement systématiquement les mots composés avec trait d'union. Pour les récupérer, nous avons utilisé le corpus non lemmatisé pour en extraire tous les mots composés avec trait d'union. Ceux qui présentaient une fréquence supérieure à 100 ont été ajoutés sous forme lemmatisée à notre liste de fréquences. En guise d'illustration, nous avons consigné dans le tableau 2 les mots composés (non lemmatisés) les plus fréquents (fréquence supérieure à 2 000) que nous avons extraits du corpus non lemmatisé. noms composés fréquence non lemmatisés totale mots-clés 38688 jean-marie 3848 comptes-rendus 24366 *porte-parole 3613 etats-unis 17175 est-il 3516 *peut-être 10617 grande- 3448 bretagne a-t-il 7382 jean-luc 3084 *lui-même 6701 *ceux-ci 2961 *week-end 6334 jean-louis 2881 jean-pierre 6046 dit-il 2851 *celui-ci 5631 p-b 2770 *au-delà 4976 *elle-même 2654 e-u 4841 *eux-mêmes 2538 *celle-ci 4780 jean-paul 2537 est-ce 4629 faut-il 2356 pays-bas 4551 *vice-président 2277 *après-midi 4387 *demi-finales 2206 *rendez-vous 4360 *au-dessus 2203 jean-claude 4358 *vis-à-vis 2030 Tableau 2. Mots composés (non lemmatisés) les plus fréquents (échantillon - fréquence supérieure à 2 000). Les mots précédés de l'astérisque ont été intégrés, après lemmatisation manuelle, dans la liste de lemmes à fréquence supérieure à 100 ; les autres étant des formes verbales, des
abréviations ou des noms propres.4 L’intégration de ces mots composés a donné lieu à une réduction proportionnelle de la fréquence de chacune des composantes dans la liste de fréquences des lemmes. Ni les homonymes grammaticaux (bien (nom) et bien (adverbe)), ni les homonymes sémantiques (voler (dérober) et voler (se mouvoir dans les airs)) n’ont pu être différenciés. Dans le DAFLES, des indications de fréquence sont établies pour chaque homonyme séparément. Pour le premier type d’homonymes, nous procédons à un comptage des codes numériques différents assignés par Cordial à chaque homonyme ; pour le second, nous effectuons un comptage manuel sur un échantillon du texte. Suite aux corrections de lemmatisation présentées ci-dessus et à l’exclusion des sigles, des abréviations et des chiffres romains, la liste originale de 13 247 lemmes supérieurs à la fréquence 100 a été ramenée à une liste de 12 156 lemmes. Au premier abord, l'importance de cette liste et donc de la future nomenclature du DAFLES contraste avec les quelque 22 000 entrées du DF. Elle est toutefois largement suffisante si l'on tient compte du fait que ces 12 156 lemmes couvrent 93,14 % de tous les mots de notre corpus d'origine, déduction faite des noms propres. Le tableau suivant illustre l'évolution de la couverture des textes d'origine en fonction du nombre de lemmes (colonne rang) et de la fréquence des lemmes (colonne occurrences). L'appartenance d'un mot à l'une des classes distinguées sera reflétée dans le dictionnaire par l'assignation d'une combinaison d'astérisques (dans la colonne ‘indication fréquence’) : de cinq (pour les mots les plus fréquents) à un (pour les mots entre les rangs 3 921 et 12 156).5 classe indice de rang occurrences % (arrondi) du fréquence - texte (sans DAFLES noms propres) couvert 1 ***** = 11 183 66 2 **** = 5 273 75 3 *** = 2 482 82 4 ** = 854 88 5 * = 100 93 6 < 100 100 Tableau 3. Répartition des lemmes par tranche de fréquence. On notera que l'ajout d'une tranche de 10 000 lemmes supplémentaires, faisant passer la nomenclature de quelque 12 000 à quelque 22 000 lemmes, ne fait augmenter la couverture des textes que de 1 % approximativement, soit une proportion dérisoire par rapport à l'importance du stock de mots à prendre en considération. Les annexes 1, 2 et 3 présentent trois extraits de la liste de fréquences pour l'ensemble du corpus. 4 On notera que les deux premiers mots de la liste sont surreprésentés puisqu'ils apparaissent systématiquement dans les fiches documentaires qui accompagnent les textes d'origine. Comme nous l’avons signalé, ces fiches documentaires ont été écartées de la version lemmatisée du corpus. 5 A titre de comparaison, les deux premières tranches de fréquence du dictionnaire d'apprentissage anglais Collins Cobuild rendent compte de 75 % des textes du corpus utilisé, mais avec 1 900 mots, soit le double du français.
Lorsque l'on parcourt la liste complète, on est frappé par le nombre assez important de termes spécifiques à la langue parlée qu'elle recèle (maman (rang 3502, fréquence 1025), papa (rang 4091, fréquence 795), job (rang 5658, fréquence 450), sympa (rang 7152, fréquence 293), bosser (rang 8875, fréquence 192), bouffer (rang 10653, fréquence 132), gaffe (11170, fréquence 119), etc.) tout comme un nombre assez important de formes tronquées de mots, dont la présence aussi massive dans un corpus écrit peut surprendre (pro (rang 2470, fréquence 174), prof (rang 3580, fréquence 986), ado (rang 6024, fréquence 403), sympa (rang 7152, fréquence 293), manif (rang 7488, fréquence 267), maths (rang 8194, fréquence 226), accro (rang 9476, fréquence 167), métallo (rang 11283, fréquence 117), etc.). On y retrouve également des séries de co-hyponymes complètes, tels les jours de la semaine et les mois de l'année, ainsi que la plupart des termes qui indiquent le degré de parenté (père (rang 592, fréquence 8882), mère (rang 922, fréquence 5776), parent (rang 795, fréquence 6795), fils (rang 993, fréquence 5270), fille (rang 674, fréquence 7802), enfant (rang 148, fréquence 24607), grand-père (rang 4886, fréquence 588), grand-mère (rang 5249, fréquence 517), grands-parents (rang 7595, fréquence 260), oncle (rang 4455, fréquence 691), tante (rang 6780, fréquence 327), neveu (rang 7357, fréquence 276), nièce (rang 11091, fréquence 121), mais non les combinaisons avec arrière (-grand-parents, -grand-père et - grand-mère). En ce qui concerne les adjectifs dérivés de noms géographiques, il va de soi que l'actualité détermine en partie l'absence ou la présence de certains adjectifs (bosniaque (rang 6481, fréquence 353), zimbabwéen (rang 9757, fréquence 158), kosovar (rang 11629, fréquence 110) entre autres). De même, on note l’influence du pays d'origine du quotidien, compte tenu de la fréquence élevée des mots brabançon (rang 4003, fréquence 825), brainois (rang 10143, fréquence 145), borain (rang 6796, fréquence 325), etc. dans le journal Le Soir, où la rubrique des informations locales occupe une place importante. Au rédacteur du dictionnaire de décider bien évidemment de la pertinence de ces termes. 2.2. Listes de fréquences des corpus partiels Le Monde/Le Soir Le fait de disposer de deux corpus provenant de deux communautés linguistiques différentes offre la possibilité de cerner de façon relativement précise les termes spécifiques à chacune de ces communautés. Il nous semble que les variantes géographiques les plus fréquentes ont leur place dans un dictionnaire d'apprentissage, ne serait-ce que comme révélateurs d'une réalité culturelle sous-jacente. Pour établir les listes des termes spécifiques aux deux communautés (France : Le Monde - Belgique : Le Soir) nous avons procédé à une double analyse. En premier lieu, nous avons extrait des deux corpus les lemmes qui apparaissaient moins de 20 fois dans l'autre corpus. Dans le tableau 4 est consigné le résultat de cette comparaison pour les lemmes les plus fréquents du corpus Le Monde. lemme fréquence corpus Le Monde ballottage 1565 *snes 280 *insee 781 *ena 261 *cnpf 743 préfectoral 253 *mdc 647 baccalauréat 240 *smic 497 *gdf 239 *rmi 464 *secam 238 cantonal 446 *loto 238
*cgc 422 *unef 219 *cftc 412 *bts 213 *anpe 376 * cdd 208 *ratp 358 intéressement 206 *unedic 320 *afb 200 minitel 313 *iut 200 *rmc 285 Tableau 4. Échantillon de lemmes : fréquence >= 200 corpus Le Monde/= 500 corpus Le Soir/
Une deuxième analyse porte sur la fréquence relative des termes à fréquence supérieure à 20 dans les deux corpus. La faible fréquence absolue dans un corpus n'est en effet pas le seul critère pour identifier un lemme comme caractéristique d'une communauté linguistique ; la probabilité d'emploi en constitue sans conteste un autre. Comme les journaux relatent les informations des pays voisins, beaucoup de termes propres aux pays limitrophes se glissent dans les textes, mais certainement pas dans les mêmes proportions. C'est sur cette constatation qu'est basée notre deuxième analyse. Dans un premier temps, nous avons ramené toutes les fréquences absolues des lemmes à leur probabilité d'apparition dans leur corpus respectif selon la formule suivante : p = nombre d'occurrences total du lemme/nombre total d'occurrences dans le corpus partiel Un mot comme français présente ainsi une probabilité d'apparition de p=0,0011 (28 969 occurrences/25 727 742 lemmes) dans le corpus Le Monde et de p=0,0006 dans le corpus Le Soir. Inversement, belge a une proportion d'apparition de p=0,0009 dans le corpus Le Soir contre p=0,00007 dans le corpus Le Monde. Ce calcul, appliqué à la totalité des lemmes à fréquence supérieure à 20, révèle une proportion d'emploi nettement plus élevée des lemmes suivants dans le corpus Le Monde (tableau 6). La liste ne reprend que les disparités les plus flagrantes, illustrées par l'importance du chiffre qui accompagne le lemme. Les sigles et les abréviations sont à nouveau précédés de l'astérisque. lemme fréquence relative x fois plus importante dans le corpus Le Monde par rapport au corpus Le Soir *cfdt 66,5 *cgt 61,9 *rpr 51,6 *udf 37,5 départemental 32,6 *sncf 29 *edf 25,5 *cnrs 24,5 *cac 20,8 préfet 19,2 *pcf 18,6 *bnp 16,6 lycéen 14 *fo 12,9 lyonnais 12,4 interministériel 11,4 Tableau 6. Mots typiques du corpus Le Monde (échantillon). Dans la suite de la liste, on relève d'autres mots plus spécifiques au français de France, tels que cantonal, préfecture, maire, lycée, préretraite, etc. Les mots nettement plus utilisés dans le corpus Le Soir que dans le corpus Le Monde sont les suivants (tableau 7).
lemme fréquence relative x fois plus importante dans le corpus Le Soir par rapport au corpus Le Monde wallon 126,6 bruxellois 47,1 communal 44,7 *sp 43,6 anversois 40,5 tram 35,4 subside 34,3 duché 23,2 infographie 22,5 flamand 22,4 *mcc 21,6 dixit 19,3 volley 17,7 coach 17 voirie 15,4 ardennais 15 urbanistique 14 *pj 13,4 germanophone 12,9 Tableau 7. Mots typiques du corpus Le Soir (échantillon). Plus loin dans la liste apparaissent des termes comme provincial, intercommunal, braderie ou régionaliser qui sont également davantage propres au français de Belgique. Ces quelques exemples montrent comment, en disposant de deux corpus provenant de deux communautés linguistiques différentes, il est possible, par simple comparaison, d'extraire d'intéressantes informations quant aux termes et aux sigles propres à chacune de ces communautés. Ici aussi, le rédacteur du dictionnaire devra décider si ces informations sont pertinentes par rapport à son public-cible. Un autre aspect de la vie de la langue qui peut être saisi à partir de cette comparaison de corpus est l'assimilation de mots anglais. De ce point de vue, la France a toujours adopté une politique de défense de la langue en proposant avec un succès inégal de nombreuses alternatives aux termes anglais, principalement dans des domaines comme l'économie ou l'informatique, voire pour le vocabulaire de la vie quotidienne. Sans avoir ici des données complètes à fournir, il semble toutefois que les termes anglais sont bien représentés, tant dans le corpus Le Monde que dans le corpus Le Soir. Dans ce dernier, les mots anglais sont légèrement plus fréquents, bien que, à quelques rares exceptions près, que nous avons fait précéder d’un astérisque, la différence de fréquence ne soit pas vraiment pertinente. Le tableau 8 présente un échantillon de mots anglais relevés dans les deux corpus. mot anglais fréquence fréquence corpus Le Monde corpus Le Soir business 446 471 *coach 83 1424 cool 108 169 design 305 312 efficience 27 23
efficient 14 23 fast-food 42 88 goal 69 108 *goodwill 2 48 *hardware 4 15 holding 573 505 internet 4178 2272 joint(-)venture 84 95 leasing 29 69 lobbying 137 114 marketing 847 767 software 7 17 *team 76 590 trader 48 35 Web/web7 1057 514 Tableau 8. Échantillon de mots anglais relevés dans les corpus. Une étude plus approfondie du phénomène serait nécessaire. Dans un certain nombre de cas, le terme français équivalent semble s'être imposé, comme par exemple dans le cas de logiciel (respectivement 1 392 et 721 occurrences dans les deux corpus, contre 7 et 17 pour software), alors que pour d'autres mots, le terme anglais semble bien ancré, comme pour Web ou internet face à toile, qui apparaît moins de 200 fois dans le corpus Le Monde, voire moins de 20 fois dans le corpus Le Soir, ou encore marketing face à mercatique, qui doit se contenter de 2 attestations dans l’ensemble du corpus. 3. Comparaison liste de fréquences - nomenclature du DF 3.1. Congruence des listes Comme nous l'avons fait remarquer ci-dessus, le DF met en évidence le fait que sa nomenclature couvre la langue journalistique et la langue parlée quotidienne. L'on s'attendrait dès lors à retrouver l'essentiel des mots de notre nomenclature dans celle de ce dictionnaire d'apprentissage. Tel n'est pas vraiment le cas puisque 12,1 % des mots de notre liste de fréquences n'y apparaissent pas. La progression du décalage entre les deux listes est inversement proportionnelle à la fréquence des mots (tableau 9). tranche de notre nombre de pourcentage nombre pourcentage liste de mots sur cette cumulé cumulé fréquences absents du tranche DF 0-500 0 0 0 0 501-1000 2 0,4 2 0,2 1001-1500 3 0,6 5 0,3 1501-2000 1 0,2 6 0,3 2001-2500 10 2 16 0,6 2501-3000 16 3,2 32 1,1 3001-3500 18 3,6 50 1,4 7 La graphie avec majuscule, étiquetée comme nom propre lors de la lemmatisation, est la plus courante dans le corpus.
3501-4000 28 5,6 78 2 4001-4500 40 8 118 2,6 4501-5000 45 9 163 3,3 5001-5500 48 9,6 211 3,8 5501-6000 61 12,2 272 4,5 6001-6500 58 11,6 330 5,1 6501-7000 67 13,4 397 5,7 7001-7500 39 7,8 436 5,8 7501-8000 87 17,4 523 6,5 8001-8500 80 16 603 7,1 8501-9000 102 20,4 705 7,8 9001-9500 120 24 825 8,7 9501-10000 115 23 940 9,4 10001-10500 110 22 1050 10 10501-11000 129 25,8 1179 10,7 11001-11500 154 30,8 1333 11,6 11501-12000 124 24,8 1457 12,1 Tableau 9. Évaluation du décalage entre la liste de fréquences et la nomenclature du DF. Comme l'illustre le tableau 9, les mots jusqu'au rang 2 000 sont quasiment tous présents dans la nomenclature du DF. L'écart se creuse toutefois rapidement à partir du rang 3 500 pour atteindre plus de 20 % dans les tranches à fréquence supérieure à 8 500 de notre liste. Le tableau 10 récapitule par ordre de fréquence décroissante les mots, les sigles et les abréviations (précédés d’un astérisque) les plus fréquents qui sont absents de la nomenclature du DF. lemme fréquence corpus complet *ex. 7885 brugeois 1392 *tél. 6850 bénéficiaire 1381 *pt. 5152 lyonnais 1374 investisseur 3922 intercommunal 1373 budgétaire 3731 modalité 1345 entité 2494 *tv 1338 concertation 2204 instar (à l’~ de) 1293 restructuration 2198 mini 1272 infrastructure 2166 *mo 1271 forum 2080 sélectionneur 1267 info8 1870 qualifié 1262 privatisation 1831 régularisation 1189 *pib 1798 correctionnel 1177 amendement 1793 gantois 1147 *mm. 1728 expertise 1126 *ndlr 1726 management 1116 rwandais 1687 jusque-là 1102 *pp. 1640 blues 1091 namurois 1569 concéder 1081 technologique 1549 holding 1078 8 Le mot est mentionné dans l’article consacré à information, mais il ne fait pas l’objet d’une entrée séparée.
*sicav 1516 internaute 1064 coach 1507 open 1060 infographie 1455 supporteur 1052 spécialisé 1414 centrer 1003 social- *éd. 1003 démocrate 1404 maïeur/mayeur 1000 yougoslave 1399 Tableau 10. Principaux absents de la nomenclature du DF en termes de fréquence (fréquence >= 1000). Les mots en italique du tableau sont représentés dans le DF par au moins un autre membre de leur famille lexicale. Du point de vue de la compréhension, l'utilisateur trouvera donc par inférence dans le dictionnaire au moins quelques indications sur le sens du mot absent. Du point de vue de la production, compte tenu des irrégularités et/ou de la complexité du système dérivationnel du français, aucune information complémentaire ne peut pallier l'absence du mot. Il est possible en outre de cibler davantage les lacunes dans certains domaines. De ce point de vue, le vocabulaire économique semble sous-représenté dans le DF (tableau 11). lemme fréquence corpus complet investisseur 3922 budgétaire 3731 restructuration 2198 privatisation 1831 pib 1798 technologique 1549 sicav 1516 bénéficiaire 1381 management 1116 holding 1078 libéralisation 932 consultant 927 coter 920 business 917 compétitivité 873 reconversion 813 logistique 758 réorganisation 753 obligataire 752 Tableau 11. Principaux termes économiques absents de la nomenclature du DF. Compte tenu de l’ensemble de nos observations, on conviendra du fait qu’il faut nuancer l'affirmation selon laquelle la nomenclature du DF rend compte des mots de la presse. Cette constatation est confirmée par l'analyse des entrées du DF qui n'apparaissent pas dans notre liste de fréquences. En effet, après avoir écarté de la liste des entrées du DF les formes verbales et nominales irrégulières et les noms propres, il reste un ensemble de mots
dont peu paraissent essentiels dans un contexte de communication écrite ou orale standard. Le tableau 12 en présente un échantillon tiré du début de la lettre A. a fortiori abêtissant abreuvoir accessoiriste à gogo abjurer abricotier accotement à jeun ablution abrutir accouder (s') a.z.t. aboiement abrutissant accoudoir abasourdi abois (aux) abscisse accoutrement abat-jour abominablement absenter (s') accoutrer abats abortif abyssin accroupir (s') abattant aboutissants acadien accumulateur abattis abracadabrant acariâtre accus abêtir abrasif accablement achalandé Tableau 12. Mots de la nomenclature du DF à fréquence inférieure à 100 dans le corpus. Ce fait légitime un peu plus le choix de textes journalistiques, pour lequel nous n'avions jusqu'à présent que deux arguments pragmatiques, leur disponibilité et le fait qu'ils soient utilisés fréquemment dans l'enseignement, comme point de départ de l'élaboration d'une nomenclature de dictionnaire d'apprentissage. Pour l'oral, toutefois, la question reste partiellement ouverte, faute de véritable point de comparaison. Compte tenu des listes des mots divergents, la nomenclature du DF semble plutôt orientée vers le littéraire, ce qui nous semble coller moins au contexte d'apprentissage actuel des langues étrangères. Mais, comme nous le constaterons dans ce qui suit, l’établissement d’une nomenclature basée sur des indications de fréquence est également sujette à caution. Ainsi, pour le DAFLES, afin de présenter une nomenclature cohérente, il conviendra de repêcher certains mots nécessaires pour compléter des familles de mots : s'absenter devra ainsi figurer aux côtés de absent, malgré sa fréquence inférieure à 100. Par contre, des mots comme abasourdi, abats, abattis, etc. pourront définitivement être écartés sur une base objective. 3.2. Congruence des indications de fréquence et d'importance Le DF offre pour chaque mot de la nomenclature une indication de son 'importance' : "Est important un mot dont on ne peut se passer dans le vie quotidienne, ou pour comprendre, ou pour s'exprimer" (DF, 1999 : IX). Le critère de l'importance est considéré comme supérieur à celui de la fréquence puisque Une grande partie des mots fréquents sont importants (dormir, interdit, argent, vite), mais d'autres moins fréquents sont extrêmement utiles parce qu'ils désignent des choses précises sans avoir de synonymes (coincer, comparable, obligatoirement). (DF, 1999 : IX) L'importance du mot est signalée par une flèche bleue en marge. Comme nous disposons d'indications de fréquence précises pour notre nomenclature, il nous a paru intéressant de les comparer aux indications d'importance données dans le DF. Nous avons effectué cette comparaison pour la lettre A, avec, d'une part, 1 046 lemmes de notre nomenclature et, d'autre part, 1 571 lemmes comparables pour le DF, c'est-à-dire les
entrées du dictionnaire sans formes irrégulières de verbes, d'adjectifs ou de noms, sans noms propres et sans distinction d'homonymes.9 Le tableau 13 donne un aperçu général de cette comparaison. Dans les cellules figure le nombre de mots qui correspond aux critères respectifs. classe indice de mots mots moins mots absents du fréquence - importants importants - DF DAFLES - DF DF 1 ***** 34 4 0 2 **** 41 6 0 3 *** 76 16 0 4 ** 116 49 4 5 * 247 336 117 6 - 135 511 Tableau 13. Comparaison fréquence corpus - critère d'importance du DF. Les chiffres mettent en évidence un important groupe de mots à fréquence limitée dans le corpus mais considérés comme importants par les auteurs du dictionnaire (en italique dans le tableau 13). Les tableaux 14 et 15 présentent un échantillon de ces mots, respectivement pour la classe 5 (fréquence comprise entre 853 et 100) et la classe 6 (fréquence inférieure à 100). abaisser abandonné abattu abbé abdiquer abdominal abeille aberrant abîmer abominable abondant abordable abstraction abstrait absurde abusif académique accablant accabler accaparer accélérateur accessoire accidentel accidentellement accidenté acclamer accordéon accouchement accourir accro accueillant accumulation Tableau 14. Mots importants (DF) à faible fréquence (classe 5 corpus). abcès abîmé ablation aboiement aboyer abrégé abréviation abruti absenter (s’) acajou acclamation accoupler accoutumé accroupi acrylique acuponcture adhésif adipeux adoucissement adroit adroitement aérer affairé affectueusement affectueux affliger affolant affolé affolement affranchissement affreusement affublé Tableau 15. Mots importants (DF) à très faible fréquence (classe 6 corpus). Une interprétation de ce genre de données reste bien évidemment subjective, mais il semble quand même qu'au-delà du critère de l'importance, la fréquence reste un critère 9 Dans les cas où deux homonymes présentaient deux indications d'importance différente, nous avons systématiquement assignée la plus importante au lemme. Parfois, l'importance est attribuée uniquement à l'un des sens du mot. Dans ces cas, nous l'avons systématiquement reporté au lemme.
indispensable. En effet, lorsque l'on compare ces deux échantillons, on relève sans conteste dans le deuxième certains mots qui ne sont pas prioritaires dans le cadre d'un apprentissage de la langue : ablation, acajou, acrylique, adipeux, affranchissement, affublé entre autres. Leur absence de la nomenclature d'un dictionnaire d'apprentissage semble dès lors s'imposer. Inversement, on peut s'étonner de voir 26 mots particulièrement fréquents dans notre corpus ne pas être considérés comme importants par le DF (en gras dans le tableau 13) : Classe 1 à10, année, américain, allemand Classe 2 afin de/que, ami, assez, actuellement, anglais, accès Classe 3 aménagement, asiatique, autoriser, actionnaire, administratif, associer, application, africain, arrêté, approuver, assistance, attribuer, affecter, arabe, albanais, auparavant Tous ces mots, sauf peut-être albanais, sont sans aucun doute des mots courants et mériteraient de figurer parmi les mots importants de la langue. Le critère d'importance d'un mot est sans conteste un critère opérationnel. Il permet de récupérer certains mots courants qui font défaut dans le corpus (aboyer, adroit, agrafer, allô, amphi, ampli, aspirateur, au revoir). Toutefois, un avis subjectif concernant l'importance des mots doit en tout cas être accompagné d'un contrôle de leur fréquence. 4. Comparaison listes de fréquence corpus journalistique - corpus TLF Dans P. IMBS (1971) sont consignées les données de fréquence relatives au TLF sous la forme d’une liste de lemmes, classés par fréquence décroissante. Nous avons prélevé de cette liste un échantillon de taille analogue à celle de notre liste de fréquences : 12 174 lemmes, soit les lemmes à fréquence supérieure à 155.11 Les divergences entre les deux listes sont assez marquées puisque nous comptons 16 475 lemmes différents après fusion. Ce chiffre élevé s’explique en partie par la lemmatisation particulière adoptée par le TLF, qui distingue trois formes du verbe (infinitif, participe passé, soit plusieurs centaines de cas, et participe présent). En outre, la lemmatisation n’est pas complète pour de nombreux mots grammaticaux (la, l’, les, une, sa, etc.) et on relève un certain nombre de lemmes déviants (longue, semaines, chère, etc.). Une comparaison des deux listes met en relief de façon très évidente les spécificités des deux corpus. Absents de l’échantillon du TLF sont toute une série de mots actuels dont le rang traduit une fréquence d’usage importante, à l’exception de mots tels que wallon ou bruxellois, qui sont surreprésentés dans le corpus belge (tableau 16). On notera que nous n’avons pas tenu compte des abréviations présentes dans notre liste de fréquences. lemme rang corpus journalistique 10 La présence du mot à dans cette liste peut surprendre. Assez étrangement, ce n'est pas le seul mot particulièrement fréquent qui n'est pas taxé d'important par le DF. Ainsi, parmi les 30 mots les plus fréquents de notre corpus (voir Annexe 1), 6 mots ne sont pas accompagnés de la flèche bleue identifiant les mots importants: le, un, à, il, tout et leur. 11 On notera que la liste originale comprend 12 427 lemmes dont la fréquence est supérieure à 155. Pour faciliter la comparaison informatisée des deux listes, nous avons toutefois dû exclure les doublons (aimant (nom, participe), alerte (adjectif, nom), aperçu (nom, participe), etc.).
régional 314 salarié 804 match 329 internet 823 wallon 360 fédéral 859 soit 383 francophone 951 euro 436 fiscal 998 championnat 554 chômeur 1015 football 557 nouvelle 1018 culturel 570 bourgmestre 1024 sûr 573 record 1052 télévision 629 gérer 1065 festival 641 investir 1109 bruxellois 699 compétition 1113 finale 719 diffuser 1142 week-end 783 néerlandais 1158 entraîneur 802 palestinien 1171 Tableau 16. Mots absents de la liste de fréquences du TLF (fréquence >= 155) (échantillon). En analysant les mots absents de notre liste, on se rend compte que le corpus journalistique couvre mieux les mots très fréquents du corpus TLF qu’inversement, comme en témoigne le rang des mots consignés dans le tableau 17. Les lacunes à fréquence élevée dans le corpus TLF ont trait à quelques mots spécifiques de la conversation et à une série de mots dont bon nombre désignent des concepts qui sont datés (tableau 17). lemme rang corpus TLF ha 203 divinité 2705 eu 207 continuel 2728 hé 303 environs 2733 ho 306 fâché 2761 hélas 936 gémir 2762 pardessus 1530 évangile 2805 sou 1627 tressaillir 2842 paupière 1904 gentilhomme 3044 sire 2381 rameau 3078 aurore 2395 orient 3130 vôtre 2518 piété 3184 monseigneur 2529 accoutumé 3211 providence 2618 hideux 3280 immortel 2644 écu 3282 sottise 2689 matelot 3285 Tableau 17. Mots absents de la liste de fréquences du corpus journalistique (échantillon). De façon générale, la comparaison avec la liste du TLF met en évidence des lacunes assez prononcées du corpus journalistique dans le domaine du vocabulaire touchant les domaines propres aux personnes (sentiments, attitudes, etc.) (tableau 18). lemme rang corpus TLF fâché 2761 ravissant 3916
gémir 2762 blâmer 3963 tressaillir 2842 étreinte 3989 accoutumé 3211 blême 4005 balbutier 3380 inexplicable 4007 infâme 3397 paresseux 4033 rancune 3426 promptement 4038 frissonner 3450 canaille 4040 affectueux 3592 langueur 4103 lugubre 3699 pâleur 4107 pressentiment 3741 frémissant 4114 pensif 3766 puéril 4142 tendrement 3779 adoration 4159 gaiement 3789 gâté 4172 orgueilleux 3876 ennuyé 4175 Tableau 18. Mots absents de la liste de fréquences du corpus journalistique (vocabulaire touchant aux personnes) (échantillon). Ces données nous permettent d’apporter un autre correctif nécessaire à notre nomenclature originale sous la forme de l’inclusion dans le DAFLES de mots tels que fâché, rancune, lugubre, tendrement, gaiement, etc. 5. Conclusion L'élaboration d'une nomenclature est l'une des premières étapes dans le processus de rédaction d'un dictionnaire. Cet aspect est d'autant plus crucial pour un dictionnaire d'apprentissage qu'il détermine de façon évidente la qualité du dictionnaire : les apprenants doivent y retrouver les mots auxquels ils vont être confrontés et qu'ils doivent utiliser. Nous avons choisi de fonder notre nomenclature sur une analyse de corpus de textes. Pour l'écrit, les textes journalistiques offrent toutes les garanties de diversité et de disponibilité nécessaires. Ils traitent en outre de thèmes actuels en termes courants, non spécialisés. Nous avons comparé une liste de fréquences élaborée à partir de ce corpus et qui servira de nomenclature au DAFLES à la liste de fréquences du TLF ainsi qu'à la nomenclature du seul dictionnaire d'apprentissage actuel du français, le DF. Les comparaisons ont montré des divergences assez marquées. Le corpus journalistique présente une langue actuelle qui couvre assez bien le vocabulaire le plus général tel qu’il est répertorié dans les deux autres sources. Il présente certaines lacunes dans le domaine du vocabulaire spécifique aux actions et aux sentiments des personnes. Certains mots passe-partout de la langue parlée sont également absents. Inversement, le fait de coller à l’actualité donne un aperçu très complet des mots et concepts utilisés fréquemment dans la communication quotidienne. L’indice de fréquence permet en outre de corriger l’intuition du lexicographe quant à l’importance d’un mot. De façon générale, on peut poser que les lexicographes ont tout intérêt à intégrer une analyse de corpus lors du processus de définition de la nomenclature et de rédaction d’un dictionnaire. Comme le note l'éminent lexicographe anglais J. SINCLAIR (traduction reprise à V. GRUNDY 1996 : 131) : (...), il y a une différence énorme et systématique entre les impressions [que] des gens notent sur les détails de la langue et les faits de langue réels que l'on peut observer dans les textes. Cela laisse à supposer que les êtres humains ont une idée
tout à fait particulière de la langue et que cette idée ne correspond pas du tout à ce qui se passe effectivement lorsqu'ils utilisent cette langue. Le corpus est le moyen par excellence de saisir une variété d'informations qui sont le reflet de la compétence linguistique d'un nombre important de locuteurs. Cette masse d'informations permet de se faire une image nuancée du fonctionnement de la langue, même s’il s’avère nécessaire d’y apporter quelques correctifs compte tenu des lacunes du corpus ou de la prise en compte d’autres critères de sélection, comme par exemple la disponibilité des mots ou le fait d’appartenir à une série conceptuelle. Face à la richesse des résultats de l’analyse de corpus, on ne peut que déplorer une fois de plus l’absence d’un grand échantillonnage de textes pour le français. Serge VERLINDE Thierry SELVA Groupe de recherche en lexicographie pédagogique (Grelep) K.U.Leuven, Belgique BIBLIOGRAPHIE BLANCHE-BENVENISTE, Claire (1996) : « De l’utilité du corpus linguistique », Revue française de linguistique appliquée, I-2, 25-42. BRUNET, Étienne (1981) : Le vocabulaire français de 1789 à nos jours d’après les données du Trésor de la langue française, Genève, Paris, Slatkine, Champion, 3 vol. (Travaux de linguistique quantitative, 17). CLIJSTERS, Willy (1990) : Mille lettres d’affaires. Richesse formelle, richesse lexicale, stock lexical, lexitope et lexitraits, combits, Paris, Genève, Champion, Slatkine. (Travaux de linguistique quantitative, 46). ENGWALL, Gunnel (1984) : Vocabulaire du roman français (1962-1968), Dictionnaire des fréquences, Stockholm, Almqvist & Wiksell International. GOUGENHEIM, Georges ; René MICHÉA, Paul RIVENC et Aurélien SAUVAGEOT (1967) : L’élaboration du Français Fondamental (1er degré), Paris, Didier. GREIDANUS, Tine (1990) : Les constructions verbales en français parlé, Étude quantitative et descriptive de la syntaxe des 250 verbes les plus fréquents, Tübingen, Max Niemeyer Verlag. (Linguistische Arbeiten, 243). GRUNDY, Valerie (1996) : « L’utilisation d’un corpus dans la rédaction du dictionnaire bilingue », in BÉJOINT, Henri et Philippe THOIRON, Les dictionnaires bilingues, Louvain-la-Neuve, Duculot, 127-149. HENMON, V.A.C. (1924) : A French word book based on a count of 400,000 running words, Madison, Wisc., University of Wisconsin. IMBS, Paul (1971) : Dictionnaire des fréquences. Vocabulaire littéraire des XIXe et XXe siècles, I – Table alphabétique, II - Table des fréquences décroissantes. Nancy, Paris, C.N.R.S., Didier. JUILLAND, Alphonse ; Dorothy BRODIN et Catherine DAVIDOVITCH (1970) : Frequency Dictionary of French Words, La Haye, Paris, Mouton. LYNE, Anthony A. (1985) : The vocabulary of French business correspondance. Word frequencies, collocations and problems of lexicometric method, Genève, Paris, Slatkine, Champion. (Travaux de linguistique quantitative, 23).
Vous pouvez aussi lire