Serge VERLINDE Thierry SELVA

La page est créée Julien Herve

Divers

Français

Like
Partager
Intégrer
Plein écran
Diapositives
Télécharger HTML
Télécharger PDF
Abus

←

CONTINUER À LIRE

→

Transcription du contenu de la page

Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous

Serge VERLINDE
                                                                              Thierry SELVA

                         NOMENCLATURE DE DICTIONNAIRE
                             ET ANALYSE DE CORPUS

      Since the Dictionnaire des fréquences, published in 1971 by P. IMBS and based mainly
on literary texts, no real important frequency count of the French vocabulary has been
undertaken.
      As we are working on a (electronic) learner’s dictionary for French (DAFLES -
Dictionnaire d’apprentissage du français langue étrangère ou seconde), we try to use
objective criteria for selecting the words described in our dictionary by an analysis of a 50
million words corpus of newspaper texts. A thorough comparison of our frequency list with
the word list of another French learner’s dictionary (Dictionnaire du français) and with the
list of the Dictionnaire des fréquences reveals unambiguously the strengths and the
weaknesses of our own word list. This comparison also shows the necessity of a corpus
analysis to give empirical evidence to the lexicographer’s personal intuition.

0. La nomenclature d'un dictionnaire est déterminée en fonction de son public-cible. Un
dictionnaire de langue monolingue destiné à des allophones se devra ainsi de ratisser large en
décrivant tout le lexique d'une langue, à l’exception des emplois désuets ou très techniques.
Le Petit Robert (PR), représentant type de cette catégorie de dictionnaires, en arrive ainsi à
une nomenclature de quelque 60 000 mots. Pour un dictionnaire destiné à des apprenants, par
contre, une sélection beaucoup plus poussée doit être effectuée. Il convient en effet de ne
retenir que le lexique auquel ces apprenants seront confrontés (décodage) et dont ils auront
besoin dans les situations de communication standard (encodage). La question qui se pose dès
lors est de savoir comment saisir ce lexique.

       Les critères de sélection appliqués dans les nombreux dictionnaires pour apprenants
anglais sont essentiellement basés sur une analyse de corpus, comme par exemple dans le
Collins Cobuild. Il est vrai qu'il existe pour l'anglais de solides corpus, échantillons équilibrés
de langue parlée et de langue écrite actuelles réunissant différents "genres" de textes, avec
entre autres des extraits de textes journalistiques (journaux et magazines), de littérature, de
rapports et de lettres. Il s'agit pour l'essentiel des corpus The Bank of English (BOE, 2000) et
du British National Corpus (BNC, 2000).
       La lexicographie française n'a, semble-t-il, pas véritablement suivi les grandes maisons
d'édition anglaises dans l'analyse systématique et automatisée de corpus de textes, même si
toutes les grandes maisons d'éditions françaises utilisent des bases textuelles lors de la
rédaction de leurs dictionnaires, et ceci malgré la voie tracée voici plus de trente ans par le
Trésor de la langue française (TLF). C'est ainsi que le seul véritable dictionnaire
d'apprentissage actuel pour le français, le Dictionnaire du français (DF) identifie ses quelque
22 000 entrées comme "les mots courants de la conversation et de la presse" (DF, 1999 : VII),
en des termes très généraux, sans préciser davantage sur quelle base la sélection de la
nomenclature a été effectuée.

Dans le contexte d'un projet de dictionnaire d'apprentissage électronique du français
pour non-francophones (Dictionnaire d'apprentissage du français langue étrangère ou
seconde - DAFLES) que nous menons au sein de notre groupe de recherche (Grelep - Groupe
de recherche en lexicographie pédagogique), nous avons voulu objectiviser la procédure de
saisie de la nomenclature. Pour ce faire, nous avons constitué un important corpus de textes
(1.) que nous avons analysé sous différents angles (2.). Afin de tester la qualité de notre
nomenclature, nous avons procédé à une comparaison de notre nomenclature avec celle du
DF (3.) et avec la liste de fréquences tirée du corpus du TLF (1971-1994), qui continue à être
avancée par beaucoup comme la liste de référence pour le français (4.).

1. Corpus de textes.

Les seuls grands corpus de textes disponibles pour le français sont des corpus de textes
journalistiques et des corpus littéraires. Parmi les corpus littéraires, on compte la base de
données Frantext, accessible en ligne.1 Des textes littéraires peuvent également être
rassemblés par d'autres moyens, comme par exemple sur le site de la Bibliothèque
Universelle (ABU, 2000) où l'on trouve le texte intégral et téléchargeable de 267 oeuvres
littéraires françaises (situation en juillet 2000), ou sur des sites dédiés à certains auteurs en
particulier (Th. SELVA, 2000 par exemple). Il s'agit là toutefois de corpus essentiellement
"historiques".
Seuls les textes journalistiques peuvent fournir de véritables corpus importants de
langue courante actuelle, essentiellement grâce aux cédéroms d'archivage. C'est en utilisant la
fonctionnalité d'exportation des textes des articles des cédéroms 1998 des journaux Le Monde
(France) et Le Soir (Belgique) que nous avons constitué un corpus de taille moyenne,
comptant un peu plus de 54 millions de mots, soit approximativement 100 000 pages de texte
A4 ou plus de 350 Mo de texte en version électronique. Les composantes française et belge
ont été conservées séparément afin de pouvoir saisir les variantes géographiques.

Le corpus a ensuite été lemmatisé à l'aide du logiciel Cordial 6 (version universitaire).
Lors de la lemmatisation, chaque forme verbale est rattachée à son infinitif, sauf le participe,
qui est reconnu comme lemme indépendant dans un certain nombre de cas, chaque adjectif à
sa forme du masculin singulier et chaque substantif à sa forme au singulier. En ce qui
concerne le paramétrage de reconnaissance des expressions (combinaisons de mots ou
collocations), nous avons opté pour le découpage de ces unités. D’une part, ce choix est
justifié par le fait que les critères d’identification ne sont pas transparents. Ainsi, Cordial
semble isoler les unités lexicales que Benveniste appelle des synapsies (pomme de terre,
chemin de fer - M.-F. MORTUREUX 1997 : 53-54), mais pour des expressions moins figées,
l’identification est moins systématique : une expression comme travail à la chaîne est
reconnue, mais non une expression comme travail au noir. Le paramétrage choisi a pour
conséquence la scission systématique des unités indissociables comme afin de, quant à, etc.
ainsi que des mots composés, qui seront récupérés ultérieurement lors de l’analyse.2

L'application du logiciel à n’importe quel fichier texte donne lieu à la génération d’un
fichier où figurent trois colonnes : le mot du texte original, sa forme canonique (le lemme)
ainsi qu'une identification morphologique de chaque mot sous la forme d'une code
numérique. Un traitement informatique des fichiers de sortie Cordial a permis de restaurer le
texte sous son apparence d'origine, concaténé, avec, toutefois, des lemmes (ou des lemmes
accompagnés du code numérique) au lieu des formes originales. Le corpus lemmatisé compte
1
Pour plus d’informations, on se référera au site INALF (2000), sous la rubrique ‘ressources textuelles’.
L’accès à la base est possible moyennant le paiement d’un forfait annuel de 2 000 FRF hors taxes.
2
On avance généralement un taux d’erreur de 5 % lors de la lemmatisation automatique d’un texte.

51 845 143 lemmes avec 25 727 742 lemmes pour le corpus Le Monde et 26 117 401 lemmes
pour le corpus Le Soir. L’écart entre les 54 millions de mots du corpus original et les quelque
52 millions de lemmes correspond aux fiches documentaires qui accompagnent chaque article
et que nous avons écartées.

Le processus de lemmatisation a donc permis d'enrichir les textes originaux de deux
types d'informations linguistiques supplémentaires : le lemme et l'identification
morphologique de chaque mot. En outre, il a été possible de récupérer, à l'aide de
programmes rédigés en C, des informations extra-linguistiques concernant les rubriques des
journaux, les dates, etc. Ces informations sont déterminantes pour mieux cerner le
vocabulaire typique à un domaine, pour évaluer la dispersion (ir)régulière d'un mot sur une
période, etc., analyses qui cadrent davantage dans des études de lexicométrie.

Une analyse poussée de ces fichiers de textes lemmatisés est possible grâce à des
logiciels d'analyse de textes, dont un certain nombre sont disponibles à des prix
démocratiques, voire même gratuitement sur Internet.3 Ces logiciels offrent un certain
nombre de fonctionnalités qui facilitent le travail du lexicographe, entre autres la possibilité
d'établir des listes de fréquences ou d'effectuer des recherches sur des mots simples, des mots
tronqués ou des combinaisons de mots, avec une série de concordances à la sortie.

2. Analyses de corpus : listes de fréquences

Selon A. JUILLAND (1970 : XVI), il faut faire remonter les premiers comptages
effectués sur des corpus de textes français aux années 20 avec les listes de fréquences de
V.A.C. HENMON (1924) et de G.E. VANDER BEKE (1929). Depuis lors, d’autres
comptages ont été réalisés, mais il faut bien reconnaître qu'ils sont souvent assez peu
performants dans la perspective de l'étude de la langue actuelle. Il y a bien évidemment la
liste de fréquences établie lors de l'élaboration du TLF pour un corpus de textes littéraires de
1789 à 1964 d'un peu plus de 70 millions de mots et de plus de 71 000 lemmes ; données qui
ont été exploitées exhaustivement par É. BRUNET (1981). Les travaux de A. JUILLAND
(1970) et de G. ENGWALL (1984) sont également basés sur des textes littéraires, avec un
nombre d'occurrences beaucoup plus restreint, aux alentours de 500 000 mots. Dans le
domaine littéraire, il y a en outre les listes de fréquences (des mots du texte et non des
lemmes) fournies avec chacune des oeuvres littéraires disponibles sur le site ABU cité
précédemment.
A notre connaissance, la seule liste de fréquences établie à partir de textes
journalistiques disponible à l'heure actuelle, est celle proposée par Jean VÉRONIS sur son
site web (VÉRONIS, 2000). Elle a été réalisée pour les textes du Monde diplomatique 1987-
1997 (11 139 376 d’occurrences) et comporte des formes non lemmatisées.
Pour la langue parlée, la seule liste accessible au grand public est celle de G.
GOUGENHEIM (1967), basée sur quelque 300 000 mots. D'autres projets sont mentionnés çà
et là (T. GREIDANUS, 1990 : 13 ; Cl. BLANCHE-BENVENISTE, 1996 : 27). L'ampleur du
travail de transcription constitue toutefois un frein important au développement de tels corpus
et de leur analyse.
Dans le domaine du français sur objectifs spécifiques, il existe également deux listes
établies pour le français commercial (A.A. LYNE 1985 et W. CLIJSTERS 1990), sur des
corpus plus restreints encore. Dans le Dictionnaire d'apprentissage du français des affaires
(DAFA), nous avons utilisé des comptages effectués sur un corpus de 25 millions de mots de
textes journalistiques et scientifiques pour assigner à chaque mot de la nomenclature
3
On se reportera au site du Grelep (VERLINDE, 2000) pour l’adresse de sites qui font l’inventaire de ces
logiciels.

économique du dictionnaire une indication de fréquence relative en fonction de quatre
tranches de fréquence.

2.1. Liste de fréquences du corpus complet

      Pour établir la liste de fréquences de notre corpus de 51 845 143 millions de lemmes, et
par voie de conséquence la nomenclature de notre dictionnaire d'apprentissage, nous avons
écarté en premier lieu tous les mots étiquetés comme nom propre (6,53 % du total des
lemmes). Nous comptons récupérer ces informations à un stade ultérieur de la rédaction du
dictionnaire.
      Le corpus original sans les noms propres comprend 48 458 014 lemmes, avec 73 975
lemmes différents pour la partie Le Monde et 102 594 lemmes différents pour la partie Le
Soir. Après avoir fusionné les deux listes, nous avons isolé les lemmes à fréquence supérieure
à 100 et soumis cette liste à un examen minutieux qui nous a amenés à une correction
manuelle d'erreurs de lemmatisation. En effet, comme l'illustre le tableau 1, la liste à l'étude
présentait des lemmatisations déviantes sous la forme d'une série de formes du féminin ou du
pluriel (autres, financière, ancienne, etc.) ainsi que des erreurs de lemmatisation manifestes
(jusqu pour jusque, yeu pour oeil, matche, etc.). Les premiers lemmes ont été rattachés à la
forme canonique et les quelques erreurs de lemmatisation corrigées à la main.

            lemme déviant       fréquence
            aujourd             34671           seule             2861
            hui                 34668           spécialiser       2758
            jusqu               30282           internationale    2754
            autres              21665           bureaux           2572
            parce               15397           sportive          2534
            afin                10954           haute             2525
            quant               9937            éventuelle        2522
            financière          8766            législative       2483
            auprès              7638            nationale         2271
            tandis              7231            traditionnelle    2260
            plupart             6917            différents        2225
            yeu                 6673            quelqu            2169
            première            6473            matche            2128
            ancienne            6355            présidentielle    2002
            toute               5363            blair             1948
            nombreuse           5355            sainte            1936
            actuelle            4840            sexuelle          1725
            sociale             4727            encontre          1667
            professionnelle     4475            exceptionnelle    1643
            est-à-dire          4445            tableaux          1630
            cents               3513            éliminé           1598
            principaux          3484            positive          1590
            française           3394            annuelle          1587
            locale              3368            individuelle      1580
            dernière            3034            définitive        1546
            beaux               3007            ores              1504

      Tableau 1. Lemmatisations déviantes (échantillon - fréquence supérieure à 1 500).

En outre, quelques noms propres qui n’ont pas été reconnus comme tels par Cordial,
comme par exemple Blair, Festina, Jacquet ou Gaulle ont également été écartés de la liste.
       Dans les cas où un participe passé coexistait avec un infinitif, nous n'avons retenu le
participe employé comme adjectif que là où l'emploi adjectival était évident. Dans de
nombreux cas toutefois, la décision reste purement subjective. Ce fait ne surprend pas si l'on
compare par exemple les nomenclatures du PR et du DF qui sont en désaccord fréquent quant
au statut que doit recevoir la forme du participe passé. Parmi de nombreux autres exemples
on citera domicilier (PR, uniquement à l’infinitif) et domicilié (DF, uniquement comme
adjectif).
       Dans le tableau, on voit également apparaître les unités lexicales composées d’au moins
deux éléments tels que parce que, afin de, quant à, auprès de, à l’encontre de, etc., qui n’ont
pas été reconnues comme telles suite au paramétrage de lemmatisation choisi. Nous avons
reconstitué ces unités lexicales pour les intégrer également à notre liste de lemmes. Le
nombre d'occurrences des particules que, de et à dans ces unités lexicales a été déduit de leur
total.
       Le mot aujourd'hui qui, lors de la lemmatisation, avait été scindé, a été reconstitué.

       Suite au paramétrage, la lemmatisation de Cordial scinde pratiquement
systématiquement les mots composés avec trait d'union. Pour les récupérer, nous avons utilisé
le corpus non lemmatisé pour en extraire tous les mots composés avec trait d'union. Ceux qui
présentaient une fréquence supérieure à 100 ont été ajoutés sous forme lemmatisée à notre
liste de fréquences. En guise d'illustration, nous avons consigné dans le tableau 2 les mots
composés (non lemmatisés) les plus fréquents (fréquence supérieure à 2 000) que nous avons
extraits du corpus non lemmatisé.

            noms composés      fréquence
            non lemmatisés     totale
            mots-clés          38688            jean-marie        3848
            comptes-rendus     24366            *porte-parole     3613
            etats-unis         17175            est-il            3516
            *peut-être         10617            grande-           3448
                                                bretagne
            a-t-il             7382             jean-luc          3084
            *lui-même          6701             *ceux-ci          2961
            *week-end          6334             jean-louis        2881
            jean-pierre        6046             dit-il            2851
            *celui-ci          5631             p-b               2770
            *au-delà           4976             *elle-même        2654
            e-u                4841             *eux-mêmes        2538
            *celle-ci          4780             jean-paul         2537
            est-ce             4629             faut-il           2356
            pays-bas           4551             *vice-président   2277
            *après-midi        4387             *demi-finales     2206
            *rendez-vous       4360             *au-dessus        2203
            jean-claude        4358             *vis-à-vis        2030

   Tableau 2. Mots composés (non lemmatisés) les plus fréquents (échantillon - fréquence
                                  supérieure à 2 000).

       Les mots précédés de l'astérisque ont été intégrés, après lemmatisation manuelle, dans
la liste de lemmes à fréquence supérieure à 100 ; les autres étant des formes verbales, des

abréviations ou des noms propres.4 L’intégration de ces mots composés a donné lieu à une
réduction proportionnelle de la fréquence de chacune des composantes dans la liste de
fréquences des lemmes.

      Ni les homonymes grammaticaux (bien (nom) et bien (adverbe)), ni les homonymes
sémantiques (voler (dérober) et voler (se mouvoir dans les airs)) n’ont pu être différenciés.
Dans le DAFLES, des indications de fréquence sont établies pour chaque homonyme
séparément. Pour le premier type d’homonymes, nous procédons à un comptage des codes
numériques différents assignés par Cordial à chaque homonyme ; pour le second, nous
effectuons un comptage manuel sur un échantillon du texte.

      Suite aux corrections de lemmatisation présentées ci-dessus et à l’exclusion des sigles,
des abréviations et des chiffres romains, la liste originale de 13 247 lemmes supérieurs à la
fréquence 100 a été ramenée à une liste de 12 156 lemmes.
      Au premier abord, l'importance de cette liste et donc de la future nomenclature du
DAFLES contraste avec les quelque 22 000 entrées du DF. Elle est toutefois largement
suffisante si l'on tient compte du fait que ces 12 156 lemmes couvrent 93,14 % de tous les
mots de notre corpus d'origine, déduction faite des noms propres. Le tableau suivant illustre
l'évolution de la couverture des textes d'origine en fonction du nombre de lemmes (colonne
rang) et de la fréquence des lemmes (colonne occurrences). L'appartenance d'un mot à l'une
des classes distinguées sera reflétée dans le dictionnaire par l'assignation d'une combinaison
d'astérisques (dans la colonne ‘indication fréquence’) : de cinq (pour les mots les plus
fréquents) à un (pour les mots entre les rangs 3 921 et 12 156).5

              classe               indice de            rang            occurrences      % (arrondi) du
                                   fréquence -                                           texte (sans
                                   DAFLES                                                noms propres)
                                                                                         couvert
              1                    *****                = 11 183        66
              2                    ****                 = 5 273         75
              3                    ***                  = 2 482         82
              4                    **                   = 854           88
              5                    *                    = 100           93
              6                                                         < 100            100

                   Tableau 3. Répartition des lemmes par tranche de fréquence.

      On notera que l'ajout d'une tranche de 10 000 lemmes supplémentaires, faisant passer la
nomenclature de quelque 12 000 à quelque 22 000 lemmes, ne fait augmenter la couverture
des textes que de 1 % approximativement, soit une proportion dérisoire par rapport à
l'importance du stock de mots à prendre en considération.

      Les annexes 1, 2 et 3 présentent trois extraits de la liste de fréquences pour l'ensemble
du corpus.

4
  On notera que les deux premiers mots de la liste sont surreprésentés puisqu'ils apparaissent systématiquement
dans les fiches documentaires qui accompagnent les textes d'origine. Comme nous l’avons signalé, ces fiches
documentaires ont été écartées de la version lemmatisée du corpus.
5
  A titre de comparaison, les deux premières tranches de fréquence du dictionnaire d'apprentissage anglais
Collins Cobuild rendent compte de 75 % des textes du corpus utilisé, mais avec 1 900 mots, soit le double du
français.

Lorsque l'on parcourt la liste complète, on est frappé par le nombre assez important de
termes spécifiques à la langue parlée qu'elle recèle (maman (rang 3502, fréquence 1025),
papa (rang 4091, fréquence 795), job (rang 5658, fréquence 450), sympa (rang 7152,
fréquence 293), bosser (rang 8875, fréquence 192), bouffer (rang 10653, fréquence 132),
gaffe (11170, fréquence 119), etc.) tout comme un nombre assez important de formes
tronquées de mots, dont la présence aussi massive dans un corpus écrit peut surprendre (pro
(rang 2470, fréquence 174), prof (rang 3580, fréquence 986), ado (rang 6024, fréquence 403),
sympa (rang 7152, fréquence 293), manif (rang 7488, fréquence 267), maths (rang 8194,
fréquence 226), accro (rang 9476, fréquence 167), métallo (rang 11283, fréquence 117), etc.).
       On y retrouve également des séries de co-hyponymes complètes, tels les jours de la
semaine et les mois de l'année, ainsi que la plupart des termes qui indiquent le degré de
parenté (père (rang 592, fréquence 8882), mère (rang 922, fréquence 5776), parent (rang 795,
fréquence 6795), fils (rang 993, fréquence 5270), fille (rang 674, fréquence 7802), enfant
(rang 148, fréquence 24607), grand-père (rang 4886, fréquence 588), grand-mère (rang 5249,
fréquence 517), grands-parents (rang 7595, fréquence 260), oncle (rang 4455, fréquence
691), tante (rang 6780, fréquence 327), neveu (rang 7357, fréquence 276), nièce (rang 11091,
fréquence 121), mais non les combinaisons avec arrière (-grand-parents, -grand-père et -
grand-mère).
       En ce qui concerne les adjectifs dérivés de noms géographiques, il va de soi que
l'actualité détermine en partie l'absence ou la présence de certains adjectifs (bosniaque (rang
6481, fréquence 353), zimbabwéen (rang 9757, fréquence 158), kosovar (rang 11629,
fréquence 110) entre autres). De même, on note l’influence du pays d'origine du quotidien,
compte tenu de la fréquence élevée des mots brabançon (rang 4003, fréquence 825), brainois
(rang 10143, fréquence 145), borain (rang 6796, fréquence 325), etc. dans le journal Le Soir,
où la rubrique des informations locales occupe une place importante. Au rédacteur du
dictionnaire de décider bien évidemment de la pertinence de ces termes.

2.2. Listes de fréquences des corpus partiels Le Monde/Le Soir

      Le fait de disposer de deux corpus provenant de deux communautés linguistiques
différentes offre la possibilité de cerner de façon relativement précise les termes spécifiques à
chacune de ces communautés. Il nous semble que les variantes géographiques les plus
fréquentes ont leur place dans un dictionnaire d'apprentissage, ne serait-ce que comme
révélateurs d'une réalité culturelle sous-jacente.

      Pour établir les listes des termes spécifiques aux deux communautés (France : Le
Monde - Belgique : Le Soir) nous avons procédé à une double analyse.
En premier lieu, nous avons extrait des deux corpus les lemmes qui apparaissaient moins de
20 fois dans l'autre corpus. Dans le tableau 4 est consigné le résultat de cette comparaison
pour les lemmes les plus fréquents du corpus Le Monde.

            lemme              fréquence
                               corpus Le
                               Monde
            ballottage         1565              *snes             280
            *insee             781               *ena              261
            *cnpf              743               préfectoral       253
            *mdc               647               baccalauréat      240
            *smic              497               *gdf              239
            *rmi               464               *secam            238
            cantonal           446               *loto             238

*cgc                422                 *unef               219
             *cftc               412                 *bts                213
             *anpe               376                 * cdd               208
             *ratp               358                 intéressement       206
             *unedic             320                 *afb                200
             minitel             313                 *iut                200
             *rmc                285

    Tableau 4. Échantillon de lemmes : fréquence >= 200 corpus Le Monde/= 500 corpus Le Soir/

Une deuxième analyse porte sur la fréquence relative des termes à fréquence supérieure
à 20 dans les deux corpus. La faible fréquence absolue dans un corpus n'est en effet pas le
seul critère pour identifier un lemme comme caractéristique d'une communauté linguistique ;
la probabilité d'emploi en constitue sans conteste un autre. Comme les journaux relatent les
informations des pays voisins, beaucoup de termes propres aux pays limitrophes se glissent
dans les textes, mais certainement pas dans les mêmes proportions. C'est sur cette
constatation qu'est basée notre deuxième analyse. Dans un premier temps, nous avons ramené
toutes les fréquences absolues des lemmes à leur probabilité d'apparition dans leur corpus
respectif selon la formule suivante :

 p = nombre d'occurrences total du lemme/nombre total d'occurrences dans le corpus partiel

Un mot comme français présente ainsi une probabilité d'apparition de p=0,0011 (28 969
occurrences/25 727 742 lemmes) dans le corpus Le Monde et de p=0,0006 dans le corpus Le
Soir. Inversement, belge a une proportion d'apparition de p=0,0009 dans le corpus Le Soir
contre p=0,00007 dans le corpus Le Monde.
      Ce calcul, appliqué à la totalité des lemmes à fréquence supérieure à 20, révèle une
proportion d'emploi nettement plus élevée des lemmes suivants dans le corpus Le Monde
(tableau 6). La liste ne reprend que les disparités les plus flagrantes, illustrées par
l'importance du chiffre qui accompagne le lemme. Les sigles et les abréviations sont à
nouveau précédés de l'astérisque.

            lemme                               fréquence relative x fois plus
                                                importante dans le corpus Le
                                                Monde par rapport au corpus Le
                                                Soir
            *cfdt                               66,5
            *cgt                                61,9
            *rpr                                51,6
            *udf                                37,5
            départemental                       32,6
            *sncf                               29
            *edf                                25,5
            *cnrs                               24,5
            *cac                                20,8
            préfet                              19,2
            *pcf                                18,6
            *bnp                                16,6
            lycéen                              14
            *fo                                 12,9
            lyonnais                            12,4
            interministériel                    11,4

                Tableau 6. Mots typiques du corpus Le Monde (échantillon).

      Dans la suite de la liste, on relève d'autres mots plus spécifiques au français de France,
tels que cantonal, préfecture, maire, lycée, préretraite, etc.

      Les mots nettement plus utilisés dans le corpus Le Soir que dans le corpus Le Monde
sont les suivants (tableau 7).

lemme                               fréquence relative x fois plus
                                                 importante dans le corpus Le Soir
                                                 par rapport au corpus Le Monde
             wallon                              126,6
             bruxellois                          47,1
             communal                            44,7
             *sp                                 43,6
             anversois                           40,5
             tram                                35,4
             subside                             34,3
             duché                               23,2
             infographie                         22,5
             flamand                             22,4
             *mcc                                21,6
             dixit                               19,3
             volley                              17,7
             coach                               17
             voirie                              15,4
             ardennais                           15
             urbanistique                        14
             *pj                                 13,4
             germanophone                        12,9

                  Tableau 7. Mots typiques du corpus Le Soir (échantillon).

       Plus loin dans la liste apparaissent des termes comme provincial, intercommunal,
braderie ou régionaliser qui sont également davantage propres au français de Belgique.
Ces quelques exemples montrent comment, en disposant de deux corpus provenant de deux
communautés linguistiques différentes, il est possible, par simple comparaison, d'extraire
d'intéressantes informations quant aux termes et aux sigles propres à chacune de ces
communautés. Ici aussi, le rédacteur du dictionnaire devra décider si ces informations sont
pertinentes par rapport à son public-cible.

       Un autre aspect de la vie de la langue qui peut être saisi à partir de cette comparaison de
corpus est l'assimilation de mots anglais. De ce point de vue, la France a toujours adopté une
politique de défense de la langue en proposant avec un succès inégal de nombreuses
alternatives aux termes anglais, principalement dans des domaines comme l'économie ou
l'informatique, voire pour le vocabulaire de la vie quotidienne. Sans avoir ici des données
complètes à fournir, il semble toutefois que les termes anglais sont bien représentés, tant dans
le corpus Le Monde que dans le corpus Le Soir. Dans ce dernier, les mots anglais sont
légèrement plus fréquents, bien que, à quelques rares exceptions près, que nous avons fait
précéder d’un astérisque, la différence de fréquence ne soit pas vraiment pertinente. Le
tableau 8 présente un échantillon de mots anglais relevés dans les deux corpus.

             mot anglais             fréquence                 fréquence
                                     corpus Le Monde           corpus Le Soir
             business                446                       471
             *coach                  83                        1424
             cool                    108                       169
             design                  305                       312
             efficience              27                        23

efficient                   14                             23
              fast-food                   42                             88
              goal                        69                             108
              *goodwill                   2                              48
              *hardware                   4                              15
              holding                     573                            505
              internet                    4178                           2272
              joint(-)venture             84                             95
              leasing                     29                             69
              lobbying                    137                            114
              marketing                   847                            767
              software                    7                              17
              *team                       76                             590
              trader                      48                             35
              Web/web7                    1057                           514

                  Tableau 8. Échantillon de mots anglais relevés dans les corpus.

      Une étude plus approfondie du phénomène serait nécessaire. Dans un certain nombre de
cas, le terme français équivalent semble s'être imposé, comme par exemple dans le cas de
logiciel (respectivement 1 392 et 721 occurrences dans les deux corpus, contre 7 et 17 pour
software), alors que pour d'autres mots, le terme anglais semble bien ancré, comme pour Web
ou internet face à toile, qui apparaît moins de 200 fois dans le corpus Le Monde, voire moins
de 20 fois dans le corpus Le Soir, ou encore marketing face à mercatique, qui doit se
contenter de 2 attestations dans l’ensemble du corpus.

3. Comparaison liste de fréquences - nomenclature du DF

3.1. Congruence des listes

      Comme nous l'avons fait remarquer ci-dessus, le DF met en évidence le fait que sa
nomenclature couvre la langue journalistique et la langue parlée quotidienne. L'on s'attendrait
dès lors à retrouver l'essentiel des mots de notre nomenclature dans celle de ce dictionnaire
d'apprentissage. Tel n'est pas vraiment le cas puisque 12,1 % des mots de notre liste de
fréquences n'y apparaissent pas. La progression du décalage entre les deux listes est
inversement proportionnelle à la fréquence des mots (tableau 9).

              tranche de notre nombre de           pourcentage      nombre      pourcentage
              liste de         mots                sur cette        cumulé      cumulé
              fréquences       absents du          tranche
                               DF
              0-500            0                   0                0           0
              501-1000         2                   0,4              2           0,2
              1001-1500        3                   0,6              5           0,3
              1501-2000        1                   0,2              6           0,3
              2001-2500        10                  2                16          0,6
              2501-3000        16                  3,2              32          1,1
              3001-3500        18                  3,6              50          1,4

7
 La graphie avec majuscule, étiquetée comme nom propre lors de la lemmatisation, est la plus courante dans le
corpus.

3501-4000             28              5,6               78           2
                 4001-4500             40              8                 118          2,6
                 4501-5000             45              9                 163          3,3
                 5001-5500             48              9,6               211          3,8
                 5501-6000             61              12,2              272          4,5
                 6001-6500             58              11,6              330          5,1
                 6501-7000             67              13,4              397          5,7
                 7001-7500             39              7,8               436          5,8
                 7501-8000             87              17,4              523          6,5
                 8001-8500             80              16                603          7,1
                 8501-9000             102             20,4              705          7,8
                 9001-9500             120             24                825          8,7
                 9501-10000            115             23                940          9,4
                 10001-10500           110             22                1050         10
                 10501-11000           129             25,8              1179         10,7
                 11001-11500           154             30,8              1333         11,6
                 11501-12000           124             24,8              1457         12,1

     Tableau 9. Évaluation du décalage entre la liste de fréquences et la nomenclature du DF.

      Comme l'illustre le tableau 9, les mots jusqu'au rang 2 000 sont quasiment tous présents
dans la nomenclature du DF. L'écart se creuse toutefois rapidement à partir du rang 3 500
pour atteindre plus de 20 % dans les tranches à fréquence supérieure à 8 500 de notre liste.
      Le tableau 10 récapitule par ordre de fréquence décroissante les mots, les sigles et les
abréviations (précédés d’un astérisque) les plus fréquents qui sont absents de la nomenclature
du DF.

                 lemme                 fréquence
                                       corpus complet
                 *ex.                  7885                   brugeois            1392
                 *tél.                 6850                   bénéficiaire        1381
                 *pt.                  5152                   lyonnais            1374
                 investisseur          3922                   intercommunal       1373
                 budgétaire            3731                   modalité            1345
                 entité                2494                   *tv                 1338
                 concertation          2204                   instar (à l’~ de)   1293
                 restructuration       2198                   mini                1272
                 infrastructure        2166                   *mo                 1271
                 forum                 2080                   sélectionneur       1267
                 info8                 1870                   qualifié            1262
                 privatisation         1831                   régularisation      1189
                 *pib                  1798                   correctionnel       1177
                 amendement            1793                   gantois             1147
                 *mm.                  1728                   expertise           1126
                 *ndlr                 1726                   management          1116
                 rwandais              1687                   jusque-là           1102
                 *pp.                  1640                   blues               1091
                 namurois              1569                   concéder            1081
                 technologique         1549                   holding             1078

8
    Le mot est mentionné dans l’article consacré à information, mais il ne fait pas l’objet d’une entrée séparée.

*sicav            1516             internaute        1064
            coach             1507             open              1060
            infographie       1455             supporteur        1052
            spécialisé        1414             centrer           1003
            social-                            *éd.              1003
            démocrate         1404             maïeur/mayeur     1000
            yougoslave        1399

      Tableau 10. Principaux absents de la nomenclature du DF en termes de fréquence
                                   (fréquence >= 1000).

      Les mots en italique du tableau sont représentés dans le DF par au moins un autre
membre de leur famille lexicale. Du point de vue de la compréhension, l'utilisateur trouvera
donc par inférence dans le dictionnaire au moins quelques indications sur le sens du mot
absent. Du point de vue de la production, compte tenu des irrégularités et/ou de la complexité
du système dérivationnel du français, aucune information complémentaire ne peut pallier
l'absence du mot.
      Il est possible en outre de cibler davantage les lacunes dans certains domaines. De ce
point de vue, le vocabulaire économique semble sous-représenté dans le DF (tableau 11).

            lemme                              fréquence corpus complet
            investisseur                       3922
            budgétaire                         3731
            restructuration                    2198
            privatisation                      1831
            pib                                1798
            technologique                      1549
            sicav                              1516
            bénéficiaire                       1381
            management                         1116
            holding                            1078
            libéralisation                     932
            consultant                         927
            coter                              920
            business                           917
            compétitivité                      873
            reconversion                       813
            logistique                         758
            réorganisation                     753
            obligataire                        752

       Tableau 11. Principaux termes économiques absents de la nomenclature du DF.

      Compte tenu de l’ensemble de nos observations, on conviendra du fait qu’il faut
nuancer l'affirmation selon laquelle la nomenclature du DF rend compte des mots de la
presse.

     Cette constatation est confirmée par l'analyse des entrées du DF qui n'apparaissent pas
dans notre liste de fréquences. En effet, après avoir écarté de la liste des entrées du DF les
formes verbales et nominales irrégulières et les noms propres, il reste un ensemble de mots

dont peu paraissent essentiels dans un contexte de communication écrite ou orale standard. Le
tableau 12 en présente un échantillon tiré du début de la lettre A.

a fortiori abêtissant abreuvoir accessoiriste
à gogo abjurer abricotier accotement
à jeun ablution abrutir accouder (s')
a.z.t. aboiement abrutissant accoudoir
abasourdi abois (aux) abscisse accoutrement
abat-jour abominablement absenter (s') accoutrer
abats abortif abyssin accroupir (s')
abattant aboutissants acadien accumulateur
abattis abracadabrant acariâtre accus
abêtir abrasif accablement achalandé

Tableau 12. Mots de la nomenclature du DF à fréquence inférieure à 100 dans le corpus.

Ce fait légitime un peu plus le choix de textes journalistiques, pour lequel nous n'avions
jusqu'à présent que deux arguments pragmatiques, leur disponibilité et le fait qu'ils soient
utilisés fréquemment dans l'enseignement, comme point de départ de l'élaboration d'une
nomenclature de dictionnaire d'apprentissage. Pour l'oral, toutefois, la question reste
partiellement ouverte, faute de véritable point de comparaison.

Compte tenu des listes des mots divergents, la nomenclature du DF semble plutôt
orientée vers le littéraire, ce qui nous semble coller moins au contexte d'apprentissage actuel
des langues étrangères. Mais, comme nous le constaterons dans ce qui suit, l’établissement
d’une nomenclature basée sur des indications de fréquence est également sujette à caution.
Ainsi, pour le DAFLES, afin de présenter une nomenclature cohérente, il conviendra de
repêcher certains mots nécessaires pour compléter des familles de mots : s'absenter devra
ainsi figurer aux côtés de absent, malgré sa fréquence inférieure à 100. Par contre, des mots
comme abasourdi, abats, abattis, etc. pourront définitivement être écartés sur une base
objective.

3.2. Congruence des indications de fréquence et d'importance

Le DF offre pour chaque mot de la nomenclature une indication de son 'importance' :
"Est important un mot dont on ne peut se passer dans le vie quotidienne, ou pour comprendre,
ou pour s'exprimer" (DF, 1999 : IX). Le critère de l'importance est considéré comme
supérieur à celui de la fréquence puisque

Une grande partie des mots fréquents sont importants (dormir, interdit, argent,
vite), mais d'autres moins fréquents sont extrêmement utiles parce qu'ils désignent
des choses précises sans avoir de synonymes (coincer, comparable,
obligatoirement). (DF, 1999 : IX)

L'importance du mot est signalée par une flèche bleue en marge.
Comme nous disposons d'indications de fréquence précises pour notre nomenclature, il
nous a paru intéressant de les comparer aux indications d'importance données dans le DF.
Nous avons effectué cette comparaison pour la lettre A, avec, d'une part, 1 046 lemmes de
notre nomenclature et, d'autre part, 1 571 lemmes comparables pour le DF, c'est-à-dire les

entrées du dictionnaire sans formes irrégulières de verbes, d'adjectifs ou de noms, sans noms
propres et sans distinction d'homonymes.9
      Le tableau 13 donne un aperçu général de cette comparaison. Dans les cellules figure le
nombre de mots qui correspond aux critères respectifs.

            classe          indice de   mots              mots moins         mots absents du
                            fréquence - importants        importants -       DF
                            DAFLES      - DF              DF
            1               *****       34                4                  0
            2               ****        41                6                  0
            3               ***         76                16                 0
            4               **          116               49                 4
            5               *           247               336                117
            6               -           135               511

            Tableau 13. Comparaison fréquence corpus - critère d'importance du DF.

      Les chiffres mettent en évidence un important groupe de mots à fréquence limitée dans
le corpus mais considérés comme importants par les auteurs du dictionnaire (en italique dans
le tableau 13). Les tableaux 14 et 15 présentent un échantillon de ces mots, respectivement
pour la classe 5 (fréquence comprise entre 853 et 100) et la classe 6 (fréquence inférieure à
100).

            abaisser           abandonné             abattu              abbé
            abdiquer           abdominal             abeille             aberrant
            abîmer             abominable            abondant            abordable
            abstraction        abstrait              absurde             abusif
            académique         accablant             accabler            accaparer
            accélérateur       accessoire            accidentel          accidentellement
            accidenté          acclamer              accordéon           accouchement
            accourir           accro                 accueillant         accumulation

             Tableau 14. Mots importants (DF) à faible fréquence (classe 5 corpus).

            abcès              abîmé                 ablation            aboiement
            aboyer             abrégé                abréviation         abruti
            absenter (s’)      acajou                acclamation         accoupler
            accoutumé          accroupi              acrylique           acuponcture
            adhésif            adipeux               adoucissement       adroit
            adroitement        aérer                 affairé             affectueusement
            affectueux         affliger              affolant            affolé
            affolement         affranchissement      affreusement        affublé

          Tableau 15. Mots importants (DF) à très faible fréquence (classe 6 corpus).

     Une interprétation de ce genre de données reste bien évidemment subjective, mais il
semble quand même qu'au-delà du critère de l'importance, la fréquence reste un critère

9
  Dans les cas où deux homonymes présentaient deux indications d'importance différente, nous avons
systématiquement assignée la plus importante au lemme. Parfois, l'importance est attribuée uniquement à l'un
des sens du mot. Dans ces cas, nous l'avons systématiquement reporté au lemme.

indispensable. En effet, lorsque l'on compare ces deux échantillons, on relève sans conteste
dans le deuxième certains mots qui ne sont pas prioritaires dans le cadre d'un apprentissage
de la langue : ablation, acajou, acrylique, adipeux, affranchissement, affublé entre autres.
Leur absence de la nomenclature d'un dictionnaire d'apprentissage semble dès lors s'imposer.
Inversement, on peut s'étonner de voir 26 mots particulièrement fréquents dans notre
corpus ne pas être considérés comme importants par le DF (en gras dans le tableau 13) :

Classe 1
à10, année, américain, allemand
Classe 2
afin de/que, ami, assez, actuellement, anglais, accès
Classe 3
aménagement, asiatique, autoriser, actionnaire, administratif, associer, application, africain,
arrêté, approuver, assistance, attribuer, affecter, arabe, albanais, auparavant

Tous ces mots, sauf peut-être albanais, sont sans aucun doute des mots courants et
mériteraient de figurer parmi les mots importants de la langue.

Le critère d'importance d'un mot est sans conteste un critère opérationnel. Il permet de
récupérer certains mots courants qui font défaut dans le corpus (aboyer, adroit, agrafer, allô,
amphi, ampli, aspirateur, au revoir). Toutefois, un avis subjectif concernant l'importance des
mots doit en tout cas être accompagné d'un contrôle de leur fréquence.

4. Comparaison listes de fréquence corpus journalistique - corpus TLF

Dans P. IMBS (1971) sont consignées les données de fréquence relatives au TLF sous
la forme d’une liste de lemmes, classés par fréquence décroissante. Nous avons prélevé de
cette liste un échantillon de taille analogue à celle de notre liste de fréquences : 12 174
lemmes, soit les lemmes à fréquence supérieure à 155.11
Les divergences entre les deux listes sont assez marquées puisque nous comptons
16 475 lemmes différents après fusion. Ce chiffre élevé s’explique en partie par la
lemmatisation particulière adoptée par le TLF, qui distingue trois formes du verbe (infinitif,
participe passé, soit plusieurs centaines de cas, et participe présent). En outre, la
lemmatisation n’est pas complète pour de nombreux mots grammaticaux (la, l’, les, une, sa,
etc.) et on relève un certain nombre de lemmes déviants (longue, semaines, chère, etc.).

Une comparaison des deux listes met en relief de façon très évidente les spécificités des
deux corpus. Absents de l’échantillon du TLF sont toute une série de mots actuels dont le
rang traduit une fréquence d’usage importante, à l’exception de mots tels que wallon ou
bruxellois, qui sont surreprésentés dans le corpus belge (tableau 16). On notera que nous
n’avons pas tenu compte des abréviations présentes dans notre liste de fréquences.

lemme rang corpus
journalistique

10
La présence du mot à dans cette liste peut surprendre. Assez étrangement, ce n'est pas le seul mot
particulièrement fréquent qui n'est pas taxé d'important par le DF. Ainsi, parmi les 30 mots les plus fréquents de
notre corpus (voir Annexe 1), 6 mots ne sont pas accompagnés de la flèche bleue identifiant les mots
importants: le, un, à, il, tout et leur.
11
On notera que la liste originale comprend 12 427 lemmes dont la fréquence est supérieure à 155. Pour faciliter
la comparaison informatisée des deux listes, nous avons toutefois dû exclure les doublons (aimant (nom,
participe), alerte (adjectif, nom), aperçu (nom, participe), etc.).

régional          314              salarié           804
            match             329              internet          823
            wallon            360              fédéral           859
            soit              383              francophone       951
            euro              436              fiscal            998
            championnat       554              chômeur           1015
            football          557              nouvelle          1018
            culturel          570              bourgmestre       1024
            sûr               573              record            1052
            télévision        629              gérer             1065
            festival          641              investir          1109
            bruxellois        699              compétition       1113
            finale            719              diffuser          1142
            week-end          783              néerlandais       1158
            entraîneur        802              palestinien       1171

Tableau 16. Mots absents de la liste de fréquences du TLF (fréquence >= 155) (échantillon).

      En analysant les mots absents de notre liste, on se rend compte que le corpus
journalistique couvre mieux les mots très fréquents du corpus TLF qu’inversement, comme
en témoigne le rang des mots consignés dans le tableau 17. Les lacunes à fréquence élevée
dans le corpus TLF ont trait à quelques mots spécifiques de la conversation et à une série de
mots dont bon nombre désignent des concepts qui sont datés (tableau 17).

            lemme            rang corpus
                             TLF
            ha               203               divinité          2705
            eu               207               continuel         2728
            hé               303               environs          2733
            ho               306               fâché             2761
            hélas            936               gémir             2762
            pardessus        1530              évangile          2805
            sou              1627              tressaillir       2842
            paupière         1904              gentilhomme       3044
            sire             2381              rameau            3078
            aurore           2395              orient            3130
            vôtre            2518              piété             3184
            monseigneur      2529              accoutumé         3211
            providence       2618              hideux            3280
            immortel         2644              écu               3282
            sottise          2689              matelot           3285

  Tableau 17. Mots absents de la liste de fréquences du corpus journalistique (échantillon).

     De façon générale, la comparaison avec la liste du TLF met en évidence des lacunes
assez prononcées du corpus journalistique dans le domaine du vocabulaire touchant les
domaines propres aux personnes (sentiments, attitudes, etc.) (tableau 18).

            lemme             rang corpus
                              TLF
            fâché             2761             ravissant         3916

gémir 2762 blâmer 3963
tressaillir 2842 étreinte 3989
accoutumé 3211 blême 4005
balbutier 3380 inexplicable 4007
infâme 3397 paresseux 4033
rancune 3426 promptement 4038
frissonner 3450 canaille 4040
affectueux 3592 langueur 4103
lugubre 3699 pâleur 4107
pressentiment 3741 frémissant 4114
pensif 3766 puéril 4142
tendrement 3779 adoration 4159
gaiement 3789 gâté 4172
orgueilleux 3876 ennuyé 4175

Tableau 18. Mots absents de la liste de fréquences du corpus journalistique
(vocabulaire touchant aux personnes) (échantillon).

Ces données nous permettent d’apporter un autre correctif nécessaire à notre
nomenclature originale sous la forme de l’inclusion dans le DAFLES de mots tels que fâché,
rancune, lugubre, tendrement, gaiement, etc.

5. Conclusion

L'élaboration d'une nomenclature est l'une des premières étapes dans le processus de
rédaction d'un dictionnaire. Cet aspect est d'autant plus crucial pour un dictionnaire
d'apprentissage qu'il détermine de façon évidente la qualité du dictionnaire : les apprenants
doivent y retrouver les mots auxquels ils vont être confrontés et qu'ils doivent utiliser.
Nous avons choisi de fonder notre nomenclature sur une analyse de corpus de textes.
Pour l'écrit, les textes journalistiques offrent toutes les garanties de diversité et de
disponibilité nécessaires. Ils traitent en outre de thèmes actuels en termes courants, non
spécialisés.
Nous avons comparé une liste de fréquences élaborée à partir de ce corpus et qui servira
de nomenclature au DAFLES à la liste de fréquences du TLF ainsi qu'à la nomenclature du
seul dictionnaire d'apprentissage actuel du français, le DF. Les comparaisons ont montré des
divergences assez marquées. Le corpus journalistique présente une langue actuelle qui couvre
assez bien le vocabulaire le plus général tel qu’il est répertorié dans les deux autres sources. Il
présente certaines lacunes dans le domaine du vocabulaire spécifique aux actions et aux
sentiments des personnes. Certains mots passe-partout de la langue parlée sont également
absents. Inversement, le fait de coller à l’actualité donne un aperçu très complet des mots et
concepts utilisés fréquemment dans la communication quotidienne. L’indice de fréquence
permet en outre de corriger l’intuition du lexicographe quant à l’importance d’un mot.
De façon générale, on peut poser que les lexicographes ont tout intérêt à intégrer une
analyse de corpus lors du processus de définition de la nomenclature et de rédaction d’un
dictionnaire. Comme le note l'éminent lexicographe anglais J. SINCLAIR (traduction reprise
à V. GRUNDY 1996 : 131) :

(...), il y a une différence énorme et systématique entre les impressions [que] des
gens notent sur les détails de la langue et les faits de langue réels que l'on peut
observer dans les textes. Cela laisse à supposer que les êtres humains ont une idée

tout à fait particulière de la langue et que cette idée ne correspond pas du tout à ce
     qui se passe effectivement lorsqu'ils utilisent cette langue.

       Le corpus est le moyen par excellence de saisir une variété d'informations qui sont le
reflet de la compétence linguistique d'un nombre important de locuteurs. Cette masse
d'informations permet de se faire une image nuancée du fonctionnement de la langue, même
s’il s’avère nécessaire d’y apporter quelques correctifs compte tenu des lacunes du corpus ou
de la prise en compte d’autres critères de sélection, comme par exemple la disponibilité des
mots ou le fait d’appartenir à une série conceptuelle. Face à la richesse des résultats de
l’analyse de corpus, on ne peut que déplorer une fois de plus l’absence d’un grand
échantillonnage de textes pour le français.

                                                    Serge VERLINDE
                                                      Thierry SELVA
                                 Groupe de recherche en lexicographie pédagogique (Grelep)
                                                  K.U.Leuven, Belgique

                                     BIBLIOGRAPHIE

BLANCHE-BENVENISTE, Claire (1996) : « De l’utilité du corpus linguistique », Revue
     française de linguistique appliquée, I-2, 25-42.
BRUNET, Étienne (1981) : Le vocabulaire français de 1789 à nos jours d’après les données
     du Trésor de la langue française, Genève, Paris, Slatkine, Champion, 3 vol. (Travaux
     de linguistique quantitative, 17).
CLIJSTERS, Willy (1990) : Mille lettres d’affaires. Richesse formelle, richesse lexicale,
     stock lexical, lexitope et lexitraits, combits, Paris, Genève, Champion, Slatkine.
     (Travaux de linguistique quantitative, 46).
ENGWALL, Gunnel (1984) : Vocabulaire du roman français (1962-1968), Dictionnaire des
     fréquences, Stockholm, Almqvist & Wiksell International.
GOUGENHEIM, Georges ; René MICHÉA, Paul RIVENC et Aurélien SAUVAGEOT
     (1967) : L’élaboration du Français Fondamental (1er degré), Paris, Didier.
GREIDANUS, Tine (1990) : Les constructions verbales en français parlé, Étude quantitative
     et descriptive de la syntaxe des 250 verbes les plus fréquents, Tübingen, Max Niemeyer
     Verlag. (Linguistische Arbeiten, 243).
GRUNDY, Valerie (1996) : « L’utilisation d’un corpus dans la rédaction du dictionnaire
     bilingue », in BÉJOINT, Henri et Philippe THOIRON, Les dictionnaires bilingues,
     Louvain-la-Neuve, Duculot, 127-149.
HENMON, V.A.C. (1924) : A French word book based on a count of 400,000 running words,
     Madison, Wisc., University of Wisconsin.
IMBS, Paul (1971) : Dictionnaire des fréquences. Vocabulaire littéraire des XIXe et XXe
     siècles, I – Table alphabétique, II - Table des fréquences décroissantes. Nancy, Paris,
     C.N.R.S., Didier.
JUILLAND, Alphonse ; Dorothy BRODIN et Catherine DAVIDOVITCH (1970) : Frequency
     Dictionary of French Words, La Haye, Paris, Mouton.
LYNE, Anthony A. (1985) : The vocabulary of French business correspondance. Word
     frequencies, collocations and problems of lexicometric method, Genève, Paris, Slatkine,
     Champion. (Travaux de linguistique quantitative, 23).

Vous pouvez aussi lire