Twitter coréen : un langage d'un genre nouveau - Brill

La page est créée Amelie Barthelemy
 
CONTINUER À LIRE
Twitter coréen : un langage d'un genre nouveau

            Hyunjung SON*, Jae Yun LEE **, Beomil KANG* & Ha-Soo KIM*

1. INTRODUCTION

   Nous nous proposons dans le présent article d’étudier le langage de Twitter
coréen. Ce nouveau média social, ou microblogage, repose, comme celui de
Facebook, sur le modèle dit «many-to-many». A la différence des journaux ou des
émissions télévisées, ces messages passent du public au public en utilisant les
plateformes d’internet ou le téléphone mobile dont l’accessibilité est quasiment
libre pour tout le monde. Concrètement, plus de huit millions de Coréens ont utilisé
les services de Twitter ou Facebook en 2012.
   Pourquoi s’intéresser à ce genre de communication ? Tout d’abord, parce que
d’un point de vue linguistique, il s’agit d’échanges verbaux difficiles à classer. Au
premier abord, il paraît évident qu’on a affaire à des textes qui définissent des rôles
de scripteur et de destinataire et sont soumis à une contrainte de longueur. Ils sont
en effet limités à 140 signes. On serait donc tenté de les rattacher à des échanges
écrits plutôt qu’oraux. Pourtant, certaines études comme celles de Liénard (2005),
Panckhurst (2007), Véronis et de Neef (2006) soulignent la présence de
caractéristiques propres à l’oral : abréviations, ellipses, répétitions, procédés
phonétiques, recours à des symboles iconiques représentant une émotion ou un
geste, qui figurent des interactions non verbales courantes dans les échanges
conversationnels. Ces difficultés ont soit entraîné une profusion parasitaire
d’appellations néologiques comme «parlécrit» (Anis 2003), «langage contrôlé»
(Liénard 2006), «cyberlangue» (A. Dejond 2002) ; soit encore suscité de violentes
polémiques autour de leur caractère trop émotionnel, trop direct et trop personnel
ou, à l’inverse, trop planifié, trop allusif ou trop public. Il est donc temps de
dépasser ces intuitions et ces partis-pris en procédant à une analyse objective du
langage des réseaux sociaux de façon à situer ce nouveau genre par rapport à
d’autres mieux documentés.
   Nous procéderons en trois temps. Tout d’abord nous présenterons le corpus que
nous avons élaboré pour cette étude. Puis nous expliciterons les traits retenus pour
caractériser Twitter. Enfin, nous analyserons nos résultats en les confrontant aux
18 genres établis par l’Institut National de la Langue Coréenne à partir de leur
Corpus du coréen standard. Pour donner à l’avance nos conclusions, cette étude à
* ILIS-Yonsei Université, HK research group
** Myongji Université
Ce travail a été soutenu par la Fondation Nationale de la Recherche de Corée, subvention
financée par le gouvernement coréen (NRF-2009-361-A00027).

                                                           Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                            via free access
126                              Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

fondement statistique montrera que Twitter n’appartient ni à l’écrit ni à l’oral, mais
qu’il constitue un genre inédit qu’il est possible de situer aux côtés des genres
classiques.

2. CONSTRUCTION D’UN CORPUS TWITTER
   Le corpus que nous avons construit en vue de l’observation du langage de
Twitter consiste en 678 199 textes de Twitter coréens, qui ont été postés au cours
du mois d’octobre de l’année 2011, à l’occasion de l’élection du maire de Séoul.
Nous avons extrait tous les textes comportant une ou plusieurs occurrences du nom
ou d’un des surnoms du seul candidat du parti de l’opposition PARK Wonsoon. En
procédant de la sorte, nous avons pu éviter les textes où le nom du candidat au
pouvoir apparaissait à propos de divers sujets sans rapport avec l’élection du maire
et donc hors de notre champ d’investigation.
   Puis, nous avons converti ce texte en 16 904 995 blocs graphiques ou ôchôls1,
que nous avons soumis à une analyse morpho-syntaxique au moyen de l’analyseur
automatique UTagger2, et nous avons appliqué à ce corpus la classification des
genres conçue par KANG Beomil (2012). Ce chercheur a adapté au coréen le
système de traits linguistiques proposé par Biber dans Variation across speech and
writing (1988) et celui élaboré par KIM Yong-Jin (1990) et KANG Beom-mo et
alii. (1998). Nous avons ainsi utilisé un ensemble de 56 traits, – pronoms, temps
verbaux, modalités, particules casuelles, suffixes fonctionnels, verbes
émotionnels, connecteurs, verbes honorifiques, négation raccourcie/allongée, etc.
– qui comprennent 2 166 marqueurs. Grâce à ces traits, nous avons élaboré une
figure générale des différents genres y compris le langage de Twitter. Le tableau 1
ci-dessous en dresse la liste :
              Tableau 1 : Les 56 traits linguistiques indicateurs de genre
                     Nom de trait                                 Nom de trait
    T1 phrase composée d'un seul ôchôl non nominal T29 phrase exhortative
    T2  phrase conditionnelle                      T30 phrase de promesse
    T3  phrase nominale                            T31 nom dépendant –kott
    T4  mise en relief                             T32 pronom de la troisième personne
    T5  négation-impératif/exhortatif              T33 phrase impérative
    T6  modalité-certitude                         T34 temps verbal-passé
    T7  verbe honorifique                          T35 adverbe
    T8  ponctuation interrogative                  T36 connecteur de cause
    T9  négation raccourcie                        T37 particule connective
    T10 adjectif émotionnel                        T38 suffixe conjonctif d'opposition
    T11 question indirecte                         T39 passif lexical

1 L’ôchôl est l’unité graphique du coréen bornée par un blanc typographique. Ce bloc
graphique se compose soit d’un seul mot, soit de plusieurs suivant un ensemble de
conventions. Par exemple, un ôchôl peut être constitué de : nom + particule, nom
déterminant + nom déterminé, verbes + affixes + particules conjonctives ou finales, etc.
2 http://nlplab.ulsan.ac.kr/

                                                            Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                             via free access
Twitter coréen : un langage d'un genre nouveau                                                  127

 T12    suffixe conjonctif de condition             T40   causatif lexical
 T13    copule                                      T41   particule possessive
 T14    particule informelle                        T42   négation allongée
 T15    terminaison de nominalisation -um           T43   particule de sujet
 T16    modalité-nécessité                          T44   modalité-possibilité
 T17    nom honorifique                             T45   causatif syntaxique
 T18    suffixe conjonctif de cause ; explication   T46   connecteur d'opposition
 T19    pronom anaphorique                          T47   connecteur de coordination
 T20    pronom de la première personne              T48   temps verbal-progressif
 T21    verbe anaphorique                           T49   subordonnée adjectivale
 T22    pronom de la deuxième personne              T50   suffixe conjonctif de coordination
 T23    nominal                                     T51   adjectif verbalisé
 T24    verbe émotionnel                            T52   connecteur nominal
 T25    verbe impératif                             T53   terminaison de nominalisation -ki
 T26    pronom indéterminé                          T54   particule d'objet
 T27    connecteur de transition de topique         T55   particule d’introduction de la citation
 T28    suffixe formel                              T56   temps verbal-présent

   Afin de caractériser le langage de Twitter de manière comparative, nous avons
également utilisé le Corpus du Coréen Standard construit par l’Institut National de
la Langue Coréenne. Ce corpus rassemble un large échantillon de textes, comptant
3 millions d’ôchôls, classés manuellement en 18 genres : langue orale, scripts des
journaux télévisés, scénarios, romans, manuels scolaires, articles de magazines,
articles journalistiques des rubriques politiques, culturelles, scientifiques, des faits
divers, éditoriaux, etc. Nous avons soumis ce corpus à la même analyse
morpho-syntaxique et au même traitement statistique que le langage de Twitter.
Nous avons ainsi construit un corpus de 19 genres linguistiques incluant le langage
de Twitter. Nous les présentons dans le tableau suivant :
                            Tableau 2 : Les 19 genres traités
                  Nom de genre                                Nom de genre
  G1    Twitter                           G11     journal-éditorial
  G2    script des journaux télévisés     G12     journal-sports;people
  G3    manuel                            G13     journal-politique; société; économie
  G4    conte pour enfants                G14     art;loisir
  G5    encyclopédie                      G15     sciences humaines
  G6    sciences sociales                 G16     sciences naturelles
  G7    roman                             G17     magazine
  G8    langue orale                      G18     essai
  G9    journal-entretien                 G19     scénario
  G10   journal-culture;média;science

   Sur ce corpus de 19 genres, nous avons calculé les taux d’occurrences des 56
traits linguistiques pour 1 000 ôchôls. Et, afin de représenter correctement la

                                                                Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                 via free access
128                                  Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

fréquence de chaque trait, nous avons remplacé le taux d’occurrences par le
z-score3. Cette fréquence «normalisée», qui se calcule à partir de la moyenne et
l’écart type, permet aux items ayant des métriques différentes d’être ramenés à une
métrique commune, qui autorise une analyse comparative (Green et Salkind
2008 ; McNemar 1969)4. Après avoir calculé le z-score de tous les traits pour ces
19 genres, nous avons procédé à une analyse fréquentielle de chaque trait, ce qui a
mis au jour des fréquences de traits propres à Twitter.

3. ANALYSE FRÉQUENTIELLE DES TRAITS DE TWITTER
   Le premier résultat remarquable que fait apparaître cette analyse des fréquences
est que Twitter se caractérise par un ensemble de sept traits, d’une fréquence plus
élevée par rapport aux autres traits (le z-score > 1 (le z-score de l’écart type)),
comme le montre le tableau 3, ci-dessous :
                    Tableau 3 : Les traits les plus fréquents dans Twitter
                                         seul ôchôl non nominal
                                         phrase composée d'un

                                                                   phrase conditionnelle

                                                                                                                                impératif/exhortatif

                                                                                                                                                        modalité-certitude

                                                                                                                                                                              verbe honorifique
                                                                                            phrase nominale

                                                                                                               mise en relief

                                                                                                                                négation-
    Twitter                               3,81                     2,14                        2               1,61              1,57                    1,2                  1,16
    script des journaux télévisés         -0,4                    -0,95                    -0,73              -0,53             -0,69                  -0,41                  0,07
    manuel                                0,36                    -0,35                    -0,81               -0,7             -0,53                  -0,39                 -0,28
    conte pour enfants                   -0,56                    -0,66                    -0,64               1,47              1,52                    0,8                  1,11
    encyclopédie                         -0,64                     -1,5                     1,59              -1,05             -0,46                  -0,99                 -0,68
    sciences sociales                    -0,23                     0,38                    -0,53              -0,12             -0,55                   -0,5                 -0,69
    roman                                -0,52                     0,31                    -0,46               0,69              0,27                   1,42                 -0,06
    langue orale                          0,98                    -0,56                     -0,3               2,02              0,41                   2,76                  3,07
    journal-entretien                    -0,26                    -1,11                     2,17              -1,31             -1,01                  -0,66                 -0,79
    journal-culture;média;science        -0,16                    -0,87                     0,04              -1,43             -0,73                  -0,79                 -0,56
    journal-éditorial                    -0,26                     1,56                    -0,83               0,57             -0,19                  -0,14                 -0,79
    journal-sports;people                 0,31                    -0,48                     1,06              -1,08             -0,64                  -0,74                 -0,56
    journal-politique;société;économie   -0,11                    -0,87                    -0,04              -0,85             -0,55                  -0,72                 -0,79

3Nous avons présenté la définition du z-score dans l’annexe 2.
4 Par exemple, le taux d’occurrences des nominaux est de 493,6 dans les contes pour
enfants et de 581,2 dans Twitter. On enregistre ainsi une différence de 87,6. Elle semble
supérieure à celle entre le taux des verbes émotionnels qui est de 5,4 dans les contes et de
2,6 dans Twitter, soit une différence de 2,8. Mais si on transforme le taux d’occurrences en
z-score, on obtient pour les nominaux un taux de -1,28 dans les contes et de -0,37 dans
Twitter, face à un taux de 2,18 pour les verbes émotionnels dans les contes et de -0,42 dans
Twitter. C’est ainsi que la différence (2,60) pour les verbes émotionnels est encore plus
grande que celle (0,90) pour les nominaux (0,91) Grâce aux z-scores, nous avons découvert
que les verbes émotionnels fournissent un meilleur trait distinctif que les nominaux pour
différencier ces deux genres.

                                                                                                               Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                                                                via free access
Twitter coréen : un langage d'un genre nouveau                                                 129

    art ; loisir                      -0,42    0,83   -0,78   -0,18    -0,32     -0,51     -0,65
    sciences humaines                 -0,29    1,06   -0,72   -0,07      0,2     -0,39     -0,27
    sciences naturelles               -0,41    1,01   -0,82   -0,27    -0,69     -0,81      -0,7
    magazine                          -0,37    0,49    -0,1    0,02    -0,28      0,08     -0,22
    essai                             -0,58    0,33   -0,75    0,69    -0,28      1,16      0,59
    scénario                          -0,22   -0,77    0,62    0,54     2,94     -0,38      1,05
Nous allons examiner ces sept traits par ordre décroissant de fréquence.

3.1. La phrase composée d’un seul ôchôl non nominal
  Le trait dont le z-score de 3,81 est le plus élevé est la phrase composée d’un seul
ôchôl non nominal, comportant un ou deux mots, qu’illustrent les deux exemples
suivants5 :
      (1)     hôk !!!
              interjection
              ‘Surprenant !!!’
      (2)     oe ?
              interrogatif
              ‘Pourquoi ?’
Dans la plupart des cas, l’énoncé composé d’un seul ôchôl non nominal est une
exclamation, une interrogation ou une interaction discursive, kerae (oui), mattda
(c’est ça). Twitter est le seul genre dont le z-score est supérieur à l’écart type pour
ce trait.
                   Figure 1 : Phrase composée d'un seul ôchôl non nominal

5 La transcription de Hangul en alphabet latin se fait selon le système de
Mccune-Reischauer (Annexe 1). Le symbole « : » indique les constituants lexicaux ou
grammaticaux à l’intérieur d’un ôchôl.

                                                               Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                via free access
130                                Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

3.2. La phrase conditionnelle

  Le trait qui vient en deuxième position avec un z-score de 2,14, est la phrase
conditionnelle. Il s’agit d’énoncé composé d’une proposition conditionnelle reliée
par le suffixe conjonctif verbal –myôn (si) à la proposition dont elle dépend
syntaxiquement comme suit :
      (3)   minchutangi                   motu     chôpuntulman        kasstamyôn6
            Parti Démocratique:SUB        tous     ces messieurs       être comme:-myôn
            nuka           minchotangul                 pinanahalkkayo
            qui            Parti Démocratique:OBJ       critiquer:interrogatif
            ‘Si le Parti Démocratique était comme tous ces messieurs, qui le critiquerait ?’
La fréquence de ce trait dans Twitter rapproche ce genre de ceux de l’éditorial des
journaux, des sciences humaines et des sciences naturelles.
                               Figure 2 : Phrase conditionnelle

3.3. La phrase nominale

  Le troisième trait avec un z-score de 2,00 est la phrase nominale, c’est-à-dire,
des énoncés finissant par un mot nominal, sans prédicat verbal :

6Nous suivons Leipzig Glossing Rules pour les abréviations : SUB (particule de sujet) ;
ADJ (particule d’adjectif) ; TOP (particule thématique) ; PP (infixe de passé) ; CONN
(particule de coordination) ; DO (particule d’objet direct).

                                                                 Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                  via free access
Twitter coréen : un langage d'un genre nouveau                                             131

   (4)    oankyosu, PARK Wonsoon             hupo          chichi      hoso
          Prof. Ahn    PARK Wonsoon          candidat      support     mobilisation
          ‘Professeur Ahn : mobilisation de support pour le candidat PARK Wonsoon.’

   (5)    PARK Wonsoon hupo              ‘nalkun       kutu’oûi      chaekusông
          PARK Wonsoon candidat          vieux:ADJ chaussures:de recomposition
          ‘Recomposition des «vieilles chaussures» du candidat PARK Wonsoon.’

Ce type d’énoncés condensés enchaîne des mots le plus souvent nominaux,
pourvus d’un minimum de marques grammaticales. Il permet une forte économie
de caractères, bien adaptée aux restrictions de longueur propre à Twitter, mais il
entraîne souvent une certaine ambiguïté sémantique. Par exemple, la phrase (5),
qui ne contient aucune particule fonctionnelle peut s’interpréter comme : «PARK
Wonsoon reconstruit l’événement concernant ses fameuses vieilles chaussures» ou
«on reconstruit l’événement concernant les fameuses vieilles chaussures de PARK
Wonsoon». Ce trait est le plus saillant dans le genre des articles journalistiques de
l’entretien. Il est aussi fréquent dans le genre de l’encyclopédie.
                             Figure 3 : Phrase nominale

3.4. La mise en relief

  La mise en relief arrive en quatrième position de fréquence. L’utilisation
d’expressions emphatiques comme hwaksilhi (certainement), kkok (assurément),
chôngmalro (vraiment), a aussi la plus haute fréquence dans la langue orale, puis
dans Twitter. Par exemple :
   (6) Naeil         kkok          tangseôtoesyôsô                  chôngmalro
       demain        assurément    être élu: CONN                   vraiment
       choun         sôulul        oikkulôchusyôssumyôn             chongkessumnita
       bon:ADJ       Séoul:OBJ     diriger:infixe honorifique:      espérer:suffixe
                                   suffixe conditionnel             verbal honorifique
         ‘J’espère que demain, vous serez assurément élu pour diriger notre Séoul.’

                                                           Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                            via free access
132                             Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

                                Figure 4 : Mise en relief

3.5. La négation dans les phrases impératives ou exhortatives
   La négation dans les phrases impératives ou exhortatives présente le cinquième
z-score le plus élevé (1,57). Cette structure consiste en l’auxiliaire verbal négatif
–chi ma(l)- avec un suffixe verbal impératif ou exhortatif.
      (7) ch’icholhan sônkôk’aemp’eoinul           hachi malla
          injuste:ADJ campagne électorale:OBJ faire:-chi mal-:suffixe verbal impératif
          ‘Ne fais pas de campagne électorale injuste.’
Ce type de négation a également un z-score élevé dans les genres scénario et conte
pour enfants.
                        Figure 5 : Négation-impératif/exhortatif

                                                            Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                             via free access
Twitter coréen : un langage d'un genre nouveau                                              133

3.6. La modalité – certitude

   Des expressions indiquant un certain degré de certitude du locuteur par rapport à
un événement ou un sujet se présentent souvent dans les textes de Twitter (dont le
z-score est 1,2). Par exemple, l’expression kôt kat- (sans doute ou il me semble
que) marque une faible certitude du locuteur par rapport au contenu
propositionnel :
   (8) hwanchônhi       tarun                 tu     kaeûi        sekyerul
       complètement être différent:ADJ deux auxiliaire numéral:de monde:OBJ
       ponun            kôt katta
       voir :ADJ        kôt kat- : suffixe verbal affirmatif
       ‘Il voit sans doute deux mondes complètement différents.’
L’expression –rira (il doit inf. ou sûrement) indique une forte certitude :
   (9) oibônen       PARK Wonsooni           p’okp’ung kongkyôkul               harira
       cette fois    PARK Wonsoon:SUB        tempête:attaque:OBJ                faire:-rira
       ‘Cette fois, PARK Wonsoon doit faire une attaque furieuse.’
Ce trait se présente souvent aussi dans les genres de la langue orale, du roman et
puis de l’essai.
                            Figure 6 : modalité-certitude

3.7. Les honorifiques verbaux et nominaux
   Pour les expressions honorifiques, les marqueurs verbaux honorifiques ont un
z-score 1,16 dans Twitter. On relève des suffixes verbaux honorifiques comme -yo,
ou -nita qu’illustrent l’exemple (6) cité plus haut et l’exemple (10) ci-dessous :

                                                            Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                             via free access
134                               Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

      (10) PARK Wonsooneun sichangkamun                    oaniranun      saengkaki
           PARK Wonsoon:TOP personne digne de maire:TOP ne pas être:ADJ idée:SUB
           tultôrakuyo
           venir :PP:suffixe verbal honorifique
           ‘Il m’est apparu que PARK Wonsoon n’est pas quelqu’un digne d’être maire.’
Ou encore le suffixe auxiliaire verbal honorifique –si- comme dans l’exemple
      (11) chôt       yuse                   tongyôngsangul        tosichiyo^^7
           premier    campagne électorale    clip de vidéo:OBJ     regarder:-si-:suffixe
                                                                   verbal honorifique
           ‘Vous regardez le clip vidéo de la première campagne électorale.’

En revanche, les nominaux honorifiques comme les titres ou les termes d’adresse,
par exemple, ssi (Monsieur, Madame) ou seonsayngnim (Professeur, Monsieur,
Madame) sont attestés mais avec un z-score inférieur à 0 (le z-score de la
moyenne). Il semble ainsi que Twitter respecte à sa façon le code de la politesse.
   Les verbes honorifiques ont aussi une haute fréquence dans les genres de la
langue orale, des contes pour enfants et des scénarios.

                              Figure 7 : Verbes honorifiques

   Notre seconde remarque porte sur l’existence de 43 traits sur 56 dont la
fréquence relative est inférieure à la moyenne. Le tableau 4 ci-dessous regroupe les
six traits les moins fréquents, dont le z-score va de -2,78 (temps verbal du présent)
à -2,16 (adjectif verbalisé).

7 L’émoticone ^^ représente un sourire. Elle est très souvent utilisée dans les textes de

Twitter ou les SMS. Nous avons exclu ces signes pour une raison technique. Notre
analyseur morpho-syntaxique est incapable de les relever automatiquement.

                                                               Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                via free access
Twitter coréen : un langage d'un genre nouveau                                                                           135

       Tableau 4 : Les six traits les moins fréquents pour le langage de Twitter

                                                                                      nominalisation
                                                                                      terminaison de
                                                       d’introduction
                                      verbal-présent

                                                       de la citation

                                                                                                       connecteur

                                                                                                                    verbalisé
                                                       particule

                                                                        particule

                                                                                                       nominal

                                                                                                                    adjectif
                                                                        d'objet
                                      temps

                                                                                      -ki
 Twitter                              -2,78               -2,73         -2,71            -2,25         -2,19        -2,16
 script des journaux télévisés        -0,01                0,03         -0,04             0,32          0,81        -0,50
 manuel                                0,69               -0,54          1,40             0,62          0,06         0,15
 conte pour enfants                    0,00               -0,88          0,44            -0,65          0,02         1,42
 encyclopédie                         -0,14               -0,41          0,10             0,17         -0,33        -0,48
 sciences sociales                     0,19                0,31          0,56             1,12          1,43         0,31
 roman                                -0,31               -0,41          0,62            -0,06          0,40         1,46
 langue orale                          0,86                0,66         -1,95            -0,54         -2,39         0,03
 journal-entretien                    -0,93                0,54          0,01             0,13          0,02        -1,33
 journal-culture;média;science        -0,58                0,19          0,29            -0,31          0,66        -1,01
 journal-éditorial                     0,55               -0,15          0,31             0,93          1,17         0,19
 journal-sports;people                -0,67                0,06          0,48            -0,62          0,10        -0,97
 journal-politique;société;économie   -0,72                1,84          0,11            -0,02         -0,03        -1,24
 art ; loisir                          0,45                0,84          0,46             0,70          0,97         0,62
 sciences humaines                     0,50                0,97          0,47             0,90          0,40         0,75
 sciences naturelles                   0,47                0,21          0,27             0,67         -0,06         0,43
 magazine                              0,03                0,25          0,46             0,70          0,42         0,29
 essai                                 0,02                0,80          0,35             0,72         -0,30         1,03
 scénario                              2,40               -1,58         -1,65            -2,52         -1,17         1,00

   Les particules casuelles sont rares dans Twitter. Non seulement le z-score de la
particule d’introduction de la citation et de la particule d’objet, mais aussi celui de
toutes les autres particules casuelles se situent en dehors de l’écart type. Les
connecteurs nominaux reliant les nominaux sous forme de N wa N (N et N) sont
aussi peu fréquents. La suppression d’informations grammaticales que le
destinataire doit reconstruire en situation est une propriété représentative de l’oral
(Blanche-Benveniste et Jeanjean, 1987). Ce souci d’économie nous semble
renforcé dans le langage de Twitter par la restriction à 140 signes. Ce même
principe d’économie commande l’éviction de formes verbales fléchies indiquant
des repérages temporels, aspectuels ou des points de vue énonciatifs, aisément
récupérables en contexte. D’où un taux relativement bas de temps du présent
(-2.78), de forme progressive (-1,79) et de temps du passé (-0,87). Le temps
présent, directement branché sur le moment de l’énonciation s’avère le trait le
moins fréquent de tous. Et il est largement concurrencé par des phrases nominales,
sans marques verbales ou par des énoncés à un seul ôchôl à fonction phatique ou
interactive.
  Cette analyse de chaque trait séparément met au jour quelques-unes des
caractéristiques essentielles de Twitter. Tout d’abord, le souci d’économie y
apparaît comme un facteur dominant. Il permet de rendre compte de la fréquence
sensiblement basse des temps verbaux, des particules casuelles ou du connecteur

                                                                                    Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                                     via free access
136                              Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

nominal en même temps que de celle, élevée, des structures non verbales8. En
second lieu, certains traits nous conduisent à assimiler Twitter à la langue orale.
Par exemple, l’utilisation fréquente des expressions emphatiques, des marqueurs
verbaux honorifiques et des énoncés composés d’un seul ôchôl. Toutefois, d’autres
traits s’opposent à ce rapprochement. Ainsi, à l’oral on emploie très souvent des
pronoms, des verbes anaphoriques, des connecteurs et des adverbes. Autant de
traits qui, dans Twitter, restent en dessous de la fréquence moyenne. En troisième
lieu, les conditionnelles et les phrases nominales courantes dans Twitter sont rares
dans les genres oraux.

   Mais, pour mieux situer Twitter par rapport aux autres genres, il importe à
présent d’évaluer la contribution qu’apporte chacun de ces traits individuels à
l’identification globale des différents genres. A cet effet, il est indispensable de
recourir à une analyse globale et multidimensionnelle en examinant la distribution
fréquentielle de l’ensemble des traits corrélés à chaque genre.

4. ANALYSE DE LA DISTRIBUTION FRÉQUENTIELLE DE L’ENSEMBLE DES TRAITS
   Nous avons donc calculé la distribution fréquentielle des traits pour les 19
genres afin de repérer les traits régulièrement associés à tel ou tel genre.
Concrètement, si l’on relève la coprésence fréquente dans certains genres des traits
tels que phrase de promesse, négation raccourcie et particule informelle alors
qu’ils sont rarement attestés dans d’autres, on dira que ces traits ont une
distribution fréquentielle affine pour tel ou tel genre. La figure 8 présente la
proximité fréquentielle des différents traits :

8 Rappelons qu’en coréen, c’est le prédicat verbal final qui porte toutes les indications de
temps/aspect/modalité de l’énoncé.

                                                              Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                               via free access
Twitter coréen : un langage d'un genre nouveau                                             137

Figure 8 : Représentation arborescente de la proximité de la distribution fréquentielle
                                     des traits

Il en ressort sept groupes de traits représentant la distribution fréquentielle affine
pour les différents genres.

                                                           Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                            via free access
138                             Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

                Tableau 5 : Les sept groupes stylistiques et leurs traits
   Groupe
                                                   Trait
  stylistique
                pronom indéterminé ; suffixe conjonctif de cause/explication ; suffixe
                conjonctif de condition ; connecteur de transition de topique ; connecteur de
   Groupe 1     cause ; verbe anaphorique ; connecteur de coordination ; modalité-certitude ;
                phrase de promesse ; négation raccourcie ; particule informelle ; verbe
                honorifique ; nom honorifique
                pronom de la deuxième personne ; adjectif émotionnel ; verbe émotionnel ;
   Groupe 2     pronom de la première personne ; suffixe conjonctif de coordination ;
                adverbe ; mise en relief ; adjectif verbalisé ; temps verbal-présent ; phrase
                impérative ; ponctuation interrogative ; négation-impératif/exhortatif
   Groupe 3     temps verbal-passé ; particule de sujet ; suffixe formel
   Groupe 4     pronom de la troisième personne ; pronom anaphorique ; terminaison de
                nominalisation -um ; causatif syntaxique
   Groupe 5     modalité-nécessité ; copule ; phrase conditionnelle ; nom dépendant -kott ;
                suffixe conjonctif d'opposition ; connecteur d'opposition ; négation allongée
                terminaison de nominalisation -ki ; modalité-possibilité ; particule
   Groupe 6     possessive ; particule connective ; subordonnée adjectivale ; connecteur
                nominal ; particule d'objet
   Groupe 7     nominal ; temps verbal-progressif ; verbe impératif ; particule d’introduction
                de la citation
Chaque groupe stylistique répartit les 19 genres d’une manière différente. Dans le
premier groupe (Figure 9 ci-dessous), la langue orale vient en premier, suivie par
les genres des scénarios et des contes pour enfants. Le langage de Twitter se range
presque au milieu dans la hiérarchie (au neuvième parmi 19 genres).
                                  Figure 9 : Groupe 1

   Le deuxième groupe commence par le scénario, et puis le conte pour enfants, la
langue orale et le roman le suivent. Le langage de Twitter se présente au
quatorzième rang.

                                                                Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                                 via free access
Twitter coréen : un langage d'un genre nouveau                                           139

                                Figure 10 : Groupe 2

  Le troisième groupe stylistique place le conte pour enfants, le scénario, le roman
en premier. La langue orale le suit en quatrième position alors que le langage de
Twitter vient en dernier.
                                Figure 11 : Groupe 3

                                                         Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                          via free access
140                            Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

Ces trois groupes de traits convergent en plaçant la langue orale aux quatre
premiers rangs. On peut donc les considérer comme des traits qui définissent des
sous-catégories des genres oraux. Quant à Twitter, il se situe plutôt en bas dans
toutes ces sous-catégories de l’oral avec un z-score toujours en dessous du z-score
moyen des genres. De ce fait, il est faiblement qualifié pour être rattaché aux genres
oraux.
   Dans les groupes 4, 5, 6 et 7, la langue orale se situe en bas de l’échelle des
fréquences. Elle occupe le quinzième rang pour les groupes 4 et 7, le seizième rang
pour le groupe 5 et le dix-huitième rang pour le groupe 6. On peut donc qualifier
ces groupes faiblement représentés à l’oral comme délimitant des sous-catégories
de l’écrit.
   Les genres venant en premier dans le groupe 4 (Figure 12 ci-dessous) sont
l’art/le loisir, les sciences humaines et l’essai. Le langage de Twitter se situe juste
avant la langue orale, en quatorzième position.
                                Figure 12 : Groupe 4

  Le groupe 5 commence par l’éditorial des journaux, que suivent les sciences
humaines et les sciences sociales. Le langage de Twitter se place cette fois vers le
centre, au douzième rang.

                                                           Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                            via free access
Twitter coréen : un langage d'un genre nouveau                                           141

                                  Figure 13 : Groupe 5

  Dans le groupe 6 les sciences sociales, l’art/le loisir et l’éditorial viennent en
premier alors que le langage de Twitter vient en dernier.
                                Figure 14 : Groupe 6

                                                         Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                          via free access
142                           Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

  Le groupe 7 présente les articles journalistiques en premier. Le langage de
Twitter se classe presque en dernier, au dix-huitième rang. On en conclura donc
que Twitter est faiblement qualifié comme genre écrit.
                               Figure 15 : Groupe 7

   Somme toute, Twitter se situe pratiquement au bas de l’échelle des fréquences
dans tous les groupes stylistiques. La seule exception est le groupe 1, où il occupe
le neuvième rang. Mais la distance qui le sépare du genre le plus représentatif du
groupe est aussi significative que celle des groupes 6 et 7 où le langage de Twitter
se classe aux derniers rangs. On en conclura donc que Twitter ne fait partie d’aucun
groupe ni écrit ni oral. Pour faire mieux apparaître ce résultat, nous allons
visualiser la distribution des genres dans un espace à deux dimensions dont l’axe
vertical représente le z-score moyen des traits de l’oral et l’axe horizontal le
z-score moyen des traits de l’écrit :

                                                         Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                          via free access
Twitter coréen : un langage d'un genre nouveau                                            143

      Figure 16 : La distribution des genres dans un espace à deux dimensions

On peut ainsi constater que Twitter se trouve isolé par rapport aux autres genres.
S’il est proche de l’éditorial, des sciences sociales, des sciences naturelles et des
arts et loisirs sur l’axe de l’oral, il s’éloigne de ceux-ci sur l’axe de l’écrit.
Inversement, il est très proche de la langue orale sur l’axe de l’écrit mais il s’en
écarte sur l’axe de l’oral.

5. CONCLUSION
   Twitter est un genre particulier dans la mesure où il ne relève ni de l’oral, ni de
l’écrit. Il n’entre dans aucun groupe stylistique élaboré à partir de la distribution
fréquentielle des 56 traits retenus pour définir chaque genre. Son hétérogénéité
nous semble provenir de l’absence de traits caractéristiques de l’oral ou de l’écrit,

                                                          Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                           via free access
144                           Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

ce qui est la propriété la plus saillante que nous ayons découverte pour le langage
de Twitter.
   Nous avons également découvert que Twitter est relativement proche de certains
genres journalistiques, des scripts des journaux télévisés, des encyclopédies et des
manuels, bien que la distance des traits fréquentiels qu’ils partagent soit
relativement importante. Nous nous proposons d’éclairer la relation entre Twitter
et ces différents genres dans une prochaine étude.

BIBLIOGRAPHIE
Anis J., 2003, Communication électronique scripturale et formes langagières,
   Actes des Quatrièmes Rencontres Réseaux Humains/Réseaux Technologiques,
   Poitiers, 31 mai-1er juin 2002, Documents, Actes et Rapports sur l’Education.
   CNDP.
Biber D., 1988, Variation across Speech and Writing, Cambridge, Cambridge
   University Press.
Blanche-Benveniste Cl. et Jeanjean C., 1987, Le français parlé, Transcription et
   édition, Paris, Didier.
Dejond A., 2002, La cyberl@ngue française, Tournai, La renaissance du livre.
Gerbault J., 2007, Le langage du cyberspace : de la diversité aux normes, Paris,
   L’Harmattan.
Green S.B., Salkind N.J., 2008, Using SPSS Windows and Macintosh : analyzing
   and understanding data, Upper Saddle River, N.J., Pearson/Prentice Hall.
KANG Beomil, 2012, The study on measuring the representativeness of corpus –
   through the analysis of the distribution of linguistic features, Mémoire de
   Master, Yonsei Université.
KANG Beom-mo, KIM Hyunggyu, HUH Myung-Hoe, 1998, Analyses of Korean
   Text Types and Styles Based on Statistical Methods, Linguistics 22, Korean
   Linguistic Society, p. 3-57.
KIM Yong-Jin, 1990, Register variation in Korean a corpus-based study, thèse de
   doctorat, Southern California Université.
Liénard F., 2005, Langage texto et langage contrôlé. Description et problèmes,
   Linguisticae Investigationes 28-1, p. 49-60.
McNemar Q., 1969, Psychological Statistics, New York, Wiley & Sons.
Panckhurst R., 2007, Discours électronique médié : quelle évolution depuis une
   décennie ?, in J. Gerbault(éd), Le langage du cyberspace : de la diversité aux
   normes, Paris, L’Harmattan, p. 121-136.
Véronis J. et Guimier de Neef E., 2006, Le traitement des nouvelles formes de
   communication écrite, in G. Sabah (éd), Compréhension automatique des
   langues et interaction, Paris, Hermès Science, p. 227-248.

                                                         Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                          via free access
Twitter coréen : un langage d'un genre nouveau                                           145

Annexe 1 : Système de transcription de Mccune-Reischauer
   Consonne       Initial         Milieu         Final        Voyelle
       ㄱ             K            K,G,NG          K              ㅏ                a
       ㄴ           N, O             N, L          N              ㅑ              ya,a
       ㄷ          T, CH          T,D,CH,J          t             ㅓ                ô
       ㄹ           N,O             R,L,N          L              ㅕ              yô,ô
       ㅁ            M                M            M              ㅗ                o
       ㅂ             P             P,B,M          P              ㅛ                yo
       ㅅ           S, SH     S,SH,D,T,N,P,K’      T              ㅜ                u
       ㅇ          O, NG            O,NG          NG              ㅠ                yu
       ㅈ            CH             CH,J            t             ㅡ               û,u
       ㅊ           CH’              CH’            t             ㅣ                 I
       ㅋ            K’               K’           k              ㅐ                ae
       ㅌ         T’, CH’          T’,CH’           t             ㅒ               yae
       ㅍ            P’               P’           p              ㅔ                e
       ㅎ             H               H            o              ㅖ              ye,e
       ㄲ            KK              KK            k              ㅚ                oe
       ㄸ            TT               TT            t             ㅟ               wi,i
       ㅃ            PP              PP            p              ㅢ               ûi,i
       ㅆ            SS               SS            t             ㅘ               wa
       ㅉ           TCH             TCH             t             ㅝ               wô
                                                                 ㅙ              wae
                                                                 ㅞ               we

                                                         Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                          via free access
146                            Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim

Annexe 2 : Définitions des termes statistiques

(1) z-score
   Soit x le taux d’occurrences du trait concerné dans un genre, μ la moyenne des
taux d’occurrences du trait pour tous les genres, σ l’écart type, le z-score de x, z se
calcule par la formule suivante :

(2) fréquence
   Nous considérons qu’un trait est fréquent dans un genre si son z-score est plus
élevé que 1 (p=0,3173). Par exemple, parmi les traits les plus fréquents dans
Twitter (Tableau 3), le z-score du trait de la phrase composée d’un seul ôchôl non
nominal est 3,81(p=0,0001) et celui du verbe honorifique est 1,16 (p=0,2460).
(3) différence significative
   Nous recourons au test t à deux échantillons pour vérifier que la différence des
z-scores des genres choisis est significative. Par exemple, la différence de Twitter
et de la langue oral pour tous les genres s’est avérée significative (p=0.000059).
(4) distribution fréquentielle des traits
   Nous avons représenté le regroupement hiérarchique de la proximité de la
distribution fréquentielle des traits par un dendrogramme (Figure 8) dont la
variable est le z-score des taux d’occurrences de chaque trait pour tous les genres,
la distance étant calculée par le coefficient de corrélation de Pearson. Nous avons
procédé au regroupement par la méthode du lien complet (Complete Linkage).
Dans cette représentation arborescente, la hauteur 10, nous semble-t-il, permet de
discerner des groupes assez grands pour servir d'indicateur de genres. Parmi les
groupes ainsi obtenus, nous avons choisi ceux contenant plus de trois traits, qui
sont les sept groupes stylistiques présentés dans le Tableau 5.

                                                           Downloaded from Brill.com03/08/2020 05:28:54AM
                                                                                            via free access
Vous pouvez aussi lire