Twitter coréen : un langage d'un genre nouveau - Brill
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Twitter coréen : un langage d'un genre nouveau Hyunjung SON*, Jae Yun LEE **, Beomil KANG* & Ha-Soo KIM* 1. INTRODUCTION Nous nous proposons dans le présent article d’étudier le langage de Twitter coréen. Ce nouveau média social, ou microblogage, repose, comme celui de Facebook, sur le modèle dit «many-to-many». A la différence des journaux ou des émissions télévisées, ces messages passent du public au public en utilisant les plateformes d’internet ou le téléphone mobile dont l’accessibilité est quasiment libre pour tout le monde. Concrètement, plus de huit millions de Coréens ont utilisé les services de Twitter ou Facebook en 2012. Pourquoi s’intéresser à ce genre de communication ? Tout d’abord, parce que d’un point de vue linguistique, il s’agit d’échanges verbaux difficiles à classer. Au premier abord, il paraît évident qu’on a affaire à des textes qui définissent des rôles de scripteur et de destinataire et sont soumis à une contrainte de longueur. Ils sont en effet limités à 140 signes. On serait donc tenté de les rattacher à des échanges écrits plutôt qu’oraux. Pourtant, certaines études comme celles de Liénard (2005), Panckhurst (2007), Véronis et de Neef (2006) soulignent la présence de caractéristiques propres à l’oral : abréviations, ellipses, répétitions, procédés phonétiques, recours à des symboles iconiques représentant une émotion ou un geste, qui figurent des interactions non verbales courantes dans les échanges conversationnels. Ces difficultés ont soit entraîné une profusion parasitaire d’appellations néologiques comme «parlécrit» (Anis 2003), «langage contrôlé» (Liénard 2006), «cyberlangue» (A. Dejond 2002) ; soit encore suscité de violentes polémiques autour de leur caractère trop émotionnel, trop direct et trop personnel ou, à l’inverse, trop planifié, trop allusif ou trop public. Il est donc temps de dépasser ces intuitions et ces partis-pris en procédant à une analyse objective du langage des réseaux sociaux de façon à situer ce nouveau genre par rapport à d’autres mieux documentés. Nous procéderons en trois temps. Tout d’abord nous présenterons le corpus que nous avons élaboré pour cette étude. Puis nous expliciterons les traits retenus pour caractériser Twitter. Enfin, nous analyserons nos résultats en les confrontant aux 18 genres établis par l’Institut National de la Langue Coréenne à partir de leur Corpus du coréen standard. Pour donner à l’avance nos conclusions, cette étude à * ILIS-Yonsei Université, HK research group ** Myongji Université Ce travail a été soutenu par la Fondation Nationale de la Recherche de Corée, subvention financée par le gouvernement coréen (NRF-2009-361-A00027). Downloaded from Brill.com03/08/2020 05:28:54AM via free access
126 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim fondement statistique montrera que Twitter n’appartient ni à l’écrit ni à l’oral, mais qu’il constitue un genre inédit qu’il est possible de situer aux côtés des genres classiques. 2. CONSTRUCTION D’UN CORPUS TWITTER Le corpus que nous avons construit en vue de l’observation du langage de Twitter consiste en 678 199 textes de Twitter coréens, qui ont été postés au cours du mois d’octobre de l’année 2011, à l’occasion de l’élection du maire de Séoul. Nous avons extrait tous les textes comportant une ou plusieurs occurrences du nom ou d’un des surnoms du seul candidat du parti de l’opposition PARK Wonsoon. En procédant de la sorte, nous avons pu éviter les textes où le nom du candidat au pouvoir apparaissait à propos de divers sujets sans rapport avec l’élection du maire et donc hors de notre champ d’investigation. Puis, nous avons converti ce texte en 16 904 995 blocs graphiques ou ôchôls1, que nous avons soumis à une analyse morpho-syntaxique au moyen de l’analyseur automatique UTagger2, et nous avons appliqué à ce corpus la classification des genres conçue par KANG Beomil (2012). Ce chercheur a adapté au coréen le système de traits linguistiques proposé par Biber dans Variation across speech and writing (1988) et celui élaboré par KIM Yong-Jin (1990) et KANG Beom-mo et alii. (1998). Nous avons ainsi utilisé un ensemble de 56 traits, – pronoms, temps verbaux, modalités, particules casuelles, suffixes fonctionnels, verbes émotionnels, connecteurs, verbes honorifiques, négation raccourcie/allongée, etc. – qui comprennent 2 166 marqueurs. Grâce à ces traits, nous avons élaboré une figure générale des différents genres y compris le langage de Twitter. Le tableau 1 ci-dessous en dresse la liste : Tableau 1 : Les 56 traits linguistiques indicateurs de genre Nom de trait Nom de trait T1 phrase composée d'un seul ôchôl non nominal T29 phrase exhortative T2 phrase conditionnelle T30 phrase de promesse T3 phrase nominale T31 nom dépendant –kott T4 mise en relief T32 pronom de la troisième personne T5 négation-impératif/exhortatif T33 phrase impérative T6 modalité-certitude T34 temps verbal-passé T7 verbe honorifique T35 adverbe T8 ponctuation interrogative T36 connecteur de cause T9 négation raccourcie T37 particule connective T10 adjectif émotionnel T38 suffixe conjonctif d'opposition T11 question indirecte T39 passif lexical 1 L’ôchôl est l’unité graphique du coréen bornée par un blanc typographique. Ce bloc graphique se compose soit d’un seul mot, soit de plusieurs suivant un ensemble de conventions. Par exemple, un ôchôl peut être constitué de : nom + particule, nom déterminant + nom déterminé, verbes + affixes + particules conjonctives ou finales, etc. 2 http://nlplab.ulsan.ac.kr/ Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 127 T12 suffixe conjonctif de condition T40 causatif lexical T13 copule T41 particule possessive T14 particule informelle T42 négation allongée T15 terminaison de nominalisation -um T43 particule de sujet T16 modalité-nécessité T44 modalité-possibilité T17 nom honorifique T45 causatif syntaxique T18 suffixe conjonctif de cause ; explication T46 connecteur d'opposition T19 pronom anaphorique T47 connecteur de coordination T20 pronom de la première personne T48 temps verbal-progressif T21 verbe anaphorique T49 subordonnée adjectivale T22 pronom de la deuxième personne T50 suffixe conjonctif de coordination T23 nominal T51 adjectif verbalisé T24 verbe émotionnel T52 connecteur nominal T25 verbe impératif T53 terminaison de nominalisation -ki T26 pronom indéterminé T54 particule d'objet T27 connecteur de transition de topique T55 particule d’introduction de la citation T28 suffixe formel T56 temps verbal-présent Afin de caractériser le langage de Twitter de manière comparative, nous avons également utilisé le Corpus du Coréen Standard construit par l’Institut National de la Langue Coréenne. Ce corpus rassemble un large échantillon de textes, comptant 3 millions d’ôchôls, classés manuellement en 18 genres : langue orale, scripts des journaux télévisés, scénarios, romans, manuels scolaires, articles de magazines, articles journalistiques des rubriques politiques, culturelles, scientifiques, des faits divers, éditoriaux, etc. Nous avons soumis ce corpus à la même analyse morpho-syntaxique et au même traitement statistique que le langage de Twitter. Nous avons ainsi construit un corpus de 19 genres linguistiques incluant le langage de Twitter. Nous les présentons dans le tableau suivant : Tableau 2 : Les 19 genres traités Nom de genre Nom de genre G1 Twitter G11 journal-éditorial G2 script des journaux télévisés G12 journal-sports;people G3 manuel G13 journal-politique; société; économie G4 conte pour enfants G14 art;loisir G5 encyclopédie G15 sciences humaines G6 sciences sociales G16 sciences naturelles G7 roman G17 magazine G8 langue orale G18 essai G9 journal-entretien G19 scénario G10 journal-culture;média;science Sur ce corpus de 19 genres, nous avons calculé les taux d’occurrences des 56 traits linguistiques pour 1 000 ôchôls. Et, afin de représenter correctement la Downloaded from Brill.com03/08/2020 05:28:54AM via free access
128 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim fréquence de chaque trait, nous avons remplacé le taux d’occurrences par le z-score3. Cette fréquence «normalisée», qui se calcule à partir de la moyenne et l’écart type, permet aux items ayant des métriques différentes d’être ramenés à une métrique commune, qui autorise une analyse comparative (Green et Salkind 2008 ; McNemar 1969)4. Après avoir calculé le z-score de tous les traits pour ces 19 genres, nous avons procédé à une analyse fréquentielle de chaque trait, ce qui a mis au jour des fréquences de traits propres à Twitter. 3. ANALYSE FRÉQUENTIELLE DES TRAITS DE TWITTER Le premier résultat remarquable que fait apparaître cette analyse des fréquences est que Twitter se caractérise par un ensemble de sept traits, d’une fréquence plus élevée par rapport aux autres traits (le z-score > 1 (le z-score de l’écart type)), comme le montre le tableau 3, ci-dessous : Tableau 3 : Les traits les plus fréquents dans Twitter seul ôchôl non nominal phrase composée d'un phrase conditionnelle impératif/exhortatif modalité-certitude verbe honorifique phrase nominale mise en relief négation- Twitter 3,81 2,14 2 1,61 1,57 1,2 1,16 script des journaux télévisés -0,4 -0,95 -0,73 -0,53 -0,69 -0,41 0,07 manuel 0,36 -0,35 -0,81 -0,7 -0,53 -0,39 -0,28 conte pour enfants -0,56 -0,66 -0,64 1,47 1,52 0,8 1,11 encyclopédie -0,64 -1,5 1,59 -1,05 -0,46 -0,99 -0,68 sciences sociales -0,23 0,38 -0,53 -0,12 -0,55 -0,5 -0,69 roman -0,52 0,31 -0,46 0,69 0,27 1,42 -0,06 langue orale 0,98 -0,56 -0,3 2,02 0,41 2,76 3,07 journal-entretien -0,26 -1,11 2,17 -1,31 -1,01 -0,66 -0,79 journal-culture;média;science -0,16 -0,87 0,04 -1,43 -0,73 -0,79 -0,56 journal-éditorial -0,26 1,56 -0,83 0,57 -0,19 -0,14 -0,79 journal-sports;people 0,31 -0,48 1,06 -1,08 -0,64 -0,74 -0,56 journal-politique;société;économie -0,11 -0,87 -0,04 -0,85 -0,55 -0,72 -0,79 3Nous avons présenté la définition du z-score dans l’annexe 2. 4 Par exemple, le taux d’occurrences des nominaux est de 493,6 dans les contes pour enfants et de 581,2 dans Twitter. On enregistre ainsi une différence de 87,6. Elle semble supérieure à celle entre le taux des verbes émotionnels qui est de 5,4 dans les contes et de 2,6 dans Twitter, soit une différence de 2,8. Mais si on transforme le taux d’occurrences en z-score, on obtient pour les nominaux un taux de -1,28 dans les contes et de -0,37 dans Twitter, face à un taux de 2,18 pour les verbes émotionnels dans les contes et de -0,42 dans Twitter. C’est ainsi que la différence (2,60) pour les verbes émotionnels est encore plus grande que celle (0,90) pour les nominaux (0,91) Grâce aux z-scores, nous avons découvert que les verbes émotionnels fournissent un meilleur trait distinctif que les nominaux pour différencier ces deux genres. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 129 art ; loisir -0,42 0,83 -0,78 -0,18 -0,32 -0,51 -0,65 sciences humaines -0,29 1,06 -0,72 -0,07 0,2 -0,39 -0,27 sciences naturelles -0,41 1,01 -0,82 -0,27 -0,69 -0,81 -0,7 magazine -0,37 0,49 -0,1 0,02 -0,28 0,08 -0,22 essai -0,58 0,33 -0,75 0,69 -0,28 1,16 0,59 scénario -0,22 -0,77 0,62 0,54 2,94 -0,38 1,05 Nous allons examiner ces sept traits par ordre décroissant de fréquence. 3.1. La phrase composée d’un seul ôchôl non nominal Le trait dont le z-score de 3,81 est le plus élevé est la phrase composée d’un seul ôchôl non nominal, comportant un ou deux mots, qu’illustrent les deux exemples suivants5 : (1) hôk !!! interjection ‘Surprenant !!!’ (2) oe ? interrogatif ‘Pourquoi ?’ Dans la plupart des cas, l’énoncé composé d’un seul ôchôl non nominal est une exclamation, une interrogation ou une interaction discursive, kerae (oui), mattda (c’est ça). Twitter est le seul genre dont le z-score est supérieur à l’écart type pour ce trait. Figure 1 : Phrase composée d'un seul ôchôl non nominal 5 La transcription de Hangul en alphabet latin se fait selon le système de Mccune-Reischauer (Annexe 1). Le symbole « : » indique les constituants lexicaux ou grammaticaux à l’intérieur d’un ôchôl. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
130 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim 3.2. La phrase conditionnelle Le trait qui vient en deuxième position avec un z-score de 2,14, est la phrase conditionnelle. Il s’agit d’énoncé composé d’une proposition conditionnelle reliée par le suffixe conjonctif verbal –myôn (si) à la proposition dont elle dépend syntaxiquement comme suit : (3) minchutangi motu chôpuntulman kasstamyôn6 Parti Démocratique:SUB tous ces messieurs être comme:-myôn nuka minchotangul pinanahalkkayo qui Parti Démocratique:OBJ critiquer:interrogatif ‘Si le Parti Démocratique était comme tous ces messieurs, qui le critiquerait ?’ La fréquence de ce trait dans Twitter rapproche ce genre de ceux de l’éditorial des journaux, des sciences humaines et des sciences naturelles. Figure 2 : Phrase conditionnelle 3.3. La phrase nominale Le troisième trait avec un z-score de 2,00 est la phrase nominale, c’est-à-dire, des énoncés finissant par un mot nominal, sans prédicat verbal : 6Nous suivons Leipzig Glossing Rules pour les abréviations : SUB (particule de sujet) ; ADJ (particule d’adjectif) ; TOP (particule thématique) ; PP (infixe de passé) ; CONN (particule de coordination) ; DO (particule d’objet direct). Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 131 (4) oankyosu, PARK Wonsoon hupo chichi hoso Prof. Ahn PARK Wonsoon candidat support mobilisation ‘Professeur Ahn : mobilisation de support pour le candidat PARK Wonsoon.’ (5) PARK Wonsoon hupo ‘nalkun kutu’oûi chaekusông PARK Wonsoon candidat vieux:ADJ chaussures:de recomposition ‘Recomposition des «vieilles chaussures» du candidat PARK Wonsoon.’ Ce type d’énoncés condensés enchaîne des mots le plus souvent nominaux, pourvus d’un minimum de marques grammaticales. Il permet une forte économie de caractères, bien adaptée aux restrictions de longueur propre à Twitter, mais il entraîne souvent une certaine ambiguïté sémantique. Par exemple, la phrase (5), qui ne contient aucune particule fonctionnelle peut s’interpréter comme : «PARK Wonsoon reconstruit l’événement concernant ses fameuses vieilles chaussures» ou «on reconstruit l’événement concernant les fameuses vieilles chaussures de PARK Wonsoon». Ce trait est le plus saillant dans le genre des articles journalistiques de l’entretien. Il est aussi fréquent dans le genre de l’encyclopédie. Figure 3 : Phrase nominale 3.4. La mise en relief La mise en relief arrive en quatrième position de fréquence. L’utilisation d’expressions emphatiques comme hwaksilhi (certainement), kkok (assurément), chôngmalro (vraiment), a aussi la plus haute fréquence dans la langue orale, puis dans Twitter. Par exemple : (6) Naeil kkok tangseôtoesyôsô chôngmalro demain assurément être élu: CONN vraiment choun sôulul oikkulôchusyôssumyôn chongkessumnita bon:ADJ Séoul:OBJ diriger:infixe honorifique: espérer:suffixe suffixe conditionnel verbal honorifique ‘J’espère que demain, vous serez assurément élu pour diriger notre Séoul.’ Downloaded from Brill.com03/08/2020 05:28:54AM via free access
132 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim Figure 4 : Mise en relief 3.5. La négation dans les phrases impératives ou exhortatives La négation dans les phrases impératives ou exhortatives présente le cinquième z-score le plus élevé (1,57). Cette structure consiste en l’auxiliaire verbal négatif –chi ma(l)- avec un suffixe verbal impératif ou exhortatif. (7) ch’icholhan sônkôk’aemp’eoinul hachi malla injuste:ADJ campagne électorale:OBJ faire:-chi mal-:suffixe verbal impératif ‘Ne fais pas de campagne électorale injuste.’ Ce type de négation a également un z-score élevé dans les genres scénario et conte pour enfants. Figure 5 : Négation-impératif/exhortatif Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 133 3.6. La modalité – certitude Des expressions indiquant un certain degré de certitude du locuteur par rapport à un événement ou un sujet se présentent souvent dans les textes de Twitter (dont le z-score est 1,2). Par exemple, l’expression kôt kat- (sans doute ou il me semble que) marque une faible certitude du locuteur par rapport au contenu propositionnel : (8) hwanchônhi tarun tu kaeûi sekyerul complètement être différent:ADJ deux auxiliaire numéral:de monde:OBJ ponun kôt katta voir :ADJ kôt kat- : suffixe verbal affirmatif ‘Il voit sans doute deux mondes complètement différents.’ L’expression –rira (il doit inf. ou sûrement) indique une forte certitude : (9) oibônen PARK Wonsooni p’okp’ung kongkyôkul harira cette fois PARK Wonsoon:SUB tempête:attaque:OBJ faire:-rira ‘Cette fois, PARK Wonsoon doit faire une attaque furieuse.’ Ce trait se présente souvent aussi dans les genres de la langue orale, du roman et puis de l’essai. Figure 6 : modalité-certitude 3.7. Les honorifiques verbaux et nominaux Pour les expressions honorifiques, les marqueurs verbaux honorifiques ont un z-score 1,16 dans Twitter. On relève des suffixes verbaux honorifiques comme -yo, ou -nita qu’illustrent l’exemple (6) cité plus haut et l’exemple (10) ci-dessous : Downloaded from Brill.com03/08/2020 05:28:54AM via free access
134 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim (10) PARK Wonsooneun sichangkamun oaniranun saengkaki PARK Wonsoon:TOP personne digne de maire:TOP ne pas être:ADJ idée:SUB tultôrakuyo venir :PP:suffixe verbal honorifique ‘Il m’est apparu que PARK Wonsoon n’est pas quelqu’un digne d’être maire.’ Ou encore le suffixe auxiliaire verbal honorifique –si- comme dans l’exemple (11) chôt yuse tongyôngsangul tosichiyo^^7 premier campagne électorale clip de vidéo:OBJ regarder:-si-:suffixe verbal honorifique ‘Vous regardez le clip vidéo de la première campagne électorale.’ En revanche, les nominaux honorifiques comme les titres ou les termes d’adresse, par exemple, ssi (Monsieur, Madame) ou seonsayngnim (Professeur, Monsieur, Madame) sont attestés mais avec un z-score inférieur à 0 (le z-score de la moyenne). Il semble ainsi que Twitter respecte à sa façon le code de la politesse. Les verbes honorifiques ont aussi une haute fréquence dans les genres de la langue orale, des contes pour enfants et des scénarios. Figure 7 : Verbes honorifiques Notre seconde remarque porte sur l’existence de 43 traits sur 56 dont la fréquence relative est inférieure à la moyenne. Le tableau 4 ci-dessous regroupe les six traits les moins fréquents, dont le z-score va de -2,78 (temps verbal du présent) à -2,16 (adjectif verbalisé). 7 L’émoticone ^^ représente un sourire. Elle est très souvent utilisée dans les textes de Twitter ou les SMS. Nous avons exclu ces signes pour une raison technique. Notre analyseur morpho-syntaxique est incapable de les relever automatiquement. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 135 Tableau 4 : Les six traits les moins fréquents pour le langage de Twitter nominalisation terminaison de d’introduction verbal-présent de la citation connecteur verbalisé particule particule nominal adjectif d'objet temps -ki Twitter -2,78 -2,73 -2,71 -2,25 -2,19 -2,16 script des journaux télévisés -0,01 0,03 -0,04 0,32 0,81 -0,50 manuel 0,69 -0,54 1,40 0,62 0,06 0,15 conte pour enfants 0,00 -0,88 0,44 -0,65 0,02 1,42 encyclopédie -0,14 -0,41 0,10 0,17 -0,33 -0,48 sciences sociales 0,19 0,31 0,56 1,12 1,43 0,31 roman -0,31 -0,41 0,62 -0,06 0,40 1,46 langue orale 0,86 0,66 -1,95 -0,54 -2,39 0,03 journal-entretien -0,93 0,54 0,01 0,13 0,02 -1,33 journal-culture;média;science -0,58 0,19 0,29 -0,31 0,66 -1,01 journal-éditorial 0,55 -0,15 0,31 0,93 1,17 0,19 journal-sports;people -0,67 0,06 0,48 -0,62 0,10 -0,97 journal-politique;société;économie -0,72 1,84 0,11 -0,02 -0,03 -1,24 art ; loisir 0,45 0,84 0,46 0,70 0,97 0,62 sciences humaines 0,50 0,97 0,47 0,90 0,40 0,75 sciences naturelles 0,47 0,21 0,27 0,67 -0,06 0,43 magazine 0,03 0,25 0,46 0,70 0,42 0,29 essai 0,02 0,80 0,35 0,72 -0,30 1,03 scénario 2,40 -1,58 -1,65 -2,52 -1,17 1,00 Les particules casuelles sont rares dans Twitter. Non seulement le z-score de la particule d’introduction de la citation et de la particule d’objet, mais aussi celui de toutes les autres particules casuelles se situent en dehors de l’écart type. Les connecteurs nominaux reliant les nominaux sous forme de N wa N (N et N) sont aussi peu fréquents. La suppression d’informations grammaticales que le destinataire doit reconstruire en situation est une propriété représentative de l’oral (Blanche-Benveniste et Jeanjean, 1987). Ce souci d’économie nous semble renforcé dans le langage de Twitter par la restriction à 140 signes. Ce même principe d’économie commande l’éviction de formes verbales fléchies indiquant des repérages temporels, aspectuels ou des points de vue énonciatifs, aisément récupérables en contexte. D’où un taux relativement bas de temps du présent (-2.78), de forme progressive (-1,79) et de temps du passé (-0,87). Le temps présent, directement branché sur le moment de l’énonciation s’avère le trait le moins fréquent de tous. Et il est largement concurrencé par des phrases nominales, sans marques verbales ou par des énoncés à un seul ôchôl à fonction phatique ou interactive. Cette analyse de chaque trait séparément met au jour quelques-unes des caractéristiques essentielles de Twitter. Tout d’abord, le souci d’économie y apparaît comme un facteur dominant. Il permet de rendre compte de la fréquence sensiblement basse des temps verbaux, des particules casuelles ou du connecteur Downloaded from Brill.com03/08/2020 05:28:54AM via free access
136 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim nominal en même temps que de celle, élevée, des structures non verbales8. En second lieu, certains traits nous conduisent à assimiler Twitter à la langue orale. Par exemple, l’utilisation fréquente des expressions emphatiques, des marqueurs verbaux honorifiques et des énoncés composés d’un seul ôchôl. Toutefois, d’autres traits s’opposent à ce rapprochement. Ainsi, à l’oral on emploie très souvent des pronoms, des verbes anaphoriques, des connecteurs et des adverbes. Autant de traits qui, dans Twitter, restent en dessous de la fréquence moyenne. En troisième lieu, les conditionnelles et les phrases nominales courantes dans Twitter sont rares dans les genres oraux. Mais, pour mieux situer Twitter par rapport aux autres genres, il importe à présent d’évaluer la contribution qu’apporte chacun de ces traits individuels à l’identification globale des différents genres. A cet effet, il est indispensable de recourir à une analyse globale et multidimensionnelle en examinant la distribution fréquentielle de l’ensemble des traits corrélés à chaque genre. 4. ANALYSE DE LA DISTRIBUTION FRÉQUENTIELLE DE L’ENSEMBLE DES TRAITS Nous avons donc calculé la distribution fréquentielle des traits pour les 19 genres afin de repérer les traits régulièrement associés à tel ou tel genre. Concrètement, si l’on relève la coprésence fréquente dans certains genres des traits tels que phrase de promesse, négation raccourcie et particule informelle alors qu’ils sont rarement attestés dans d’autres, on dira que ces traits ont une distribution fréquentielle affine pour tel ou tel genre. La figure 8 présente la proximité fréquentielle des différents traits : 8 Rappelons qu’en coréen, c’est le prédicat verbal final qui porte toutes les indications de temps/aspect/modalité de l’énoncé. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 137 Figure 8 : Représentation arborescente de la proximité de la distribution fréquentielle des traits Il en ressort sept groupes de traits représentant la distribution fréquentielle affine pour les différents genres. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
138 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim Tableau 5 : Les sept groupes stylistiques et leurs traits Groupe Trait stylistique pronom indéterminé ; suffixe conjonctif de cause/explication ; suffixe conjonctif de condition ; connecteur de transition de topique ; connecteur de Groupe 1 cause ; verbe anaphorique ; connecteur de coordination ; modalité-certitude ; phrase de promesse ; négation raccourcie ; particule informelle ; verbe honorifique ; nom honorifique pronom de la deuxième personne ; adjectif émotionnel ; verbe émotionnel ; Groupe 2 pronom de la première personne ; suffixe conjonctif de coordination ; adverbe ; mise en relief ; adjectif verbalisé ; temps verbal-présent ; phrase impérative ; ponctuation interrogative ; négation-impératif/exhortatif Groupe 3 temps verbal-passé ; particule de sujet ; suffixe formel Groupe 4 pronom de la troisième personne ; pronom anaphorique ; terminaison de nominalisation -um ; causatif syntaxique Groupe 5 modalité-nécessité ; copule ; phrase conditionnelle ; nom dépendant -kott ; suffixe conjonctif d'opposition ; connecteur d'opposition ; négation allongée terminaison de nominalisation -ki ; modalité-possibilité ; particule Groupe 6 possessive ; particule connective ; subordonnée adjectivale ; connecteur nominal ; particule d'objet Groupe 7 nominal ; temps verbal-progressif ; verbe impératif ; particule d’introduction de la citation Chaque groupe stylistique répartit les 19 genres d’une manière différente. Dans le premier groupe (Figure 9 ci-dessous), la langue orale vient en premier, suivie par les genres des scénarios et des contes pour enfants. Le langage de Twitter se range presque au milieu dans la hiérarchie (au neuvième parmi 19 genres). Figure 9 : Groupe 1 Le deuxième groupe commence par le scénario, et puis le conte pour enfants, la langue orale et le roman le suivent. Le langage de Twitter se présente au quatorzième rang. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 139 Figure 10 : Groupe 2 Le troisième groupe stylistique place le conte pour enfants, le scénario, le roman en premier. La langue orale le suit en quatrième position alors que le langage de Twitter vient en dernier. Figure 11 : Groupe 3 Downloaded from Brill.com03/08/2020 05:28:54AM via free access
140 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim Ces trois groupes de traits convergent en plaçant la langue orale aux quatre premiers rangs. On peut donc les considérer comme des traits qui définissent des sous-catégories des genres oraux. Quant à Twitter, il se situe plutôt en bas dans toutes ces sous-catégories de l’oral avec un z-score toujours en dessous du z-score moyen des genres. De ce fait, il est faiblement qualifié pour être rattaché aux genres oraux. Dans les groupes 4, 5, 6 et 7, la langue orale se situe en bas de l’échelle des fréquences. Elle occupe le quinzième rang pour les groupes 4 et 7, le seizième rang pour le groupe 5 et le dix-huitième rang pour le groupe 6. On peut donc qualifier ces groupes faiblement représentés à l’oral comme délimitant des sous-catégories de l’écrit. Les genres venant en premier dans le groupe 4 (Figure 12 ci-dessous) sont l’art/le loisir, les sciences humaines et l’essai. Le langage de Twitter se situe juste avant la langue orale, en quatorzième position. Figure 12 : Groupe 4 Le groupe 5 commence par l’éditorial des journaux, que suivent les sciences humaines et les sciences sociales. Le langage de Twitter se place cette fois vers le centre, au douzième rang. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 141 Figure 13 : Groupe 5 Dans le groupe 6 les sciences sociales, l’art/le loisir et l’éditorial viennent en premier alors que le langage de Twitter vient en dernier. Figure 14 : Groupe 6 Downloaded from Brill.com03/08/2020 05:28:54AM via free access
142 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim Le groupe 7 présente les articles journalistiques en premier. Le langage de Twitter se classe presque en dernier, au dix-huitième rang. On en conclura donc que Twitter est faiblement qualifié comme genre écrit. Figure 15 : Groupe 7 Somme toute, Twitter se situe pratiquement au bas de l’échelle des fréquences dans tous les groupes stylistiques. La seule exception est le groupe 1, où il occupe le neuvième rang. Mais la distance qui le sépare du genre le plus représentatif du groupe est aussi significative que celle des groupes 6 et 7 où le langage de Twitter se classe aux derniers rangs. On en conclura donc que Twitter ne fait partie d’aucun groupe ni écrit ni oral. Pour faire mieux apparaître ce résultat, nous allons visualiser la distribution des genres dans un espace à deux dimensions dont l’axe vertical représente le z-score moyen des traits de l’oral et l’axe horizontal le z-score moyen des traits de l’écrit : Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 143 Figure 16 : La distribution des genres dans un espace à deux dimensions On peut ainsi constater que Twitter se trouve isolé par rapport aux autres genres. S’il est proche de l’éditorial, des sciences sociales, des sciences naturelles et des arts et loisirs sur l’axe de l’oral, il s’éloigne de ceux-ci sur l’axe de l’écrit. Inversement, il est très proche de la langue orale sur l’axe de l’écrit mais il s’en écarte sur l’axe de l’oral. 5. CONCLUSION Twitter est un genre particulier dans la mesure où il ne relève ni de l’oral, ni de l’écrit. Il n’entre dans aucun groupe stylistique élaboré à partir de la distribution fréquentielle des 56 traits retenus pour définir chaque genre. Son hétérogénéité nous semble provenir de l’absence de traits caractéristiques de l’oral ou de l’écrit, Downloaded from Brill.com03/08/2020 05:28:54AM via free access
144 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim ce qui est la propriété la plus saillante que nous ayons découverte pour le langage de Twitter. Nous avons également découvert que Twitter est relativement proche de certains genres journalistiques, des scripts des journaux télévisés, des encyclopédies et des manuels, bien que la distance des traits fréquentiels qu’ils partagent soit relativement importante. Nous nous proposons d’éclairer la relation entre Twitter et ces différents genres dans une prochaine étude. BIBLIOGRAPHIE Anis J., 2003, Communication électronique scripturale et formes langagières, Actes des Quatrièmes Rencontres Réseaux Humains/Réseaux Technologiques, Poitiers, 31 mai-1er juin 2002, Documents, Actes et Rapports sur l’Education. CNDP. Biber D., 1988, Variation across Speech and Writing, Cambridge, Cambridge University Press. Blanche-Benveniste Cl. et Jeanjean C., 1987, Le français parlé, Transcription et édition, Paris, Didier. Dejond A., 2002, La cyberl@ngue française, Tournai, La renaissance du livre. Gerbault J., 2007, Le langage du cyberspace : de la diversité aux normes, Paris, L’Harmattan. Green S.B., Salkind N.J., 2008, Using SPSS Windows and Macintosh : analyzing and understanding data, Upper Saddle River, N.J., Pearson/Prentice Hall. KANG Beomil, 2012, The study on measuring the representativeness of corpus – through the analysis of the distribution of linguistic features, Mémoire de Master, Yonsei Université. KANG Beom-mo, KIM Hyunggyu, HUH Myung-Hoe, 1998, Analyses of Korean Text Types and Styles Based on Statistical Methods, Linguistics 22, Korean Linguistic Society, p. 3-57. KIM Yong-Jin, 1990, Register variation in Korean a corpus-based study, thèse de doctorat, Southern California Université. Liénard F., 2005, Langage texto et langage contrôlé. Description et problèmes, Linguisticae Investigationes 28-1, p. 49-60. McNemar Q., 1969, Psychological Statistics, New York, Wiley & Sons. Panckhurst R., 2007, Discours électronique médié : quelle évolution depuis une décennie ?, in J. Gerbault(éd), Le langage du cyberspace : de la diversité aux normes, Paris, L’Harmattan, p. 121-136. Véronis J. et Guimier de Neef E., 2006, Le traitement des nouvelles formes de communication écrite, in G. Sabah (éd), Compréhension automatique des langues et interaction, Paris, Hermès Science, p. 227-248. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Twitter coréen : un langage d'un genre nouveau 145 Annexe 1 : Système de transcription de Mccune-Reischauer Consonne Initial Milieu Final Voyelle ㄱ K K,G,NG K ㅏ a ㄴ N, O N, L N ㅑ ya,a ㄷ T, CH T,D,CH,J t ㅓ ô ㄹ N,O R,L,N L ㅕ yô,ô ㅁ M M M ㅗ o ㅂ P P,B,M P ㅛ yo ㅅ S, SH S,SH,D,T,N,P,K’ T ㅜ u ㅇ O, NG O,NG NG ㅠ yu ㅈ CH CH,J t ㅡ û,u ㅊ CH’ CH’ t ㅣ I ㅋ K’ K’ k ㅐ ae ㅌ T’, CH’ T’,CH’ t ㅒ yae ㅍ P’ P’ p ㅔ e ㅎ H H o ㅖ ye,e ㄲ KK KK k ㅚ oe ㄸ TT TT t ㅟ wi,i ㅃ PP PP p ㅢ ûi,i ㅆ SS SS t ㅘ wa ㅉ TCH TCH t ㅝ wô ㅙ wae ㅞ we Downloaded from Brill.com03/08/2020 05:28:54AM via free access
146 Hyunjung Son, Jae Yun Lee, Beomil Kang & Ha-Soo Kim Annexe 2 : Définitions des termes statistiques (1) z-score Soit x le taux d’occurrences du trait concerné dans un genre, μ la moyenne des taux d’occurrences du trait pour tous les genres, σ l’écart type, le z-score de x, z se calcule par la formule suivante : (2) fréquence Nous considérons qu’un trait est fréquent dans un genre si son z-score est plus élevé que 1 (p=0,3173). Par exemple, parmi les traits les plus fréquents dans Twitter (Tableau 3), le z-score du trait de la phrase composée d’un seul ôchôl non nominal est 3,81(p=0,0001) et celui du verbe honorifique est 1,16 (p=0,2460). (3) différence significative Nous recourons au test t à deux échantillons pour vérifier que la différence des z-scores des genres choisis est significative. Par exemple, la différence de Twitter et de la langue oral pour tous les genres s’est avérée significative (p=0.000059). (4) distribution fréquentielle des traits Nous avons représenté le regroupement hiérarchique de la proximité de la distribution fréquentielle des traits par un dendrogramme (Figure 8) dont la variable est le z-score des taux d’occurrences de chaque trait pour tous les genres, la distance étant calculée par le coefficient de corrélation de Pearson. Nous avons procédé au regroupement par la méthode du lien complet (Complete Linkage). Dans cette représentation arborescente, la hauteur 10, nous semble-t-il, permet de discerner des groupes assez grands pour servir d'indicateur de genres. Parmi les groupes ainsi obtenus, nous avons choisi ceux contenant plus de trois traits, qui sont les sept groupes stylistiques présentés dans le Tableau 5. Downloaded from Brill.com03/08/2020 05:28:54AM via free access
Vous pouvez aussi lire