Collecte et Analyse de corpus d'apprenants par des étudiants anglicistes : l'actionnel et le réflexif en interaction - Pascale Goutéraux ...

La page est créée Mickaël Marty
 
CONTINUER À LIRE
Collecte et Analyse de corpus d'apprenants par des étudiants anglicistes : l'actionnel et le réflexif en interaction - Pascale Goutéraux ...
Collecte et Analyse de corpus d’apprenants
par des étudiants anglicistes : l’actionnel et
le réflexif en interaction

Pascale Goutéraux, CLILLAC-ARP, Université Paris-Diderot
Atelier ARDAA, SAES Lyon, 2 juin 2016
Collecte et Analyse de corpus d'apprenants par des étudiants anglicistes : l'actionnel et le réflexif en interaction - Pascale Goutéraux ...
Présentation
 Problématique et hypothèse de départ
 Le travail sur corpus dans le cadre du séminaire
  Psycholinguistics and SLA (M1) à Paris-Diderot
 Cadrage théorique: processus d’appropriation interactif
 Travailler sur des corpus natifs
 Utiliser et construire des corpus d’apprenants: les enjeux
 Etude sur 4 ans: résultats et work-in-progress
 Conclusion
Questionnements
 Problématique: Dans quelle mesure l’analyse, la collecte,
  et la présentation de corpus d’apprenants par des
  anglicistes avancés (niveau C1 du CECRL) contribue-t-elle
  à améliorer leurs compétences cognitives et langagières ?
 Hypothèse de départ: la construction et l’analyse de
  corpus favorise l’apprentissage en complétant le processus
  hypothético-déductif dominant (cours magistraux, exposés
  par des étudiants) par un processus inductif personnalisé
  qui favorise l’émergence de la réflexion à partir de
  données langagières authentiques (démarche maïeutique,
  Bailly, 1998)
Séminaire Psycholinguistics and SLA (2012 - 2015)

                                 Les acteurs
 Par année, 25 à 30 étudiants (linguistique anglaise ou générale, littérature,
  civilisation, Master Aspect ENS Cachan, traduction littéraire, joint Master, Erasmus
  et Master MEEF ou enseignement)
 Néophytes: pas ou peu de travail sur corpus et analyse statistique (2/27 en 2015-16)

                         Le contenu du séminaire
 Thématiques psycholinguistiques: bilinguisme et multilinguisme, appropriation L1 et
  L2, complexité, exactitude et fluidité (Ellis & Barkhuisen, 2005, Housen & Kuiken,
  2009), interlangue, transfert et interférence, techniques de conscientisation et
  Focus-on-Form.
 Workshop: familiarisation avec des corpus natifs et non-natifs existants et quelques
  outils (Wordsmith, Antconc, Textstats, etc.) et des méthodes d’analyse simples:
  concordances, mots-clés, listes de fréquences, Type-Token Ratio, réflexion sur les
  paramètres pour choisir ou construire des corpus
Organisation des travaux personnels sur corpus

 Les consignes de tâche privilégient la dimension collaborative (binôme)
  pour susciter un étayage mutuel des compétences langagières,
  technologiques et statistiques.
 Les étudiants présentent en anglais aux participants du séminaire leur
  méthodologie, résultats et analyse qui s’appuie sur des lectures théoriques,
  à l’aide d’un Powerpoint
 puis ils répondent aux réactions et questions
 Les présentations Powerpoint mises à jour par leurs auteurs sont publiées sur
  la partie cours en ligne du séminaire.
 Certains étudiants préfèrent une présentation individuelle ou rendre un
  travail écrit sur corpus (travail parfois chronophage, intérêts divergents, lien
  avec le mémoire, etc.)
Critères d’évaluation des présentations orales

 Powerpoint Presentation (visibility)
 Content/structure of the presentation
 Relevance of the choice of corpus (corpora)
 Quantitative or qualitative treatment of the data
 Problems and solutions, explanations or results.
 Spoken proficiency (accuracy and fluency)
 Communicative stance and ability to answer questions
Cadrage théorique: interaction inductive et déductive dans
       les processus d’apprentissage

 L1: modèle interactif ascendant et descendant avec boucles rétroactives entre les schémas
  ou scripts de haut niveau et les unités ou micro-savoirs de bas niveau dans la construction de
  savoirs déclaratifs et procéduraux.
 L2: la situation d’apprentissage (en milieu institutionnel) modifie les paramètres de l’acquisition
  spontanée où les règles procédurales implicites gouvernent la communication.
 La démarche inductive nécessite l’association à des fonctionnements explicites, de la règle ou
  du concept à l’exemple (Meunier, 2002). Grâce aux savoirs explicites transmis par l’enseignant
  ou des pairs plus experts l’apprenant confronte les régulations qu’il a construites aux règles de
  la langue naturelle (Bresson, 1970).
 Démarche heuristique depuis les années 1970 en France (Aden, Bailly, Cain, Chini, Deyrich,
  Goutéraux, Moulin, Voise, etc.): faire réfléchir les apprenants sur des questions linguistiques et
  interculturelles à partir de textes et d’exemples authentiques.
 Limites d’une conscientisation qualitative: difficile de dégager des régularités systématiques et
  de différencier invariables et variations à partir d’un petit nombre d’exemples, de textes, d’
  enregistrements vidéo et audio.
Pourquoi utiliser des corpus natifs en acquisition de
   Langue étrangère?

 Les corpus électroniques natifs (COCA, BNC, MICASE) oraux ou écrits: une
  composante essentielle de la recherche sur l’acquisition et l’apprentissage des
  langues étrangères
 Dictionnaires (English Oxford Dictionary) et grammaires (Longman Grammar of
  Spoken and Written English, 1999) d’inspiration pragmatique et empirique,
  privilégient les données authentiques issues de corpus langagiers.
 Une approche inductive de l’apprentissage se fonde sur l’analyse de données
  (Data-Driven Learning Approach)
 Il s’agit de compléter les méthodes scolaires par de multiples exemples
  authentiques pour une analyse linguistique ciblée: grammaire et phonologie
  mais aussi les expressions idiomatiques et collocations souvent dispersées dans
  les manuels.
 Favoriser l’accès des apprenants à des corpus langagiers électroniques
  authentiques permet de dépasser le clivage entre acquisition en milieu naturel
  et apprentissage en milieu scolaire (Meunier, Annual Review of Applied
  Linguistics, 2012)
Pourquoi utiliser des corpus d’apprenants?
 Des corpus comme le Longman Learner Corpus pour élaborer des dictionnaires
  ciblant les difficultés communes aux apprenants d’anglais (Longman Dictionary of
  Contemporary English, Cambridge International Dictionary of English, le Longman
  Dictionary of Common Errors).
 Granger et collègues ont développé le concept de Contrastive Interlanguage
  Analysis (CIA, 1996) afin de comparer le traitement de phénomènes linguistiques
  (syntaxe, grammaire, idiomatismes, collocations) à partir de corpus électroniques
  natifs et non-natifs et entre non-natifs de langues maternelles diverses.
 L’usage de grands corpus d’apprenants permet de différencier les erreurs qui
  relèvent d’idiosyncrasies personnelles, les erreurs communes aux apprenants de
  l’anglais LE, et celles qui relèvent de l’interférence avec une langue maternelle
  spécifique.
 Il favorise un fonctionnement cognitif interactif et une collecte rapide et ciblée des
  données pour explorer une problématique linguistique, psycholinguistique, ou
  sociolinguistique.
Quelques corpus d’apprenants existants

 ICLE (3 millions de mots) The International Corpus of Learner English: essais
  d’apprenants d’anglais de langues maternelles multiples.

 LINDSEI (1 million de mots) (Louvain International Database of Spoken
  English Interlanguage), ; transcriptions de conversations informelles
  d’apprenants d’anglais de 11 langues maternelles différentes.

 DIDEROT-LONGDALE (500 000 mots), corpus longitudinal interviews et
  conversations, enregistrements et transcriptions sur 3 ans d’étudiants
  français apprenants d’anglais (non publié)

 FLLOC (French Learner Language Oral Corpora): enregistrements et
  transcriptions de conversations d’élèves et étudiants anglophones
  apprenant le français
42 présentations (62 étudiants, 20 binômes)

 21 corpus conversationnels, 21
  corpus écrits
 Multiplicité de LM
 Facteurs de choix des corpus
•   Intérêt pour un domaine: analyse
    d’erreurs, exactitude
    grammaticale, lexique,
    alternance codique, marques
    discursives, dysfluence.
•   Intérêt pratique, mémoire (en
    linguistique), formation (MEEF-
    ENS)
•    problèmes d’Iidentité linguistique
    (bilingues et multilingues)
Fonctionnement cognitif: top-down, bottom-
up ou interactif?

  En général choix de la              Parfois les deux fonctionnent
   problématique premier                simultanément
  ‘We chose our topic before          Nous avons trouvé notre 1
   selecting our corpus (phrasal        « public cible », à savoir les
   verbs) as it poses a problem for     étudiants en informatique et
   second language learners. Since      notre problématique est venue
   we are in the Master MEEF            en même temps (on s’est
   program we wanted to apply           demandé tout de suite pourquoi
   what we learned to our teaching      ils faisaient des anglicismes).
   practices ‘
  (questionnaires 2015)
Exemples de thématiques en 2015-16

 Spoken Discourse Markers in L2 Written Productions (ICLE)
 Phrasal & Prepositional Verbs (look) in ICLE (multiple L1)
 Error Analysis in L2 Reading Aloud (oral corpus, French Learners)
 Phonological Errors in the Diderot-Longdale Corpus (French Learners)
 Metaphors, Emotion and Language Acquisition (Emphiline-Longdale, native and
  non-native speakers)
 Code-switching by Young Bilinguals (existing corpora)
 Anglicisms in Computer Science Specialists’ Speech (original corpus, French
  English)
 Lexical Code-mixing (interviews Mechanical Engineering students (English)
 L1 Interference in L2 Mental Lexicon Acquisition (Italian-English)
 Recurrent Errors in English Learning (Written Lessons, 5ème, 3ème)
Choix de Corpus: existants ou construits ?
Les corpus personnels (14)

 14 étudiants décident de prendre en main toutes les étapes:
  conception, collecte, analyse et présentation Powerpoint
 Conséquences: pour les corpus oraux, le nombre de sujets enregistrés
  est limité (de six à une douzaine), le corpus personnel est transversal et
  se prête à une analyse qualitative.
 Corpus écrits (20 à 30 productions): Les supports sont des tests
  grammaticaux, essais, histoires et traces écrites. On trouve surtout des
  productions d’élèves du secondaire (Master MEEF, retour de stage
  CIEP), un corpus de chats, deux corpus d’essais et d’histoires écrites
  par des étudiants.
Erreurs en trace écrite (5ème)
Traces écrites
Analyse d’erreurs sur 30 tests (Seconde, lycée
professionnel): Intrusive –ING

    ‘Students tend to add the –ING ending to every verb:
    * « it scaring me »
    * « are you ok for watching this film? »
    * « I want always watching »
      This can be explained by the overuse of –ING ending in English language.
      Students know the importance of this structure and tend to overuse it, even
      when it is not necessary.
      They don’t get the difference in meaning between the raw form of the
      verb and its structure in –ING.’
Articles in use: 20 essays B2 level students

 Contrary to Master’s (1997) findings:
 The is underused (28%) just as much as it is overused (28%)
But…
 As expected, ∅ is more overused (30%) than a (11%)
 56% of errors concerned the misuse of the, which is unusual, given
  that it is used in much the same way in French.
Etudiants L1 arabe ou kabyle, français L2 et anglais L3):
20
      Storytelling

                  Conclusions de la présentatrice
      Being myself a native speaker of Arabic and native-like
       speaker of French, I was able to perceive and pinpoint the
       errors due to L1 (Arabic) and L2 (French)
      The L3 learners also make use of L2 words in their L3
       production if the L2 and L3 are related and have a number
       of common cognates ( which is the case here: French and
       English)
      we can say that 1st year University Algerian students did
       commit most of the semantic errors because of a negative
       language transfer; however, which is most striking that their
       biggest number of transfer errors is due to L2 (French)
       interference and not the mother tongue i.e. Arabic.
Transfert sémantique (Arabe, Français, Anglais)
21

     Lexical errors:
      One day my friend asked about Valentine day. ‫في يوم من‬
       ‫ سالني احد اصدقائي‬,‫االيام‬
      This is the first time I write one of my stories on a sheet.
      C’est la première fois que j’ écris une histoire sur papier.
      She couldn’t aspirate.
      Elle pouvait pas respirer.
      She fell ill.
      Elle est tombée malade.
      It was my black point in my life.
      C’ était un point noir .
Etudiante trilingue (tamoul, français et anglais):
   transfert phonologique L1-L3
‘Participants were 12 young people (40% boys, 60% girls) who live in France and
speak French as a first language. The other native language is Tamil. All the participants
attended a French school since the age of three.
Each subject was asked to read a paragraph written in English which uses common English
words, but contains a variety of difficult English sounds. t’s an extract from the speech of Martin
Luther King « I have a dream ». Each subject is recorded individually in a quiet room. Subjects
were allowed to look at the paragraph for a minute before reading […]

[présentation des résultats et analyse d’erreurs: phonemes, r rhotique, etc.
]
‘Conclusion: we have seen that accents can vary greatly among people of the same origin.
Therefore, we can say that accent is not only a matter of first or native language. Many factors
should be considered, such as studies, the frequency of the use of the native language... Here,
we find one person speaking English with an accent very close to a Standard British (Received
Pronunciation) accent. It’s the case of the student in English. The others lean toward a more
'vernacular', native-tinted, accent for their English speech.
Tamil and Hindi are actually syllable-timed languages, therefore participants are more
tempted to speak with a syllabic rhythm’[…]’
Extrait Interview, transcription & analyse

 Questionnaire (12 étudiants
  non spécialistes)               (euh)   I spend a lot of time (euh)
                                  studying first at the beginning I did
 Describe your life at the ENS   that but now (euh) I'm more and
 Please tell us about your       more spending time with (euh) (euh)
  academic experience (past)      (euh) (euh) group (euh) I don't how
  before the ENS                  to stay I forgot my word (euh) it's
                                  (euh) spending time with friends and
 What is the topic of your       (euh) doing my best to (euh) make
  research or what will be ?      (euh) every (euh) association (no?)
 Where do you see yourself in    (euh) like (euh) lives (euh) doing
  ten years ?                     their best so it means (euh) that I'm
                                  in the BDE so it's  how to say
                                  it (euh) it took me so much time now
 Analyse en termes               and at first it was really good but
  d’idiomaticité et de            now (euh) I feel it more and more
                                  (euh) heavily on my... shoulders... so
  fluidité                        it's kind of complicated but I love my
                                  life here...
Motivation: Les corpus personnels

 J’’ai adoré le travail de terrain,    ‘La motivation venait aussi du
  et travailler sur un corpus que        fait que c’était quelque chose
  l’on a construit est très              que je n’avais jamais fait et
  motivant car c’est le nôtre. De        enregistrer le langage en train
  plus, connaître les personnes          de se construire pour pouvoir y
  interviewées était très                travailler dessus, et dès
  motivant car on se devait de           l’enregistrement prendre
  faire quelque chose de bien            conscience des analyses que
  pour leur montrer qu’ils               l’on va pouvoir mener à
  n’avaient pas donné de leur            quelque chose de magique !’
  temps pour rien.’
Utilisations de corpus électroniques
 ICLE (11), LONGDALE (10) FFLOC (2) LINDSEI (1)
 Comparaison avec des corpus Natifs (7) (BNC, MICASE, COCA,
  LOCNESS et LOCNEC)
 Les étudiants ont utilisé des outils de fouille et d’analyse comme
  WordSmith, Antconc, Praat, Texstat ou lancé des requêtes
  grammaticales
 Ces outils et corpus, sont à disposition des étudiants dans le cadre
  du séminaire, installés au centre de ressources en langues ou
  téléchargeables depuis le cours en ligne
 Utilisation d’outils simples, requêtes, concordanciers, mots-clés,
  pourcentages et Type-Token Ratio, ou analyses statistiques plus
  sophistiquées
ICLE Spanish Learners /BNC: modaux en essais argumentatifs

           Modals         ICLE             BNC
  Can                            30%               26%
  Would                          18%               23%
  Will                           17%              10%
  Should                         11%              10%
  Could                          10%              11%
  Must                            9%               4%
  May                             5%              13%
  Might                           1%               3%
Marqueurs discursifs oraux natifs et non-natifs:
                      Réflexion sur les Paramètres

 NATIVE SPEAKER CORPUS               NON-NATIVE SPEAKER CORPUS
  LOCNEC                               LINDSEI
 English speakers from: England,     French speakers from: Belgium,
  Lancaster University                 Université Catholique de Louvain
 Interviews, tasks: set topic and    50 interviews, tasks: set topic, free
  free discussion                      discussion and picture description
 country, experience, films          country, experience, films
 A and B turns                       B turns
 161724 words                        91552 words
Methodology : Speech Markers in Lindsei et Locnec

 ‘Finding the key words in both corpora (WordSmith Tools)
 Selection of the most frequent inserts (non-exhaustive)
 Defining the category (like, well, right, you know…)
 Calculation of the normalized frequency (%)
 Comparing the results
 Calculating the ratio
 Log likelihood calculator (significant frequency)
       P
Phrasal Verbs: Look dans ICLE (démarche)

 « Les français font toujours beaucoup de fautes avec les phrasal
  verbs, nous avons trouvé intéressant d’en étudier quelques uns (look
  for, after, etc.)
  Puis, nous nous sommes dirigées vers ICLE pour parcourir les corpus
  et illustrer notre étude. Nous voulions des erreurs qui ne soient pas
  seulement faites par des français ».
 « Nous ne savions pas très bien comment nous y prendre. Prendre
  en main ICLE fut un peu laborieux. Le corpus nous a permis de
  diriger notre analyse, de la conduire au mieux ». (questionnaire
  2015)
Phrasal Verbs: look dans ICLE (LM multiples)

   ‘Search parameters
    All native languages

    Argumentative essays

    Occurrences of phrasal & prepositional verbs
      look forward to
      look down on
      look through
      look after
      look for, etc.’
Processus top down: le Powerpoint comme outil
   de structuration et de réflexion

 ‘You have to be able to summarize your ideas in a concise, succinct manner
  (which only works if you have a clear grasp on your analysis and what you
  would like to get across to your audience.’
 ‘Oui, sinon il aurait fallu que je lise mes notes intégralement.’
 ‘Cela a permis d’avoir un plan clair, de sélectionner les éléments les plus
  importants, d’avoir une approche didactique.’
 ‘le Powerpoint nous oblige à rendre visible la substantifique moelle de notre
  pensée, ce qui n’est pas vraiment le même travail que lors d’un oral sans
  Powerpoint. Je trouve le Powerpoint contraignant mais c’est un bon support
  lors d’un oral et cela permet surtout aux auditeurs de bien suivre,
  auditivement et visuellement, ce qui est démontré.’
 ‘Il permet de ne pas se perdre dans sa réflexion. Les différentes slides nous
  servent de notes , à nous rappeler où nous en sommes dans notre explication
  et réflexion.’
La motivation: confluence action et recul réflexif

   ‘Cela change de l’exposé type que         ‘It was a very interesting project
    nous faisons à l’université.               from the beginning research stage
    Commenter les erreurs faites par           to the analysis to the final
    des non-native speakers of English         presentation (MEEF).’
    fut très enrichissant (MEEF).’
                                              ‘Je n’avais jamais fait un travail
   ‘Grâce à ce travail, je me suis            pratique comme cela et ça a été
    rendu compte que j’aime bien               intéressant de me confronter avec
    travailler avec les corpus                 cette nouvelle méthodologie
    d’apprenants, de voir quel genre           (English Literature).
    d’erreurs qu’ils font et d’essayer de
                                              ‘Surtout car nous avons nous-même
    réfléchir sur les raisons derrière ces
                                               réalisé notre corpus, donc c’était
    erreurs (Linguistique).’
                                               motivant de se mettre dans la peau
                                               d’un chercheur/enquêteur (ENS).’
Conclusion: utilité du travail sur corpus?

 Développer la motivation pour une recherche praxéologique : maîtres de leur
  sujet et problématique, les étudiants choisissent leur corpus, utilisent les outils de
  traitement des données en fonction du sujet, du corpus et de leurs
  compétences
 Favoriser le développement de compétences langagières orales (production)
  et lexicales-(terminologie psycholinguistique et linguistique, structures et
  collocations du discours académique.
 Faire prendre conscience d’une démarche interactive dans tout processus
  d’appropriation.
 Entamer une construction positive de leurs représentations identitaires en tant
  que locuteurs bilingues, trilingues et apprenants d’une langue étrangère.
 Limites: Le temps (12 semaines, 24h) donc beaucoup de travail personnel, la
  frustration parfois (ne pas pouvoir faire aboutir la recherche), le manque de
  connaissance procédurale des outils, la concurrence avec les autres travaux
  de M1 (cognitive overload).
Références (une sélection)

 Bailly, Danielle (1998) Les Mots de la Didactique des langues: le cas de l’anglais,
  Ophrys, Paris
 Ellis, Rod & Barkhuizen, Gary (2005), Analysing Learner Language, OUP, Oxford-
  New York.
 Granger S. (1996a) From CA to CIA and back: An integrated approach to
  computerized bilingual and learner corpora. In Aijmer K., Altenberg B. and
  Johansson M. (eds) Languages in Contrast. Text-based cross-linguistic studies.
  Lund Studies in English 88. Lund: Lund University Press, 37-51.
 Housen, Alex & Kuiken, Folkert (2009), Complexity, Accuracy and Fluency in
  Second Language Acquisition, Applied Linguistics 30/4,
 Meunier, Fanny (2002), The Pedagogical Value of Native and Learner Corpora, In
  Granger, S. et al, Computer Learner Corpora, Second Language Acquisition and
  Foreign Language Teaching, Benjamins, Amsterdam, 119-131.
 Meunier, Fanny (2012) Formulaic Language and Language Teaching, In Paquot,
  M. and Granger, S., Annual Review of Applied Linguistics (2012), 32, 111–129.
 Learner Corpus Association : http://www.learnercorpusassociation.org/
Vous pouvez aussi lire