Collecte et Analyse de corpus d'apprenants par des étudiants anglicistes : l'actionnel et le réflexif en interaction - Pascale Goutéraux ...
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Collecte et Analyse de corpus d’apprenants par des étudiants anglicistes : l’actionnel et le réflexif en interaction Pascale Goutéraux, CLILLAC-ARP, Université Paris-Diderot Atelier ARDAA, SAES Lyon, 2 juin 2016
Présentation Problématique et hypothèse de départ Le travail sur corpus dans le cadre du séminaire Psycholinguistics and SLA (M1) à Paris-Diderot Cadrage théorique: processus d’appropriation interactif Travailler sur des corpus natifs Utiliser et construire des corpus d’apprenants: les enjeux Etude sur 4 ans: résultats et work-in-progress Conclusion
Questionnements Problématique: Dans quelle mesure l’analyse, la collecte, et la présentation de corpus d’apprenants par des anglicistes avancés (niveau C1 du CECRL) contribue-t-elle à améliorer leurs compétences cognitives et langagières ? Hypothèse de départ: la construction et l’analyse de corpus favorise l’apprentissage en complétant le processus hypothético-déductif dominant (cours magistraux, exposés par des étudiants) par un processus inductif personnalisé qui favorise l’émergence de la réflexion à partir de données langagières authentiques (démarche maïeutique, Bailly, 1998)
Séminaire Psycholinguistics and SLA (2012 - 2015) Les acteurs Par année, 25 à 30 étudiants (linguistique anglaise ou générale, littérature, civilisation, Master Aspect ENS Cachan, traduction littéraire, joint Master, Erasmus et Master MEEF ou enseignement) Néophytes: pas ou peu de travail sur corpus et analyse statistique (2/27 en 2015-16) Le contenu du séminaire Thématiques psycholinguistiques: bilinguisme et multilinguisme, appropriation L1 et L2, complexité, exactitude et fluidité (Ellis & Barkhuisen, 2005, Housen & Kuiken, 2009), interlangue, transfert et interférence, techniques de conscientisation et Focus-on-Form. Workshop: familiarisation avec des corpus natifs et non-natifs existants et quelques outils (Wordsmith, Antconc, Textstats, etc.) et des méthodes d’analyse simples: concordances, mots-clés, listes de fréquences, Type-Token Ratio, réflexion sur les paramètres pour choisir ou construire des corpus
Organisation des travaux personnels sur corpus Les consignes de tâche privilégient la dimension collaborative (binôme) pour susciter un étayage mutuel des compétences langagières, technologiques et statistiques. Les étudiants présentent en anglais aux participants du séminaire leur méthodologie, résultats et analyse qui s’appuie sur des lectures théoriques, à l’aide d’un Powerpoint puis ils répondent aux réactions et questions Les présentations Powerpoint mises à jour par leurs auteurs sont publiées sur la partie cours en ligne du séminaire. Certains étudiants préfèrent une présentation individuelle ou rendre un travail écrit sur corpus (travail parfois chronophage, intérêts divergents, lien avec le mémoire, etc.)
Critères d’évaluation des présentations orales Powerpoint Presentation (visibility) Content/structure of the presentation Relevance of the choice of corpus (corpora) Quantitative or qualitative treatment of the data Problems and solutions, explanations or results. Spoken proficiency (accuracy and fluency) Communicative stance and ability to answer questions
Cadrage théorique: interaction inductive et déductive dans les processus d’apprentissage L1: modèle interactif ascendant et descendant avec boucles rétroactives entre les schémas ou scripts de haut niveau et les unités ou micro-savoirs de bas niveau dans la construction de savoirs déclaratifs et procéduraux. L2: la situation d’apprentissage (en milieu institutionnel) modifie les paramètres de l’acquisition spontanée où les règles procédurales implicites gouvernent la communication. La démarche inductive nécessite l’association à des fonctionnements explicites, de la règle ou du concept à l’exemple (Meunier, 2002). Grâce aux savoirs explicites transmis par l’enseignant ou des pairs plus experts l’apprenant confronte les régulations qu’il a construites aux règles de la langue naturelle (Bresson, 1970). Démarche heuristique depuis les années 1970 en France (Aden, Bailly, Cain, Chini, Deyrich, Goutéraux, Moulin, Voise, etc.): faire réfléchir les apprenants sur des questions linguistiques et interculturelles à partir de textes et d’exemples authentiques. Limites d’une conscientisation qualitative: difficile de dégager des régularités systématiques et de différencier invariables et variations à partir d’un petit nombre d’exemples, de textes, d’ enregistrements vidéo et audio.
Pourquoi utiliser des corpus natifs en acquisition de Langue étrangère? Les corpus électroniques natifs (COCA, BNC, MICASE) oraux ou écrits: une composante essentielle de la recherche sur l’acquisition et l’apprentissage des langues étrangères Dictionnaires (English Oxford Dictionary) et grammaires (Longman Grammar of Spoken and Written English, 1999) d’inspiration pragmatique et empirique, privilégient les données authentiques issues de corpus langagiers. Une approche inductive de l’apprentissage se fonde sur l’analyse de données (Data-Driven Learning Approach) Il s’agit de compléter les méthodes scolaires par de multiples exemples authentiques pour une analyse linguistique ciblée: grammaire et phonologie mais aussi les expressions idiomatiques et collocations souvent dispersées dans les manuels. Favoriser l’accès des apprenants à des corpus langagiers électroniques authentiques permet de dépasser le clivage entre acquisition en milieu naturel et apprentissage en milieu scolaire (Meunier, Annual Review of Applied Linguistics, 2012)
Pourquoi utiliser des corpus d’apprenants? Des corpus comme le Longman Learner Corpus pour élaborer des dictionnaires ciblant les difficultés communes aux apprenants d’anglais (Longman Dictionary of Contemporary English, Cambridge International Dictionary of English, le Longman Dictionary of Common Errors). Granger et collègues ont développé le concept de Contrastive Interlanguage Analysis (CIA, 1996) afin de comparer le traitement de phénomènes linguistiques (syntaxe, grammaire, idiomatismes, collocations) à partir de corpus électroniques natifs et non-natifs et entre non-natifs de langues maternelles diverses. L’usage de grands corpus d’apprenants permet de différencier les erreurs qui relèvent d’idiosyncrasies personnelles, les erreurs communes aux apprenants de l’anglais LE, et celles qui relèvent de l’interférence avec une langue maternelle spécifique. Il favorise un fonctionnement cognitif interactif et une collecte rapide et ciblée des données pour explorer une problématique linguistique, psycholinguistique, ou sociolinguistique.
Quelques corpus d’apprenants existants ICLE (3 millions de mots) The International Corpus of Learner English: essais d’apprenants d’anglais de langues maternelles multiples. LINDSEI (1 million de mots) (Louvain International Database of Spoken English Interlanguage), ; transcriptions de conversations informelles d’apprenants d’anglais de 11 langues maternelles différentes. DIDEROT-LONGDALE (500 000 mots), corpus longitudinal interviews et conversations, enregistrements et transcriptions sur 3 ans d’étudiants français apprenants d’anglais (non publié) FLLOC (French Learner Language Oral Corpora): enregistrements et transcriptions de conversations d’élèves et étudiants anglophones apprenant le français
42 présentations (62 étudiants, 20 binômes) 21 corpus conversationnels, 21 corpus écrits Multiplicité de LM Facteurs de choix des corpus • Intérêt pour un domaine: analyse d’erreurs, exactitude grammaticale, lexique, alternance codique, marques discursives, dysfluence. • Intérêt pratique, mémoire (en linguistique), formation (MEEF- ENS) • problèmes d’Iidentité linguistique (bilingues et multilingues)
Fonctionnement cognitif: top-down, bottom- up ou interactif? En général choix de la Parfois les deux fonctionnent problématique premier simultanément ‘We chose our topic before Nous avons trouvé notre 1 selecting our corpus (phrasal « public cible », à savoir les verbs) as it poses a problem for étudiants en informatique et second language learners. Since notre problématique est venue we are in the Master MEEF en même temps (on s’est program we wanted to apply demandé tout de suite pourquoi what we learned to our teaching ils faisaient des anglicismes). practices ‘ (questionnaires 2015)
Exemples de thématiques en 2015-16 Spoken Discourse Markers in L2 Written Productions (ICLE) Phrasal & Prepositional Verbs (look) in ICLE (multiple L1) Error Analysis in L2 Reading Aloud (oral corpus, French Learners) Phonological Errors in the Diderot-Longdale Corpus (French Learners) Metaphors, Emotion and Language Acquisition (Emphiline-Longdale, native and non-native speakers) Code-switching by Young Bilinguals (existing corpora) Anglicisms in Computer Science Specialists’ Speech (original corpus, French English) Lexical Code-mixing (interviews Mechanical Engineering students (English) L1 Interference in L2 Mental Lexicon Acquisition (Italian-English) Recurrent Errors in English Learning (Written Lessons, 5ème, 3ème)
Choix de Corpus: existants ou construits ?
Les corpus personnels (14) 14 étudiants décident de prendre en main toutes les étapes: conception, collecte, analyse et présentation Powerpoint Conséquences: pour les corpus oraux, le nombre de sujets enregistrés est limité (de six à une douzaine), le corpus personnel est transversal et se prête à une analyse qualitative. Corpus écrits (20 à 30 productions): Les supports sont des tests grammaticaux, essais, histoires et traces écrites. On trouve surtout des productions d’élèves du secondaire (Master MEEF, retour de stage CIEP), un corpus de chats, deux corpus d’essais et d’histoires écrites par des étudiants.
Erreurs en trace écrite (5ème)
Traces écrites
Analyse d’erreurs sur 30 tests (Seconde, lycée professionnel): Intrusive –ING ‘Students tend to add the –ING ending to every verb: * « it scaring me » * « are you ok for watching this film? » * « I want always watching » This can be explained by the overuse of –ING ending in English language. Students know the importance of this structure and tend to overuse it, even when it is not necessary. They don’t get the difference in meaning between the raw form of the verb and its structure in –ING.’
Articles in use: 20 essays B2 level students Contrary to Master’s (1997) findings: The is underused (28%) just as much as it is overused (28%) But… As expected, ∅ is more overused (30%) than a (11%) 56% of errors concerned the misuse of the, which is unusual, given that it is used in much the same way in French.
Etudiants L1 arabe ou kabyle, français L2 et anglais L3): 20 Storytelling Conclusions de la présentatrice Being myself a native speaker of Arabic and native-like speaker of French, I was able to perceive and pinpoint the errors due to L1 (Arabic) and L2 (French) The L3 learners also make use of L2 words in their L3 production if the L2 and L3 are related and have a number of common cognates ( which is the case here: French and English) we can say that 1st year University Algerian students did commit most of the semantic errors because of a negative language transfer; however, which is most striking that their biggest number of transfer errors is due to L2 (French) interference and not the mother tongue i.e. Arabic.
Transfert sémantique (Arabe, Français, Anglais) 21 Lexical errors: One day my friend asked about Valentine day. في يوم من سالني احد اصدقائي,االيام This is the first time I write one of my stories on a sheet. C’est la première fois que j’ écris une histoire sur papier. She couldn’t aspirate. Elle pouvait pas respirer. She fell ill. Elle est tombée malade. It was my black point in my life. C’ était un point noir .
Etudiante trilingue (tamoul, français et anglais): transfert phonologique L1-L3 ‘Participants were 12 young people (40% boys, 60% girls) who live in France and speak French as a first language. The other native language is Tamil. All the participants attended a French school since the age of three. Each subject was asked to read a paragraph written in English which uses common English words, but contains a variety of difficult English sounds. t’s an extract from the speech of Martin Luther King « I have a dream ». Each subject is recorded individually in a quiet room. Subjects were allowed to look at the paragraph for a minute before reading […] [présentation des résultats et analyse d’erreurs: phonemes, r rhotique, etc. ] ‘Conclusion: we have seen that accents can vary greatly among people of the same origin. Therefore, we can say that accent is not only a matter of first or native language. Many factors should be considered, such as studies, the frequency of the use of the native language... Here, we find one person speaking English with an accent very close to a Standard British (Received Pronunciation) accent. It’s the case of the student in English. The others lean toward a more 'vernacular', native-tinted, accent for their English speech. Tamil and Hindi are actually syllable-timed languages, therefore participants are more tempted to speak with a syllabic rhythm’[…]’
Extrait Interview, transcription & analyse Questionnaire (12 étudiants non spécialistes) (euh) I spend a lot of time (euh) studying first at the beginning I did Describe your life at the ENS that but now (euh) I'm more and Please tell us about your more spending time with (euh) (euh) academic experience (past) (euh) (euh) group (euh) I don't how before the ENS to stay I forgot my word (euh) it's (euh) spending time with friends and What is the topic of your (euh) doing my best to (euh) make research or what will be ? (euh) every (euh) association (no?) Where do you see yourself in (euh) like (euh) lives (euh) doing ten years ? their best so it means (euh) that I'm in the BDE so it's how to say it (euh) it took me so much time now Analyse en termes and at first it was really good but d’idiomaticité et de now (euh) I feel it more and more (euh) heavily on my... shoulders... so fluidité it's kind of complicated but I love my life here...
Motivation: Les corpus personnels J’’ai adoré le travail de terrain, ‘La motivation venait aussi du et travailler sur un corpus que fait que c’était quelque chose l’on a construit est très que je n’avais jamais fait et motivant car c’est le nôtre. De enregistrer le langage en train plus, connaître les personnes de se construire pour pouvoir y interviewées était très travailler dessus, et dès motivant car on se devait de l’enregistrement prendre faire quelque chose de bien conscience des analyses que pour leur montrer qu’ils l’on va pouvoir mener à n’avaient pas donné de leur quelque chose de magique !’ temps pour rien.’
Utilisations de corpus électroniques ICLE (11), LONGDALE (10) FFLOC (2) LINDSEI (1) Comparaison avec des corpus Natifs (7) (BNC, MICASE, COCA, LOCNESS et LOCNEC) Les étudiants ont utilisé des outils de fouille et d’analyse comme WordSmith, Antconc, Praat, Texstat ou lancé des requêtes grammaticales Ces outils et corpus, sont à disposition des étudiants dans le cadre du séminaire, installés au centre de ressources en langues ou téléchargeables depuis le cours en ligne Utilisation d’outils simples, requêtes, concordanciers, mots-clés, pourcentages et Type-Token Ratio, ou analyses statistiques plus sophistiquées
ICLE Spanish Learners /BNC: modaux en essais argumentatifs Modals ICLE BNC Can 30% 26% Would 18% 23% Will 17% 10% Should 11% 10% Could 10% 11% Must 9% 4% May 5% 13% Might 1% 3%
Marqueurs discursifs oraux natifs et non-natifs: Réflexion sur les Paramètres NATIVE SPEAKER CORPUS NON-NATIVE SPEAKER CORPUS LOCNEC LINDSEI English speakers from: England, French speakers from: Belgium, Lancaster University Université Catholique de Louvain Interviews, tasks: set topic and 50 interviews, tasks: set topic, free free discussion discussion and picture description country, experience, films country, experience, films A and B turns B turns 161724 words 91552 words
Methodology : Speech Markers in Lindsei et Locnec ‘Finding the key words in both corpora (WordSmith Tools) Selection of the most frequent inserts (non-exhaustive) Defining the category (like, well, right, you know…) Calculation of the normalized frequency (%) Comparing the results Calculating the ratio Log likelihood calculator (significant frequency) P
Phrasal Verbs: Look dans ICLE (démarche) « Les français font toujours beaucoup de fautes avec les phrasal verbs, nous avons trouvé intéressant d’en étudier quelques uns (look for, after, etc.) Puis, nous nous sommes dirigées vers ICLE pour parcourir les corpus et illustrer notre étude. Nous voulions des erreurs qui ne soient pas seulement faites par des français ». « Nous ne savions pas très bien comment nous y prendre. Prendre en main ICLE fut un peu laborieux. Le corpus nous a permis de diriger notre analyse, de la conduire au mieux ». (questionnaire 2015)
Phrasal Verbs: look dans ICLE (LM multiples) ‘Search parameters All native languages Argumentative essays Occurrences of phrasal & prepositional verbs look forward to look down on look through look after look for, etc.’
Processus top down: le Powerpoint comme outil de structuration et de réflexion ‘You have to be able to summarize your ideas in a concise, succinct manner (which only works if you have a clear grasp on your analysis and what you would like to get across to your audience.’ ‘Oui, sinon il aurait fallu que je lise mes notes intégralement.’ ‘Cela a permis d’avoir un plan clair, de sélectionner les éléments les plus importants, d’avoir une approche didactique.’ ‘le Powerpoint nous oblige à rendre visible la substantifique moelle de notre pensée, ce qui n’est pas vraiment le même travail que lors d’un oral sans Powerpoint. Je trouve le Powerpoint contraignant mais c’est un bon support lors d’un oral et cela permet surtout aux auditeurs de bien suivre, auditivement et visuellement, ce qui est démontré.’ ‘Il permet de ne pas se perdre dans sa réflexion. Les différentes slides nous servent de notes , à nous rappeler où nous en sommes dans notre explication et réflexion.’
La motivation: confluence action et recul réflexif ‘Cela change de l’exposé type que ‘It was a very interesting project nous faisons à l’université. from the beginning research stage Commenter les erreurs faites par to the analysis to the final des non-native speakers of English presentation (MEEF).’ fut très enrichissant (MEEF).’ ‘Je n’avais jamais fait un travail ‘Grâce à ce travail, je me suis pratique comme cela et ça a été rendu compte que j’aime bien intéressant de me confronter avec travailler avec les corpus cette nouvelle méthodologie d’apprenants, de voir quel genre (English Literature). d’erreurs qu’ils font et d’essayer de ‘Surtout car nous avons nous-même réfléchir sur les raisons derrière ces réalisé notre corpus, donc c’était erreurs (Linguistique).’ motivant de se mettre dans la peau d’un chercheur/enquêteur (ENS).’
Conclusion: utilité du travail sur corpus? Développer la motivation pour une recherche praxéologique : maîtres de leur sujet et problématique, les étudiants choisissent leur corpus, utilisent les outils de traitement des données en fonction du sujet, du corpus et de leurs compétences Favoriser le développement de compétences langagières orales (production) et lexicales-(terminologie psycholinguistique et linguistique, structures et collocations du discours académique. Faire prendre conscience d’une démarche interactive dans tout processus d’appropriation. Entamer une construction positive de leurs représentations identitaires en tant que locuteurs bilingues, trilingues et apprenants d’une langue étrangère. Limites: Le temps (12 semaines, 24h) donc beaucoup de travail personnel, la frustration parfois (ne pas pouvoir faire aboutir la recherche), le manque de connaissance procédurale des outils, la concurrence avec les autres travaux de M1 (cognitive overload).
Références (une sélection) Bailly, Danielle (1998) Les Mots de la Didactique des langues: le cas de l’anglais, Ophrys, Paris Ellis, Rod & Barkhuizen, Gary (2005), Analysing Learner Language, OUP, Oxford- New York. Granger S. (1996a) From CA to CIA and back: An integrated approach to computerized bilingual and learner corpora. In Aijmer K., Altenberg B. and Johansson M. (eds) Languages in Contrast. Text-based cross-linguistic studies. Lund Studies in English 88. Lund: Lund University Press, 37-51. Housen, Alex & Kuiken, Folkert (2009), Complexity, Accuracy and Fluency in Second Language Acquisition, Applied Linguistics 30/4, Meunier, Fanny (2002), The Pedagogical Value of Native and Learner Corpora, In Granger, S. et al, Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching, Benjamins, Amsterdam, 119-131. Meunier, Fanny (2012) Formulaic Language and Language Teaching, In Paquot, M. and Granger, S., Annual Review of Applied Linguistics (2012), 32, 111–129. Learner Corpus Association : http://www.learnercorpusassociation.org/
Vous pouvez aussi lire