Systèmes de traduction automatique et levée d'ambiguïté - Étude comparée de systèmes de TABR, TAS et TAN - Europa EU
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Systèmes de traduction automatique et levée d’ambiguïté Étude comparée de systèmes de TABR, TAS et TAN #TranslatingEurope Forum 2016
TA (EN-FR) du mot ambigu issue • Matériel: – Outils informatiques – issue(s) = mot anglais ambigu – Corpus de référence et corpus de test – Modèle de TH – Critères de comparaison • Comparaison des résultats • Conclusions #TranslatingEurope Forum 2016
4 systèmes de TA • 1ère génération: TABR – Systranet • 2ème génération: TAS – Google Traduction – MT@EC • 3ème génération: TAN – LISA (Université de Montréal) • Systèmes hybrides #TranslatingEurope Forum 2016
Ambiguïté • Plusieurs interprétations possibles du TS plusieurs candidats à la traduction • Ambiguïté lexicale: au niveau du mot – Causes: homographie, polysémie, plusieurs catégories grammaticales • Ambiguïté structurelle: au niveau de la syntaxe – Causes: plusieurs possibilités de lecture d’une même structure de surface, plusieurs antécédents possibles d’une même anaphore #TranslatingEurope Forum 2016
Issue (BE) • Ambiguïté grammaticale – N et V (issue/issues) • Ambiguïté homographique – N1 : An important topic or problem for debate or discussion – N2 : The action of supplying or distributing an item for use, sale, or official purposes – N3 : (formal or law) Children of one’s own – V1 : [WITH OBJECT] Supply or distribute (something) for use or sale – V2 : [NO OBJECT] (issue from) Come, go, or flow out from (Source: OED) #TranslatingEurope Forum 2016
Corpus de référence Europarl v7 Modèle de TH • N1: 648 segments parallèles analysés • N2: 34 segments parallèles analysés • N3: 0 IATE • V1: 164 segments parallèles analysés • V2: 4 segments parallèles analysés #TranslatingEurope Forum 2016
Corpus de test Échantillon d’essai • BNC • Recherche de collocations attestées dans Europarl v7 • N1: 15 • N2: 6 • N3: 3 • V1: 13 • V2: 5 #TranslatingEurope Forum 2016
Modèle TH: N1 Équivalent le plus fréquent Autres (par ordre de fréquence) the human rights issue la question des droits de problématique (13,2%), l’homme (73,7%) [NUL](0,6%), problème (0,3%), s’agissant de (0,3%), thème (0,3%) a human rights issue une question de droits de problème (13,3%), [NUL] l’homme (63,3%) (6,7%), débat (6,7%), thème (3,3%), sujet (3,3%), affaire(3,3%) human rights issues questions de(s) droits de [NUL] (16%), problèmes l’homme (54,7%) (11%), question (7,4%) #TranslatingEurope Forum 2016
Modèle TH: N1 Équivalent le plus fréquent Autres (par ordre de fréquence) what is at issue (is) il s’agit de/ce dont il s’agit question (19,6%), enjeu/en (31,8%) jeu (18,9%), ce qui est en cause (4,7%) make an issue of hapax: faire une montagne/une affaire de, monter en épingle, ... take issue with désaccord (23,75%) ne pas être d’accord avec (10%), contester qch (10%), contredire qn (6,25%) #TranslatingEurope Forum 2016
Modèle TH: N2 Équivalent le plus fréquent Autres (par ordre de fréquence) issue of (bank notes, coins, émission (100%) Eurobond, shares and bonds) (SDR, bond) issue émission (100%) (recent, latest, next) issue of numéro (83,3%) édition (16,7%) (a magazine, newspaper, etc.) (date) issue of (a magazine, nul (100%) newspaper, etc.) the April issue of (an parution (hapax) information sheet) #TranslatingEurope Forum 2016
Modèle de TH: N3 • IATE: descendance #TranslatingEurope Forum 2016
Modèle de TH: V1 Équivalent le plus fréquent Quelques autres issue a statement faire une déclaration (25%) NUL (25%), déclarer (10%), publier une déclaration (10%),... issue an/POSS opinion se prononcer (35%) rendre un/son avis (25%), émettre un avis (20%), ... issue [(a) directive(s)] émettre (25%) publier (10%), rédiger (10%), présenter (10%), élaborer (10%), adopter (5%), ... issue (a/POSS) émettre (40%) produire (15%), formuler recommendation(s) (5%), ... #TranslatingEurope Forum 2016
Modèle de TH: V1 Équivalent le plus fréquent Quelques autres issue [(a) decision(s)] prendre (33,3%) rendre (22,2%) issue (a) warning(s) lancer un/des mettre en garde (23,3%), avertissement(s) (26,7%) adresser un/des avertissement(s) (10%), avertir (10%) issue [(a) report(s)] publier (45%) rédiger (10%), fournir(10%), NUL (10%), produire (5%), ... issue (an) instruction(s) donner (60%) hapax: NUL, publier, ... issue s.o. with (statement, faire une déclaration, fournir (une liste, des rapports), donner list, mandate, reports) (un mandat) #TranslatingEurope Forum 2016
Modèle de TH: V2 Équivalent le plus fréquent Autre issue from (lieu) venir de issue from (cause, agent) découler de émaner de #TranslatingEurope Forum 2016
Critères de comparaison • Distinction entre N1, N2 et N3 / V1 et V2 • Équivalent: le plus fréquent, variante, faux sens, non-sens, solutions originales comparables à la TH • Identification des 4 structures figées • Syntaxe #TranslatingEurope Forum 2016
Résultats (1) Systranet GT MT@EC NMT (LISA) N1 ≠ N2 ≠N3 62,5 % 75 % 79,2 % 56,25 % V1 ≠ V2 38,9 % 61,1 % 66,7 % 47,2 % Figement 21,4 % 28,6 % 35,7 % 7,1 % Syntaxe 19 % 48,3 % 62,1 % 55,2 % #TranslatingEurope Forum 2016
Exemples (1) et (2): distinction • N1 ≠ N2 ≠N3: the issue of banknotes – L’émission de billets (MT@EC) – La question des billets (de banque) (Sys., GT, NMT) • V1 ≠ V2: issue a final decision – arrêter une décision finale (MT@EC) – rendre une décision définitive (GT) – ? publier une décision finale (NMT) – ? publier une conclusion définitive (Systranet) #TranslatingEurope Forum 2016
Exemple (3): figement • their employers should issue them with briefing documents – leur employeur devrait leur délivrer des documents d’information (MT@EC) – leurs employeurs doivent leur délivrer des documents d'information (GT) – *leurs employeurs devraient les publier avec des documents de briefing (Systranet) – *leur employeur les UNK avec des documents d'information (NMT) #TranslatingEurope Forum 2016
Exemple (4): syntaxe • the human rights issue – la question des droits de l’homme (MT@EC, GT, NMT) – *la question de droits de l’homme (Systranet) #TranslatingEurope Forum 2016
Résultats (2): équivalents proposés Systranet GT MT@EC NMT (LISA) le plus fréquent 6 11 12 6 variante 8 13 10 5 faux sens 2 4 5 7 comparable à TH 0 0 3 4 non- 26/42 14/42 12/42 20/42 sens/omission #TranslatingEurope Forum 2016
Exemple (5): faux sens • dies without issue – meurt sans question (Systranet) – meurt sans le locataire (GT) – décède sans problème (MT@EC) – meurt sans problème (NMT) #TranslatingEurope Forum 2016
Exemples (6) à (8): comparable à TH • What is at issue is whether – Il s’agit de savoir si (MT@EC, NMT) – *Ce qui est à la question est si (Systranet) – *Quel est l’enjeu est de savoir si (GT) • (foreign concern) over human rights issues – dans le domaine des droits de l'homme (NMT) • human rights issue – question relevant des droits de l’homme (MT@EC) #TranslatingEurope Forum 2016
Exemple (8): faux sens ou non-sens • Mr Bush was making an issue of Mr Clinton's character – *M. Bush faisait une question du caractère (...) de M. Clinton (non-sens, Systranet) – *M. Bush faisait une question de caractère (...) de M. Clinton (GT) – *M. Bush était une question de M. Clinton, du caractère (MT@EC) – M. Bush avait soulevé la question du caractère (...) de M. Clinton (faux sens, NMT) #TranslatingEurope Forum 2016
Conclusions • Relativité des résultats • Systèmes de TA disponibles en ligne naturellement moins performants que MT@EC • Confirmation d’obstacles persistants en dépit des progrès remarquables des systèmes: – ambiguïté lexicale et grammaticale – longueur des unités de traduction – figement #TranslatingEurope Forum 2016
Pour terminer... • « Machine translation is not, as some believe, solved, nor is it impossible, as others still claim. It is a lively and important technology, whose importance in multi-lingual and information- driven world can only increase, intellectually and commercially. Intellectually, it remains, as it always has been, the ultimate testbed of all linguistic and language processing theories. » (Wilks, 2009) #TranslatingEurope Forum 2016
Systèmes de TA • Systranet 2016 • Google Traduction • MT@EC • Neural Machine Translation by LISA (2014) #TranslatingEurope Forum 2016
Outils d’exploration de corpus • Europarl v7 search interface: Jörg Tiedemann, 2012, Parallel Data, Tools and Interfaces in OPUS. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012) • BYU-BNC #TranslatingEurope Forum 2016
Sources • Berthelin, J.-B. (2005). « Contextualisation de l’ambiguïté structurelle ». 2nd Language & Technology Conference: Human Language Technologies as a challenge for Computer Science and Linguistics. April 21-23 2005, Poznan, Pologne (perso.limsi.fr/jbb/equivoque.html) • Polguère, A. (2002). Notions de base en lexicologie. Montréal: OLST • Wilks, Y. (2009). Machine Translation. Its Scope and Limits. New York: Springer #TranslatingEurope Forum 2016
Vous pouvez aussi lire