Systèmes de traduction automatique et levée d'ambiguïté - Étude comparée de systèmes de TABR, TAS et TAN - Europa EU

 
CONTINUER À LIRE
Systèmes
  de traduction automatique
     et levée d’ambiguïté

Étude comparée de systèmes de TABR,
            TAS et TAN

       #TranslatingEurope Forum 2016
TA (EN-FR) du mot ambigu issue
• Matériel:
  – Outils informatiques
  – issue(s) = mot anglais ambigu
  – Corpus de référence et corpus de test
  – Modèle de TH
  – Critères de comparaison
• Comparaison des résultats
• Conclusions

                     #TranslatingEurope Forum 2016
4 systèmes de TA
• 1ère génération: TABR
  – Systranet
• 2ème génération: TAS
  – Google Traduction
  – MT@EC
• 3ème génération: TAN
  – LISA (Université de Montréal)
• Systèmes hybrides
                      #TranslatingEurope Forum 2016
Ambiguïté
• Plusieurs interprétations possibles du TS 
  plusieurs candidats à la traduction
• Ambiguïté lexicale: au niveau du mot
  – Causes: homographie, polysémie, plusieurs catégories
    grammaticales
• Ambiguïté structurelle: au niveau de la syntaxe
  – Causes: plusieurs possibilités de lecture d’une même
    structure de surface, plusieurs antécédents possibles
    d’une même anaphore

                      #TranslatingEurope Forum 2016
Issue (BE)
• Ambiguïté grammaticale
  – N et V (issue/issues)
• Ambiguïté homographique
  – N1 : An important topic or problem for debate or discussion
  – N2 : The action of supplying or distributing an item for use,
    sale, or official purposes
  – N3 : (formal or law) Children of one’s own
  – V1 : [WITH OBJECT] Supply or distribute (something) for use
    or sale
  – V2 : [NO OBJECT] (issue from) Come, go, or flow out from
                                                        (Source: OED)
                        #TranslatingEurope Forum 2016
Corpus de référence Europarl v7
                Modèle de TH
•   N1: 648 segments parallèles analysés
•   N2: 34 segments parallèles analysés
•   N3: 0  IATE
•   V1: 164 segments parallèles analysés
•   V2: 4 segments parallèles analysés

                     #TranslatingEurope Forum 2016
Corpus de test
             Échantillon d’essai
• BNC
• Recherche de collocations attestées dans Europarl
  v7
• N1: 15
• N2: 6
• N3: 3
• V1: 13
• V2: 5

                    #TranslatingEurope Forum 2016
Modèle TH: N1
                          Équivalent le plus fréquent         Autres (par ordre de
                                                              fréquence)

the human rights issue    la question des droits de           problématique (13,2%),
                          l’homme (73,7%)                     [NUL](0,6%), problème
                                                              (0,3%), s’agissant de (0,3%),
                                                              thème (0,3%)
a human rights issue      une question de droits de           problème (13,3%), [NUL]
                          l’homme (63,3%)                     (6,7%), débat (6,7%), thème
                                                              (3,3%), sujet (3,3%),
                                                              affaire(3,3%)
human rights issues       questions de(s) droits de           [NUL] (16%), problèmes
                          l’homme (54,7%)                     (11%), question (7,4%)

                              #TranslatingEurope Forum 2016
Modèle TH: N1
                         Équivalent le plus fréquent          Autres (par ordre de
                                                              fréquence)

what is at issue (is)    il s’agit de/ce dont il s’agit       question (19,6%), enjeu/en
                         (31,8%)                              jeu (18,9%), ce qui est en
                                                              cause (4,7%)

make an issue of         hapax: faire une montagne/une affaire de, monter en
                         épingle, ...

take issue with          désaccord (23,75%)                   ne pas être d’accord avec
                                                              (10%), contester qch (10%),
                                                              contredire qn (6,25%)

                              #TranslatingEurope Forum 2016
Modèle TH: N2
                                Équivalent le plus fréquent         Autres (par ordre de
                                                                    fréquence)
issue of (bank notes, coins,    émission (100%)
Eurobond, shares and bonds)

(SDR, bond) issue               émission (100%)
(recent, latest, next) issue of numéro (83,3%)                      édition (16,7%)
(a magazine, newspaper, etc.)

(date) issue of (a magazine,    nul (100%)
newspaper, etc.)
the April issue of (an          parution (hapax)
information sheet)

                                    #TranslatingEurope Forum 2016
Modèle de TH: N3
• IATE: descendance

                  #TranslatingEurope Forum 2016
Modèle de TH: V1
                             Équivalent le plus fréquent         Quelques autres
issue a statement            faire une déclaration (25%)         NUL (25%), déclarer (10%),
                                                                 publier une déclaration
                                                                 (10%),...
issue an/POSS opinion        se prononcer (35%)                  rendre un/son avis (25%),
                                                                 émettre un avis (20%), ...
issue [(a) directive(s)]     émettre (25%)                       publier (10%), rédiger (10%),
                                                                 présenter (10%), élaborer
                                                                 (10%), adopter (5%), ...
issue (a/POSS)               émettre (40%)                       produire (15%), formuler
recommendation(s)                                                (5%), ...

                                 #TranslatingEurope Forum 2016
Modèle de TH: V1
                              Équivalent le plus fréquent         Quelques autres
issue [(a) decision(s)]       prendre (33,3%)                     rendre (22,2%)
issue (a) warning(s)          lancer un/des                       mettre en garde (23,3%),
                              avertissement(s) (26,7%)            adresser un/des
                                                                  avertissement(s) (10%),
                                                                  avertir (10%)
issue [(a) report(s)]         publier (45%)                       rédiger (10%), fournir(10%),
                                                                  NUL (10%), produire (5%), ...
issue (an) instruction(s)     donner (60%)                        hapax: NUL, publier, ...
issue s.o. with (statement,   faire une déclaration, fournir (une liste, des rapports), donner
list, mandate, reports)       (un mandat)

                                  #TranslatingEurope Forum 2016
Modèle de TH: V2
                              Équivalent le plus fréquent         Autre

issue from (lieu)             venir de

issue from (cause, agent)     découler de                         émaner de

                                  #TranslatingEurope Forum 2016
Critères de comparaison
• Distinction entre N1, N2 et N3 / V1 et V2
• Équivalent: le plus fréquent, variante, faux sens,
  non-sens, solutions originales comparables à la TH
• Identification des 4 structures figées
• Syntaxe

                    #TranslatingEurope Forum 2016
Résultats (1)
              Systranet              GT                   MT@EC    NMT (LISA)

N1 ≠ N2 ≠N3    62,5 %               75 %                  79,2 %    56,25 %

V1 ≠ V2        38,9 %             61,1 %                  66,7 %     47,2 %

Figement       21,4 %             28,6 %                  35,7 %     7,1 %

Syntaxe         19 %              48,3 %                  62,1 %     55,2 %

                          #TranslatingEurope Forum 2016
Exemples (1) et (2): distinction

• N1 ≠ N2 ≠N3: the issue of banknotes
  – L’émission de billets (MT@EC)
  – La question des billets (de banque) (Sys., GT, NMT)
• V1 ≠ V2: issue a final decision
  – arrêter une décision finale (MT@EC)
  – rendre une décision définitive (GT)
  – ? publier une décision finale (NMT)
  – ? publier une conclusion définitive (Systranet)

                       #TranslatingEurope Forum 2016
Exemple (3): figement
• their employers should issue them with briefing
  documents
  – leur employeur devrait leur délivrer des
    documents d’information (MT@EC)
  – leurs employeurs doivent leur délivrer des
    documents d'information (GT)
  – *leurs employeurs devraient les
    publier avec des documents de briefing
    (Systranet)
  – *leur employeur les UNK avec des documents
    d'information (NMT)

                     #TranslatingEurope Forum 2016
Exemple (4): syntaxe
• the human rights issue
  – la question des droits de l’homme (MT@EC, GT, NMT)
  – *la question de droits de l’homme (Systranet)

                     #TranslatingEurope Forum 2016
Résultats (2): équivalents proposés
                   Systranet              GT                   MT@EC    NMT (LISA)
le plus fréquent       6                   11                    12         6
variante               8                   13                    10         5
faux sens              2                    4                    5          7
comparable à TH        0                    0                    3          4
non-                 26/42               14/42                  12/42      20/42
sens/omission

                               #TranslatingEurope Forum 2016
Exemple (5): faux sens
• dies without issue
  – meurt sans question (Systranet)
  – meurt sans le locataire (GT)
  – décède sans problème (MT@EC)
  – meurt sans problème (NMT)

                       #TranslatingEurope Forum 2016
Exemples (6) à (8): comparable à TH
• What is at issue is whether
  – Il s’agit de savoir si (MT@EC, NMT)
  – *Ce qui est à la question est si (Systranet)
  – *Quel est l’enjeu est de savoir si (GT)
• (foreign concern) over human rights issues
  – dans le domaine des droits de l'homme (NMT)
• human rights issue
  – question relevant des droits de l’homme (MT@EC)

                       #TranslatingEurope Forum 2016
Exemple (8): faux sens ou non-sens
• Mr Bush was making an issue of Mr Clinton's
  character
  – *M. Bush faisait une question du caractère (...) de M.
    Clinton (non-sens, Systranet)
  – *M. Bush faisait une question de caractère (...) de M.
    Clinton (GT)
  – *M. Bush était une question de M. Clinton, du
    caractère (MT@EC)
  – M. Bush avait soulevé la question du caractère (...) de
    M. Clinton (faux sens, NMT)

                      #TranslatingEurope Forum 2016
Conclusions
• Relativité des résultats
• Systèmes de TA disponibles en ligne naturellement
  moins performants que MT@EC
• Confirmation d’obstacles persistants en dépit des
  progrès remarquables des systèmes:
  – ambiguïté lexicale et grammaticale
  – longueur des unités de traduction
  – figement

                     #TranslatingEurope Forum 2016
Pour terminer...
• « Machine translation is not, as some believe,
  solved, nor is it impossible, as others still claim. It
  is a lively and important technology, whose
  importance in multi-lingual and information-
  driven world can only increase, intellectually and
  commercially. Intellectually, it remains, as it always
  has been, the ultimate testbed of all linguistic and
  language processing theories. » (Wilks, 2009)

                      #TranslatingEurope Forum 2016
Systèmes de TA
• Systranet 2016
  
• Google Traduction
  
• MT@EC 
• Neural Machine Translation by LISA (2014)
  
                  #TranslatingEurope Forum 2016
Outils d’exploration de corpus
• Europarl v7 search interface: Jörg Tiedemann,
  2012, Parallel Data, Tools and Interfaces in
  OPUS. In Proceedings of the 8th International
  Conference on Language Resources and Evaluation
  (LREC 2012)
• BYU-BNC 

                   #TranslatingEurope Forum 2016
Sources
• Berthelin, J.-B. (2005). « Contextualisation de
  l’ambiguïté structurelle ». 2nd Language & Technology
  Conference: Human Language Technologies as a
  challenge for Computer Science and Linguistics. April
  21-23 2005, Poznan, Pologne
  (perso.limsi.fr/jbb/equivoque.html)
• Polguère, A. (2002). Notions de base en lexicologie.
  Montréal: OLST
• Wilks, Y. (2009). Machine Translation. Its Scope and
  Limits. New York: Springer
                     #TranslatingEurope Forum 2016
Vous pouvez aussi lire