Systran vs. Google dossier pour le cours de TAL de J.P. Gruselle par Delphine Graeff et Édouard Lopez

 
CONTINUER À LIRE
Systran               vs.     Google
                       dossier pour le cours de TAL de J.P. Gruselle

                          par Delphine Graeff et Édouard Lopez

É. Lopez & D. Graeff                Systran vs. Google Translate       1/ 18
Table of Contents
Introduction.............................................................................................................3
SYSTRAN.................................................................................................................5
  Historique............................................................................................................5
     Applications.....................................................................................................5
     Les 5 étapes du système SYSTRAN :...............................................................6
     SYSTRAN, un « rules-based system »..............................................................7
Google translate......................................................................................................8
  Historique............................................................................................................8
  Google translate un « statistical-based system »................................................8
     Ressources.......................................................................................................8
     La qualité de traduction...................................................................................8
Machine de Traduction Statistique.......................................................................10
  Modèle d'alignement, principe général.............................................................10
     Modèle d'alignement statistiques..................................................................11
     Exemples de modèles d'alignements.............................................................12
     Modèles heuristiques.....................................................................................12
     Comparaison des modèles statistiques et heuristiques.................................13
ANNEXES..............................................................................................................14
Références.............................................................................................................15
Glossaire ...............................................................................................................16

É. Lopez & D. Graeff                           Systran vs. Google Translate                                         2/ 18
Introduction
A l'heure actuelle, la traduction automatique est appréciée du grand public car
elle permet de déchiffrer de façon grossière le thème, les principaux faits ou
éléments d'information d'une page Web écrite dans une langue totalement
inconnue,... En outre, le volume de données à traiter étant devenue humainement
impossible à traduire en un temps suffisamment court, les systèmes de traduction
automatique s'avèrent un choix plus judicieux.
Depuis la fin du mois d'octobre, Google utilise son propre système de traduction
automatique pour 25 paires de langues: français, anglais, arabe, chinois
traditionnel ou simplifié, néerlandais, italien, allemand, le grec, japonais, coréen,
portugais, russe et espagnol.
Jusqu'ici, Google n'avait développé ses propres processus de traduction
uniquement pour certaines langues non latines : arabe, chinois, coréen, japonais,
russe.
Pour le reste, il faisait appel à la société française leader de la traduction
automatique: SYSTRAN.
En s'intéressant à l'ancien et au nouveau système de traduction de google, nous
nous sommes heurté au manque de documentation. En effet, tant pour SYSTRAN
que pour Google Translate, les enjeux économiques empêchent toute publication
trop descriptive des projets.
C'est pour cette raison que nous avons élargi notre sujet, en développant une
partie: « Machine de Traduction Statistiques (MTS) ». On opposera ce MTS aux
autres types de système de traduction, notamment ceux vu en cours de
Traitement Automatique des Langues (TAL), qui reposent sur des règles et non
des statistiques.

É. Lopez & D. Graeff              Systran vs. Google Translate                    3/ 18
PARTIE I

É. Lopez & D. Graeff   Systran vs. Google Translate   4/ 18
SYSTRAN

Historique
La société SYSTRAN fut créée dans la fin des années soixante (1968) pour traduire
des documents Russes pour l'USA Air Force. Elle fut vendue en 1986 à la famille
Gachot, basée à Paris, France, et est cotée en bourse depuis septembre 2000. Elle
a un bureau principal à la Grande Arche de La Défense et maintient un bureau
secondaire à La Jolla, à San Diego, en Californie.

Applications
SYSTRAN est le leader des solutions et logiciels de traduction tant pour particulier,
que serveur ou services en ligne. Il est actuellement possible de traduire vers et à
partir de 52 paires de langues des contenus en langue étrangère. Ce qui fait de lui
le système possédant le plus de paires de langues ainsi que la plus grosse
ressource lexicale du monde : ses dictionnaires de bases contiennent plus de
300 000 entrées pour chaque langue. SYSTRAN dispose également de douzaines
de dictionnaires spécialisés contenant chacun plus de 100 000 entrées.
Avec plus de 30 ans d'expertise, les produits et solutions de SYSTRAN sont utilisés
par les plus grandes multinationales, portails Internet (Babelfish, Yahoo, AltaVista,
Free, Lexilogos, LinguaNet, Lycos, Music Automatic Translator, Newstran, ainsi
que Google jusqu'à octobre 2007 etc.) et des administrations publiques comme
l'« US Intelligence Community » et la Commission européenne.

É. Lopez & D. Graeff            Systran vs. Google Translate                    5/ 18
Les 5 étapes du système SYSTRAN :
Systran découpe la traduction en 5 grandes étapes :
   1. Input : correspond au chargement du texte et du dictionnaire et confronte
      chaque mot à un dictionnaire de fréquence ;
   2. Main dictionary lookup : tri alphabétique des mots restant et recherche dans
      le dictionnaire principal (Main Stem dictionnary) ;
   3. Analyse : sept « passes » sont effectuez sur chaque phrase :
       i. résolution des homographes en analysant la catégorie grammaticale des
          mots adjacents ;
       ii. recherche de mots composés dans un dictionnaire (Limited Semantics
           dictionary) ;
       iii. identification des groupes nominaux, verbaux et propositionnels en
            recherchant la ponctuation, les conjonctions, les pronoms relatifs, etc.
       iv. identifier des relations syntaxiques primaires telles que la congruence, le
           gouvernement et l'apposition ;
       v. identification des accords dans les phrases ;
       vi. identification des sujets et prédicats ;
       vii.identifier les structures prepositionnelles.
   4. Transfert :
       i. rechercher les mots ayant des traductions idiomatiques dans certaines
          situations (« to agree » à la forme passive sera traduit par « convenir »,
          sinon par « être d'accord ») ;
       ii. traduire les prépositions en utilisant la partie sémantique des mots
           auxquels ils sont reliés ;
       iii. résolution des ambiguïtés restantes, en les testant avec un dictionnaire
            de mots et expressions particulières.
   5. Génération (Synthesis) : production des phrases dans la langue de
      destination à partir des équivalents du dictionnaire, en modifiant la flexions
      des verbes et les terminaisons des adjectifs ; changer l'ordre des mots si
      besoin (ex. : adjective-noun).

É. Lopez & D. Graeff               Systran vs. Google Translate                    6/ 18
É. Lopez & D. Graeff   Systran vs. Google Translate   7/ 18
SYSTRAN, un « rules-based system »
Comme on vient de le voir, SYSTRAN fait appel à une technologie à base de
règles : règles morphologiques, syntaxiques, sémantiques, grammaticales, règles
heuristiques de rattachement pour associer les termes entre eux, règles logiques,
etc.
Malgré des résultats de traduction d'un bon niveau, les systèmes basés sur des
règles présentent des inconvénients :
       la mise en oeuvre de ce genre de système ne s'étend qu'a un unique couple
       langue source (SL) – langue de destination (TL), il faut en effet refaire la
       base de règles pour la traduction dans le sens opposé ou pour tout autre
       couple de langues ;
       les ressources en temps et en experts pour l'élaboration, le maintient et la
       correction de la base de règles sont extrêmement lourdes. La base de
       règles étant élaborée par des linguistes, selon les modèles qu'ils adopteront
       certains cas ne sauront pas couverts ;
       les règles définies tendant à la complexité de manière à couvrir un
       maximum de cas rendant le système lourd ;
       insensibilité aux évolutions linguistiques, à l'émergence de nouveaux
       vocabulaires comme on le voit sur le web.

É. Lopez & D. Graeff             Systran vs. Google Translate                   8/ 18
Google translate

Historique
Google translate est le service de google qui permet de traduire un texte ou bien
une web page dans une autre langue. Pour certaines langues, les utilisateurs
peuvent suggérer une traduction alternative, comme par exemple des termes
techniques, pour qu’ils soient intégrés dans les prochaines mises à jour.
Google translate (depuis octobre 2007) utilise sa propre Machine de Traduction. Il
ne s’agit pas d’une technologie morpho-syntaxique comme celles des
concurrents. Il s’agit :
       d’une approche linguistique de corpus : le système est nourri avec environ
       200 milliards de mots provenant des « United Nations materials ».
       des techniques d’apprentissage statistique : pour entrainer et construire un
       modèle statistique.
Ce modèle permet notamment de dire : à chaque fois que le mot A est utilisé avec
le mot B (dans le SL), cela signifie l’expression X plutôt que l’expression Y (dans le
TL).

Google translate un « statistical-based system »
Google translate est donc une machine de traduction basée sur des modèles
statistiques dont les paramètres sont dérivés d’une analyse bilingue de « text
corpora » = textes multilingue et structurés.

Ressources
Ne nécessite pas un énorme travail de la part des linguistes, contrairement aux
systèmes ayant besoin de définir les grammaires et vocabulaires des différentes
langues.
Cependant cette approche nécessite une quantité de données importante, chose
qui ne pose pas de problèmes à Google.

La qualité de traduction
bien que le résultat ne soit pas parfait le sens global d’un texte traduit reste
largement compréhensible:
Exemple :
       le système marche mieux pour certains types de texte (news) que pour
       d’autres (poésie)

É. Lopez & D. Graeff             Systran vs. Google Translate                      9/ 18
des mots simples sont parfois bizarrement traduit…

É. Lopez & D. Graeff           Systran vs. Google Translate   10/ 18
PARTIE II

É. Lopez & D. Graeff    Systran vs. Google Translate   11/ 18
Cette partie ne traite pas de Google translate directement, mais des SMT en
général. Il est plus que probable que certains des modèles que l'on va abordé sont
utilisés par le système de traduction de Google. D'autant plus que l'un des
auteurs principaux des articles traitant de ces modèles se trouvent être un
employé de Google.

Machine de Traduction Statistique
Le principe est simple, prendre une phrase de la langue source (ici le Français)
                             qui doit être traduite dans une phrase de destination
(l'anglais)                           . Parmi toute les traductions possibles, nous
choisirons celle ayant la probabilité la plus haute :

L'opérateur argmax correspond à la fonction génératrice de la solution.
L'élaboration d'un modèle statistique se fait en 3 étapes :
   ✑✎    Modeling : choisir un modèle (voir suite) ;
   ✒✎    Training (ou Estimation des paramètres) : assigner des valeurs spécifiques
         aux paramètres du modèle en lui donnant des données. Les corpus
         d'entraînement doivent correspondre à la future utilisation du modèle sous
         peine d'avoir des résultats de mauvaise qualité ;
   ✓✎    Search (ou Décodage) : trouver la meilleure traduction de la phrase source.

Modèle d'alignement, principe général
On distingue deux modèles de ce type pour calculer l'alignement de mots : un
modèle dit d'alignement statistique et un modèle dit heuristique. Nous allons
décrire successivement c'est deux modèles et finalement les comparer d'un point
de vue théorique.
Notation :         : probabilité réelle (de distribution) que la phrase française
(target language) soit traduite par la phrase anglaise (source language).
        : probabilité de distribution basée sur le modèle, approximant        .

É. Lopez & D. Graeff               Systran vs. Google Translate                     12/ 18
Modèle d'alignement statistiques
Les MTS tentent de modéliser la probabilité de traduction             , qui décrit la
relation entre la phrase d'origine   et la phrase de destination   . Dans le modèle
d'alignement statistiques                 , un alignement « caché »
est introduit, qui décrit une correspondance de la position d'origine j vers la
position de destination aj . La relation entre le modèle de traduction et le modèle
d'alignement est donné par :

L'alignement   peut contenir des alignements aj = 0 avec le mot « vide » e0 qui
correspond aux mots sources n'étant alignés à aucun mots de la phrase de
destination.
De manière générale, les modèles statistiques dépendent d'un ensemble de
paramètres θ qui sont acquis lors de la phase d'entraînement du modèle. Pour
exprimer la dépendance du modèle à ces paramètres, on utilise la notation
suivante :

La difficulté de la modélisation vient du fait qu'il faille élaborer un modèle
statistique capable de saisir les propriétés essentielles du domaine étudié. Ce qui
revient à décrire correctement la relation entre la phrase d'origine et la phrase de
destination.
Les paramètres θ sont obtenus à partir d'un entraînement basé sur des corpus
parallèles de S paires de phrases                    , pour chaque couple
     , la variable d'alignement est notée  . Les paramètres θ inconnus sont
déterminés par le maximum de vraisemblance des corpus d'entraînement :

Bien que pour une paire de phrase il soit possible de trouver de nombreux
alignements, on peut toujours en trouver un meilleur :

É. Lopez & D. Graeff             Systran vs. Google Translate                   13/ 18
l'alignement     est aussi appelé l'alignement vertibi de la paire de phrase
Les paramètres des modèles d'alignement sont optimisés en respectant le
maximum du critère vraissemblance, qui est necessairement relié à la qualité de
l'alignement. Cependant, une telle approche necessiterait un entrainnement avec
des alignements définis manuellement. Des preuves expérimentales montre que
les modèles d'alignement statistiques utilisant cette méthode d'estimation de
paramêtre obtienne généralement une bonne qualité d'alignement.

Exemples de modèles d'alignements
       « Hidden Markov alignment model » : repose sur des dépendances de
       premier ordre ;
       « Model 1 » et « Model 2 » : reposent sure des dépendances d'ordre zéro ;
       « Fertility-based Alignment Models » : Model 3, 4, 5 et 6, reposent sur des
       dépendances de premier ordre. sont plus compliqués que les précédants.
       prennent en compte le nombre de mots du SL alignés.

Modèles heuristiques
Des méthodes simples pour obtenir des alignements de mots utilisent une
fonction similaire entre les types des deux langages (généralement: « the Dice
coefficient »). Pour chaque paire de phrases, une matrice incluant les scores
d'association entre chaque mot à chaque position est alors obtenue:

C(e,f) montre le nombre de co-occurence du mot e et du mot f dans le corpus.
C(e) et C(f) montre le nombre de mots e dans les phrases du TL et le nombre de
mots f dans le SL.
De cette matrice de scores d'association, on obtient l'alignement des mots en
appliquant des heuristiques adéquates. Une des méthodes est de choisir comme
alignement aj=i pour la position j le mot avec le plus grand score d'association:

Un perfectionnement de cette méthode est le « competitive linking algorithm ».
Cette méthode requière d'aligner d'abord la position de plus grand score (i,j), puis
retirer la ligne et colonne de la matrice de score d'association. Cette procédure
est répétée itérativement jusqu'à ce que tous les mots du SL et TL soient alignés.
É. Lopez & D. Graeff             Systran vs. Google Translate                  14/ 18
L'avantage de cette approche sont ces associations indirectes. l'alignement qui en
résulte ne contient que des alignement 1 à 1 et a généralement une meilleure
précision.

Comparaison des modèles statistiques et heuristiques
Le principal avantage des modèles heuristiques est leur simplicité ils sont très
facile à implémenter et à comprendre.
Un inconvénient à ces modèles heuristiques est que l'utilisation d'une fonction
similaire spécifique semble être complètement arbitraire. La littérature contient
une grande variété de fonctions de scores, certaines incluant des paramêtres
ajustés empiriquement.
L'approche utilisant des modèles d'alignement statistique semble plus cohérent.
Le principe général pour arrivé à un score d'association entre les mots résulte
d'une théorie d'estimation statistique et les paramêtres du modèle sont ajustés
avec le corpus d'entrainnement.

É. Lopez & D. Graeff            Systran vs. Google Translate                   15/ 18
ANNEXES
                       SYSTRAN1                                    GOOGLE
Offres    service web ;                         service web (dictionnaire, traducteur de
                                                texte).
          application de bureau ;
          serveur de traduction.

Langues Arabic↔English, Chinese↔English,
        Dutch↔English, Dutch↔French,
        English↔French,
        English↔German, English↔Greek,
        English↔Italian,
        English↔Japanese,
        English↔Korean,
        English↔Portuguese,
        English↔Russian,
        English↔Spanish,
        English↔Swedish,
        French↔German, French↔Greek,
        French↔Italian,
        French↔Portuguese,
        French↔Spanish, etc.

Tarifs    offre personnelle : > $100 ;          gratuit
(par
          offre professionnelle > $350
pair de
langues   offre entreprise : non
)         communiqué

Dictionn plusieurs millions d'entrées,          ?
aires :  domaines spécifiques

Platefor selon l'offre windows seulement,       multiplateforme
me :     multiplateforme via navigateur,
         serveur,

Fichier : MS Office, RTF, SGML HTML, PDF, URL et texte saisi
          Word, Excel, PowerPoint,
          webpages, RTF, ASCII, ANSI, text,
          most word-processors, and email,
          MS Office, Excel, PowerPoint,
          Internet Explorer, WordPerfect,
          Frame, Interleaf, Netscape Web.

1Compendium of Translation Software directory of commercial machine translation systems and
computer-aided translation support tools Compiled by John Hutchins 13th edition (June 2007),
European Association for Machine Translation.
É. Lopez & D. Graeff                Systran vs. Google Translate                        16/ 18
Références
       « The SYSTRAN Linguistics Platform : A Software Solution to Manage
       Multilingual Corporate Knowledge », by SYSTRAN October 2002.
       « The evolution of machine translation systems », W. John Hutchins, 1982
       « Statistical Machine Translation: From Single-Word Models to Alignment
       Templates », par Franz Josef Och, 08/10/2002
       « Statistical Machine Translation : Foundations and Recent Advances
       Tutorial at MT Summit 2005 », Franz Josef Och from Google, Inc.,
       12/09/2005
       http://adscriptum.blogspot.com
          « Google et la traduction automatique », 04/2006
          Comparaisons Yahoo Babelfish (Systran) / Google Translate, 2007/23
       http://blog.imtranslator.com/category/machine-translation/statistical-
       machine-translation
          « How does the statistical machine translation work? », by Julia,
          18/06/2007
          « Google uses stats for translation », by Julia, 18/06/2007
          « How Google translates without understanding », by Julia, 17/06/2007
       http://www.theregister.co.uk/2007/05/15/google_translation/page2.html
       google books
          « Machine Translation: From Research to Real Users : 5th Conference of
          the Association for Machine Translation »
          « Machine Translation: 6th Conference of the Association for Machine
          Translation », By Robert E.
          « Translation Engines: Techniques for Machine Translation », By Arturo
          Trujillo
          « Recent Advances in Example-Based Machine Translation », By Michael
          Carl, Andy Way
       Articles de Wikipedia, http://www.wikipedia.org/wiki/Catégorie:Traitement
       %20automatique%20du%20langage%20naturel

É. Lopez & D. Graeff             Systran vs. Google Translate                   17/ 18
Vous pouvez aussi lire