Systran vs. Google dossier pour le cours de TAL de J.P. Gruselle par Delphine Graeff et Édouard Lopez
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Systran vs. Google dossier pour le cours de TAL de J.P. Gruselle par Delphine Graeff et Édouard Lopez É. Lopez & D. Graeff Systran vs. Google Translate 1/ 18
Table of Contents Introduction.............................................................................................................3 SYSTRAN.................................................................................................................5 Historique............................................................................................................5 Applications.....................................................................................................5 Les 5 étapes du système SYSTRAN :...............................................................6 SYSTRAN, un « rules-based system »..............................................................7 Google translate......................................................................................................8 Historique............................................................................................................8 Google translate un « statistical-based system »................................................8 Ressources.......................................................................................................8 La qualité de traduction...................................................................................8 Machine de Traduction Statistique.......................................................................10 Modèle d'alignement, principe général.............................................................10 Modèle d'alignement statistiques..................................................................11 Exemples de modèles d'alignements.............................................................12 Modèles heuristiques.....................................................................................12 Comparaison des modèles statistiques et heuristiques.................................13 ANNEXES..............................................................................................................14 Références.............................................................................................................15 Glossaire ...............................................................................................................16 É. Lopez & D. Graeff Systran vs. Google Translate 2/ 18
Introduction A l'heure actuelle, la traduction automatique est appréciée du grand public car elle permet de déchiffrer de façon grossière le thème, les principaux faits ou éléments d'information d'une page Web écrite dans une langue totalement inconnue,... En outre, le volume de données à traiter étant devenue humainement impossible à traduire en un temps suffisamment court, les systèmes de traduction automatique s'avèrent un choix plus judicieux. Depuis la fin du mois d'octobre, Google utilise son propre système de traduction automatique pour 25 paires de langues: français, anglais, arabe, chinois traditionnel ou simplifié, néerlandais, italien, allemand, le grec, japonais, coréen, portugais, russe et espagnol. Jusqu'ici, Google n'avait développé ses propres processus de traduction uniquement pour certaines langues non latines : arabe, chinois, coréen, japonais, russe. Pour le reste, il faisait appel à la société française leader de la traduction automatique: SYSTRAN. En s'intéressant à l'ancien et au nouveau système de traduction de google, nous nous sommes heurté au manque de documentation. En effet, tant pour SYSTRAN que pour Google Translate, les enjeux économiques empêchent toute publication trop descriptive des projets. C'est pour cette raison que nous avons élargi notre sujet, en développant une partie: « Machine de Traduction Statistiques (MTS) ». On opposera ce MTS aux autres types de système de traduction, notamment ceux vu en cours de Traitement Automatique des Langues (TAL), qui reposent sur des règles et non des statistiques. É. Lopez & D. Graeff Systran vs. Google Translate 3/ 18
PARTIE I É. Lopez & D. Graeff Systran vs. Google Translate 4/ 18
SYSTRAN Historique La société SYSTRAN fut créée dans la fin des années soixante (1968) pour traduire des documents Russes pour l'USA Air Force. Elle fut vendue en 1986 à la famille Gachot, basée à Paris, France, et est cotée en bourse depuis septembre 2000. Elle a un bureau principal à la Grande Arche de La Défense et maintient un bureau secondaire à La Jolla, à San Diego, en Californie. Applications SYSTRAN est le leader des solutions et logiciels de traduction tant pour particulier, que serveur ou services en ligne. Il est actuellement possible de traduire vers et à partir de 52 paires de langues des contenus en langue étrangère. Ce qui fait de lui le système possédant le plus de paires de langues ainsi que la plus grosse ressource lexicale du monde : ses dictionnaires de bases contiennent plus de 300 000 entrées pour chaque langue. SYSTRAN dispose également de douzaines de dictionnaires spécialisés contenant chacun plus de 100 000 entrées. Avec plus de 30 ans d'expertise, les produits et solutions de SYSTRAN sont utilisés par les plus grandes multinationales, portails Internet (Babelfish, Yahoo, AltaVista, Free, Lexilogos, LinguaNet, Lycos, Music Automatic Translator, Newstran, ainsi que Google jusqu'à octobre 2007 etc.) et des administrations publiques comme l'« US Intelligence Community » et la Commission européenne. É. Lopez & D. Graeff Systran vs. Google Translate 5/ 18
Les 5 étapes du système SYSTRAN : Systran découpe la traduction en 5 grandes étapes : 1. Input : correspond au chargement du texte et du dictionnaire et confronte chaque mot à un dictionnaire de fréquence ; 2. Main dictionary lookup : tri alphabétique des mots restant et recherche dans le dictionnaire principal (Main Stem dictionnary) ; 3. Analyse : sept « passes » sont effectuez sur chaque phrase : i. résolution des homographes en analysant la catégorie grammaticale des mots adjacents ; ii. recherche de mots composés dans un dictionnaire (Limited Semantics dictionary) ; iii. identification des groupes nominaux, verbaux et propositionnels en recherchant la ponctuation, les conjonctions, les pronoms relatifs, etc. iv. identifier des relations syntaxiques primaires telles que la congruence, le gouvernement et l'apposition ; v. identification des accords dans les phrases ; vi. identification des sujets et prédicats ; vii.identifier les structures prepositionnelles. 4. Transfert : i. rechercher les mots ayant des traductions idiomatiques dans certaines situations (« to agree » à la forme passive sera traduit par « convenir », sinon par « être d'accord ») ; ii. traduire les prépositions en utilisant la partie sémantique des mots auxquels ils sont reliés ; iii. résolution des ambiguïtés restantes, en les testant avec un dictionnaire de mots et expressions particulières. 5. Génération (Synthesis) : production des phrases dans la langue de destination à partir des équivalents du dictionnaire, en modifiant la flexions des verbes et les terminaisons des adjectifs ; changer l'ordre des mots si besoin (ex. : adjective-noun). É. Lopez & D. Graeff Systran vs. Google Translate 6/ 18
É. Lopez & D. Graeff Systran vs. Google Translate 7/ 18
SYSTRAN, un « rules-based system » Comme on vient de le voir, SYSTRAN fait appel à une technologie à base de règles : règles morphologiques, syntaxiques, sémantiques, grammaticales, règles heuristiques de rattachement pour associer les termes entre eux, règles logiques, etc. Malgré des résultats de traduction d'un bon niveau, les systèmes basés sur des règles présentent des inconvénients : la mise en oeuvre de ce genre de système ne s'étend qu'a un unique couple langue source (SL) – langue de destination (TL), il faut en effet refaire la base de règles pour la traduction dans le sens opposé ou pour tout autre couple de langues ; les ressources en temps et en experts pour l'élaboration, le maintient et la correction de la base de règles sont extrêmement lourdes. La base de règles étant élaborée par des linguistes, selon les modèles qu'ils adopteront certains cas ne sauront pas couverts ; les règles définies tendant à la complexité de manière à couvrir un maximum de cas rendant le système lourd ; insensibilité aux évolutions linguistiques, à l'émergence de nouveaux vocabulaires comme on le voit sur le web. É. Lopez & D. Graeff Systran vs. Google Translate 8/ 18
Google translate Historique Google translate est le service de google qui permet de traduire un texte ou bien une web page dans une autre langue. Pour certaines langues, les utilisateurs peuvent suggérer une traduction alternative, comme par exemple des termes techniques, pour qu’ils soient intégrés dans les prochaines mises à jour. Google translate (depuis octobre 2007) utilise sa propre Machine de Traduction. Il ne s’agit pas d’une technologie morpho-syntaxique comme celles des concurrents. Il s’agit : d’une approche linguistique de corpus : le système est nourri avec environ 200 milliards de mots provenant des « United Nations materials ». des techniques d’apprentissage statistique : pour entrainer et construire un modèle statistique. Ce modèle permet notamment de dire : à chaque fois que le mot A est utilisé avec le mot B (dans le SL), cela signifie l’expression X plutôt que l’expression Y (dans le TL). Google translate un « statistical-based system » Google translate est donc une machine de traduction basée sur des modèles statistiques dont les paramètres sont dérivés d’une analyse bilingue de « text corpora » = textes multilingue et structurés. Ressources Ne nécessite pas un énorme travail de la part des linguistes, contrairement aux systèmes ayant besoin de définir les grammaires et vocabulaires des différentes langues. Cependant cette approche nécessite une quantité de données importante, chose qui ne pose pas de problèmes à Google. La qualité de traduction bien que le résultat ne soit pas parfait le sens global d’un texte traduit reste largement compréhensible: Exemple : le système marche mieux pour certains types de texte (news) que pour d’autres (poésie) É. Lopez & D. Graeff Systran vs. Google Translate 9/ 18
des mots simples sont parfois bizarrement traduit… É. Lopez & D. Graeff Systran vs. Google Translate 10/ 18
PARTIE II É. Lopez & D. Graeff Systran vs. Google Translate 11/ 18
Cette partie ne traite pas de Google translate directement, mais des SMT en général. Il est plus que probable que certains des modèles que l'on va abordé sont utilisés par le système de traduction de Google. D'autant plus que l'un des auteurs principaux des articles traitant de ces modèles se trouvent être un employé de Google. Machine de Traduction Statistique Le principe est simple, prendre une phrase de la langue source (ici le Français) qui doit être traduite dans une phrase de destination (l'anglais) . Parmi toute les traductions possibles, nous choisirons celle ayant la probabilité la plus haute : L'opérateur argmax correspond à la fonction génératrice de la solution. L'élaboration d'un modèle statistique se fait en 3 étapes : ✑✎ Modeling : choisir un modèle (voir suite) ; ✒✎ Training (ou Estimation des paramètres) : assigner des valeurs spécifiques aux paramètres du modèle en lui donnant des données. Les corpus d'entraînement doivent correspondre à la future utilisation du modèle sous peine d'avoir des résultats de mauvaise qualité ; ✓✎ Search (ou Décodage) : trouver la meilleure traduction de la phrase source. Modèle d'alignement, principe général On distingue deux modèles de ce type pour calculer l'alignement de mots : un modèle dit d'alignement statistique et un modèle dit heuristique. Nous allons décrire successivement c'est deux modèles et finalement les comparer d'un point de vue théorique. Notation : : probabilité réelle (de distribution) que la phrase française (target language) soit traduite par la phrase anglaise (source language). : probabilité de distribution basée sur le modèle, approximant . É. Lopez & D. Graeff Systran vs. Google Translate 12/ 18
Modèle d'alignement statistiques Les MTS tentent de modéliser la probabilité de traduction , qui décrit la relation entre la phrase d'origine et la phrase de destination . Dans le modèle d'alignement statistiques , un alignement « caché » est introduit, qui décrit une correspondance de la position d'origine j vers la position de destination aj . La relation entre le modèle de traduction et le modèle d'alignement est donné par : L'alignement peut contenir des alignements aj = 0 avec le mot « vide » e0 qui correspond aux mots sources n'étant alignés à aucun mots de la phrase de destination. De manière générale, les modèles statistiques dépendent d'un ensemble de paramètres θ qui sont acquis lors de la phase d'entraînement du modèle. Pour exprimer la dépendance du modèle à ces paramètres, on utilise la notation suivante : La difficulté de la modélisation vient du fait qu'il faille élaborer un modèle statistique capable de saisir les propriétés essentielles du domaine étudié. Ce qui revient à décrire correctement la relation entre la phrase d'origine et la phrase de destination. Les paramètres θ sont obtenus à partir d'un entraînement basé sur des corpus parallèles de S paires de phrases , pour chaque couple , la variable d'alignement est notée . Les paramètres θ inconnus sont déterminés par le maximum de vraisemblance des corpus d'entraînement : Bien que pour une paire de phrase il soit possible de trouver de nombreux alignements, on peut toujours en trouver un meilleur : É. Lopez & D. Graeff Systran vs. Google Translate 13/ 18
l'alignement est aussi appelé l'alignement vertibi de la paire de phrase Les paramètres des modèles d'alignement sont optimisés en respectant le maximum du critère vraissemblance, qui est necessairement relié à la qualité de l'alignement. Cependant, une telle approche necessiterait un entrainnement avec des alignements définis manuellement. Des preuves expérimentales montre que les modèles d'alignement statistiques utilisant cette méthode d'estimation de paramêtre obtienne généralement une bonne qualité d'alignement. Exemples de modèles d'alignements « Hidden Markov alignment model » : repose sur des dépendances de premier ordre ; « Model 1 » et « Model 2 » : reposent sure des dépendances d'ordre zéro ; « Fertility-based Alignment Models » : Model 3, 4, 5 et 6, reposent sur des dépendances de premier ordre. sont plus compliqués que les précédants. prennent en compte le nombre de mots du SL alignés. Modèles heuristiques Des méthodes simples pour obtenir des alignements de mots utilisent une fonction similaire entre les types des deux langages (généralement: « the Dice coefficient »). Pour chaque paire de phrases, une matrice incluant les scores d'association entre chaque mot à chaque position est alors obtenue: C(e,f) montre le nombre de co-occurence du mot e et du mot f dans le corpus. C(e) et C(f) montre le nombre de mots e dans les phrases du TL et le nombre de mots f dans le SL. De cette matrice de scores d'association, on obtient l'alignement des mots en appliquant des heuristiques adéquates. Une des méthodes est de choisir comme alignement aj=i pour la position j le mot avec le plus grand score d'association: Un perfectionnement de cette méthode est le « competitive linking algorithm ». Cette méthode requière d'aligner d'abord la position de plus grand score (i,j), puis retirer la ligne et colonne de la matrice de score d'association. Cette procédure est répétée itérativement jusqu'à ce que tous les mots du SL et TL soient alignés. É. Lopez & D. Graeff Systran vs. Google Translate 14/ 18
L'avantage de cette approche sont ces associations indirectes. l'alignement qui en résulte ne contient que des alignement 1 à 1 et a généralement une meilleure précision. Comparaison des modèles statistiques et heuristiques Le principal avantage des modèles heuristiques est leur simplicité ils sont très facile à implémenter et à comprendre. Un inconvénient à ces modèles heuristiques est que l'utilisation d'une fonction similaire spécifique semble être complètement arbitraire. La littérature contient une grande variété de fonctions de scores, certaines incluant des paramêtres ajustés empiriquement. L'approche utilisant des modèles d'alignement statistique semble plus cohérent. Le principe général pour arrivé à un score d'association entre les mots résulte d'une théorie d'estimation statistique et les paramêtres du modèle sont ajustés avec le corpus d'entrainnement. É. Lopez & D. Graeff Systran vs. Google Translate 15/ 18
ANNEXES SYSTRAN1 GOOGLE Offres service web ; service web (dictionnaire, traducteur de texte). application de bureau ; serveur de traduction. Langues Arabic↔English, Chinese↔English, Dutch↔English, Dutch↔French, English↔French, English↔German, English↔Greek, English↔Italian, English↔Japanese, English↔Korean, English↔Portuguese, English↔Russian, English↔Spanish, English↔Swedish, French↔German, French↔Greek, French↔Italian, French↔Portuguese, French↔Spanish, etc. Tarifs offre personnelle : > $100 ; gratuit (par offre professionnelle > $350 pair de langues offre entreprise : non ) communiqué Dictionn plusieurs millions d'entrées, ? aires : domaines spécifiques Platefor selon l'offre windows seulement, multiplateforme me : multiplateforme via navigateur, serveur, Fichier : MS Office, RTF, SGML HTML, PDF, URL et texte saisi Word, Excel, PowerPoint, webpages, RTF, ASCII, ANSI, text, most word-processors, and email, MS Office, Excel, PowerPoint, Internet Explorer, WordPerfect, Frame, Interleaf, Netscape Web. 1Compendium of Translation Software directory of commercial machine translation systems and computer-aided translation support tools Compiled by John Hutchins 13th edition (June 2007), European Association for Machine Translation. É. Lopez & D. Graeff Systran vs. Google Translate 16/ 18
Références « The SYSTRAN Linguistics Platform : A Software Solution to Manage Multilingual Corporate Knowledge », by SYSTRAN October 2002. « The evolution of machine translation systems », W. John Hutchins, 1982 « Statistical Machine Translation: From Single-Word Models to Alignment Templates », par Franz Josef Och, 08/10/2002 « Statistical Machine Translation : Foundations and Recent Advances Tutorial at MT Summit 2005 », Franz Josef Och from Google, Inc., 12/09/2005 http://adscriptum.blogspot.com « Google et la traduction automatique », 04/2006 Comparaisons Yahoo Babelfish (Systran) / Google Translate, 2007/23 http://blog.imtranslator.com/category/machine-translation/statistical- machine-translation « How does the statistical machine translation work? », by Julia, 18/06/2007 « Google uses stats for translation », by Julia, 18/06/2007 « How Google translates without understanding », by Julia, 17/06/2007 http://www.theregister.co.uk/2007/05/15/google_translation/page2.html google books « Machine Translation: From Research to Real Users : 5th Conference of the Association for Machine Translation » « Machine Translation: 6th Conference of the Association for Machine Translation », By Robert E. « Translation Engines: Techniques for Machine Translation », By Arturo Trujillo « Recent Advances in Example-Based Machine Translation », By Michael Carl, Andy Way Articles de Wikipedia, http://www.wikipedia.org/wiki/Catégorie:Traitement %20automatique%20du%20langage%20naturel É. Lopez & D. Graeff Systran vs. Google Translate 17/ 18
Vous pouvez aussi lire