What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde

La page est créée Benoît Perez
 
CONTINUER À LIRE
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
What data is needed for improving
     automated translation?

      Dr. Andrejs Vasiļjevs, ELRC/Tilde

                         Credits:
                  Khalid Choukri, ELRA
           Prof. Dr. Josef van Genabith, DFKI

                 ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
No of pages of texts/Million words

ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
What Data?

• Anything that contains “words”

• Preferences for “sentences”, even for sentences
  expressed in multiple languages

• Examples: reports, speeches, documents, web pages,
  brochures, etc.

• Bags of “words”, “sentences”, multiple bags

                     ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
What types of data?
          “Aligned” Translation

English                               Danish

            ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
Digital textual data in various
formats – valuable language
           resources

       ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
Dictionaries / Terminologies
                       /Ontologies

ID     FR                              ES                           EL
6905   abandon scolaire                abandono escolar             διακοπή της σχολικής φοίτησης
920    abats                           despojo                      παραπροϊόντα σφαγίων
1857   abattage d'animaux              sacrificio de animales       σφαγή ζώων
6621   abrogation                      derogación                   κατάργηση
5075   Abruzzes                        Abruzos                      Αβρουζία
                                                                    συστηματική απουσία από την
5339   absentéisme                     absentismo                   εργασία
5984   abstentionnisme                 abstencionismo               αποχή
2      abus de confiance               abuso de confianza           απιστία
96     abus de droit                   abuso de derecho             κατάχρηση δικαιώματος
186    abus de pouvoir                 abuso de poder               κατάχρηση εξουσίας
280    accès à l'éducation             acceso a la educación        πρόσβαση στην εκπαίδευση
372    accès à l'emploi                acceso al empleo             πρόσβαση στην αγορά εργασίας

                             ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
7

                                         Comparable Collections

        English                             Greek                                  Spanish

        Τelecommunication occurs            Με τον γενικό όρο                      Una telecomunicación es toda
                                            τηλεπικοινωνίες,                       transmisión y recepción de
        when the exchange of                (telecommunications),                  señales de cualquier naturaleza,
        information between two or          χαρακτηρίζεται η κάθε μορφής           típicamente electromagnéticas,
        more entities                       ενσύρματη ή ασύρματη,                  que contengan signos, sonidos,
        (communication) includes the        ηλεκτρομαγνητική, ηλεκτρική,           imágenes o, en definitiva,
        use of technology.                  κ.λπ., ακουστική και οπτική            cualquier tipo de información
                                            επικοινωνία που                        que se desee comunicar a cierta
        Communication technology            πραγματοποιείται ανεξαρτήτως           distancia.
                                            απόστασης.
        uses channels to transmit
        information (as electrical                                                 Por metonimia, también se
        signals), either over a             Στους σύγχρονους καιρούς,              denomina telecomunicación (o
        physical medium (such as            αυτή η διαδικασία σχεδόν πάντα         telecomunicaciones,
        signal cables), or in the form      περιλαμβάνει την αποστολή              indistintamente) a la disciplina
                                            ηλεκτρομαγνητικών κυμάτων ή            que estudia, diseña, desarrolla y
        of electromagnetic waves.           ηλεκτρικών σημάτων από                 explota aquellos sistemas que
                                            κατάλληλες ηλεκτρονικές                permiten dichas
        The word is often used in its       συσκευές, όπως το τηλέφωνο ή           comunicaciones; de forma
        plural form,                        ο ασύρματος, αλλά παλαιότερα           análoga, la ingeniería de
        telecommunications, because         περιελάμβανε τη χρήση                  telecomunicaciones resuelve los
                                            ακουστικών σημάτων, όπως               problemas técnicos asociados a
        it involves many different          τυμπάνων, ή οπτικών, όπως ο            esta disciplina.
        technologies.                       σηματοφόρος καπνός ή η λάμψη
                                            της φωτιάς.

    Source: First sentences of articles for Telecommunications in the English, Greek and Spanish Wikipedias

                                            ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
Public Sector Data Sources

• Visible data e.g. Web
   – Public websites
   – leaflets, brochures, news etc.

• Invisible Data: archives , hidden web, internal repositories
   – translated documents, reports, speeches, meeting minutes etc.

• Data from outsourced translations:
   – From Language Service Providers and freelance translators
   – Translation Memory as part of contract delivery
   – Respective provisions in the contracts for outsourced translations

                              ELRC Copenhagen Workshop, 07.03.2016
What data is needed for improving automated translation? - Dr. Andrejs Vasiļjevs, ELRC/Tilde
The Public
                                                                    4%                  Web

                                                                                          The Deep
                                                                    96%                   Web

                                                                   Information stored inside
Multilingual databases
                                                                   institutions or online with
Public sector resources
                                                                   password protection
Organization specific repositories
Legal documents
Scientific reports
Medical records
Etc.                                 ELRC Rīgas seminārs, 6 .10.2015                                         9
                                                             Source: Exploring the Deep Web with Semantic Search
10
                                          Processing of Bilingual Documents
                                               for Machine Translation

 Word docs from http://www.diplomatie.gouv.fr/fr/photos-videos-publications/publications/enjeux-planetaires-cooperation/rapports/article/rapports-du-groupe-pilote,
        Financements innovants pour l’agriculture, la sécurité alimentaire et la nutrition, Ministère des Affaires étrangères et du Développement international

                                                                                English
                                                                                version

                                                                              French
                                                                              version

                                                                ELRC Copenhagen Workshop, 07.03.2016
11
                             Management of Bilingual Data
                                   Example (2/4)

                                                                                     rapport
                                                                                          Comité d’experts
              report
                                      expert Com-
     mittee

                                                                                   Groupe pilote sur les finance-
     Leading Group on Innovative Financing for
                                                                  ments innovants pour le développement lors
     Development at its 9th plenary session in Mali
                                                                  de sa 9e session plénière, qui s’est tenue au
     (Bamako) in June 2011.
                                                                  Mali (Bamako) en juin 2011.
         report
                                                                               rapport

                                        ELRC Copenhagen Workshop, 07.03.2016
12
                                      Management of Bilingual Data
                                            Example (3/4)

     English version – Raw text                               French version – Raw text

     Executive Summary                                        Résumé
     This report is the result of a collective work carried   Le présent rapport résulte d’un travail collectif mené
     out by the high-level expert Committee and a writing     par le Comité d’experts de haut niveau et une équipe
     team commissioned by the Task Force on Innovative        de rédacteurs désignés à cette fin par le groupe de
     Financing for agriculture, food security and nutrition   travail sur les financements innovants pour
     created by the Leading Group on Innovative Financing     l’agriculture, la sécurité alimentaire et la
     for Development at its 9th plenary session in Mali       nutrition. Ce groupe de travail a été créé par le
     (Bamako) in June 2011.                                   Groupe pilote sur les financements innovants pour le
     The report includes an analysis of the need for          développement lors de sa 9e session plénière, qui
     innovating financing dedicated to the agricultural,      s'est tenue au Mali (Bamako) en juin 2011.
     food security and nutrition sector, a critical review    Le présent rapport comporte une analyse des raisons
     of existing and possible mechanisms and a proposed       pour lesquelles des financements innovants dédiés à
     selection of avenues for the development of such         l'agriculture, à la sécurité alimentaire et à la
     mechanisms on the basis of the expertise of a high-      nutrition sont nécessaires, propose un examen critique
     level Committee of experts, literature review,           des mécanismes existants et possibles, et présente une
     meetings with relevant professional actors and an on-    sélection de méthodes pour mettre au point ces
     line consultation on the Global Forum on food security   mécanismes. Il s'appuie à ces fins sur l'expertise du
     and nutrition (FSN Forum)1.                              Comité d'experts de haut niveau, une analyse
     The setting up of the Task Force on Innovative           bibliographique, des réunions avec les professionnels
     Financing for agriculture, food security and nutrition   concernés et la consultation en ligne organisée par le
     responds to current and future crucial challenges        Forum global sur la sécurité alimentaire et la
     faced by the international community                     nutrition (Forum FSN)1.
     [...]                                                    Le groupe de travail sur les financements innovants
                                                              pour l’agriculture, la sécurité alimentaire et la
                                                              nutrition a été créé pour relever les défis majeurs,
                                                              actuels et futurs, auxquels la communauté
                                                              [...]

                                               ELRC Copenhagen Workshop, 07.03.2016
13
                                   Management of Bilingual Data
                                         Example (4/4)

 Alignement of English and French versions
 S1. Executive Summary                                      S1. Résumé
 S2. This report is the result of a collective work         S2. Le présent rapport résulte d’un travail collectif
 carried out by the high-level expert Committee and a       mené par le Comité d’experts de haut niveau et une
 writing team commissioned by the Task Force on             équipe de rédacteurs désignés à cette fin par le
 Innovative Financing for agriculture, food security        groupe de travail sur les financements innovants pour
 and nutrition created by the Leading Group on              l’agriculture, la sécurité alimentaire et la
 Innovative Financing for Development at its 9th            nutrition.
 plenary session in Mali (Bamako) in June 2011.             S3. Ce groupe de travail a été créé par le Groupe
 S3. The report includes an analysis of the need for        pilote sur les financements innovants pour le
 innovating financing dedicated to the agricultural,        développement lors de sa 9e session plénière, qui
 food security and nutrition sector, a critical review      s'est tenue au Mali (Bamako) en juin 2011.
 of existing and possible mechanisms and a proposed         S4. Le présent rapport comporte une analyse des
 selection of avenues for the development of such           raisons pour lesquelles des financements innovants
 mechanisms on the basis of the expertise of a high-        dédiés à l'agriculture, à la sécurité alimentaire et à
 level Committee of experts, literature review,             la nutrition sont nécessaires, propose un examen
 meetings with relevant professional actors and an on-      critique des mécanismes existants et possibles, et
 line consultation on the Global Forum on food security     présente une sélection de méthodes pour mettre au
 and nutrition (FSN Forum)1.                                point ces mécanismes.
 S4. The setting up of the Task Force on Innovative         S5. Il s'appuie à ces fins sur l'expertise du Comité
 Financing for agriculture, food security and nutrition     d'experts de haut niveau, une analyse bibliographique,
 responds to current and future crucial challenges          des réunions avec les professionnels concernés et la
 faced by the international community [...]                 consultation en ligne organisée par le Forum global
                                                            sur la sécurité alimentaire et la nutrition (Forum
                                                            FSN)1.
                                                            S6. Le groupe de travail sur les financements
                                                            innovants pour l’agriculture, la sécurité alimentaire
                                                            et la nutrition a été créé pour relever les défis
                                                            majeurs, actuels et futurs, auxquels la communauté
                                                            [...]

                                             ELRC Copenhagen Workshop, 07.03.2016
We need your involvement

• You know your data
   – visible vs. invisible
• Access to archives, deep web, etc. is often not possible
  from the outside.
• Clearance and access to data that is not yet opened by
  PSI or a permissive license
• Access to source formats (e.g. Word) as derived forms
  (e.g. PDF) is less efficient than access to internal source
  content repositories.

                             ELRC Copenhagen Workshop, 07.03.2016
Vous pouvez aussi lire