TALN-RECITAL PFIA 2019 - Conférence sur le Traitement Automatique des Langues Naturelles - IRIT

La page est créée Théo Gilbert

Santé et fitness

Français

Like
Partager
Intégrer
Plein écran
Diapositives
Télécharger HTML
Télécharger PDF
Abus

←

CONTINUER À LIRE

→

Transcription du contenu de la page

Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous

TALN-RECITAL PFIA 2019 - Conférence sur le Traitement Automatique des Langues Naturelles - IRIT

TALN-RECITAL
Conférence sur le Traitement Automatique des
             Langues Naturelles

       PFIA 2019

Table des matières
Emmanuel Morin, Sophie Rosset et Pierre Zweigenbaum (TALN)
Anne-Laure Ligozat et Sahar Ghannay (RECITAL).
Éditorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
.
Comités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

Volume I : Articles longs

Syrielle Montariol et Alexandre Allauzen.
Apprentissage de plongements de mots dynamiques avec régularisation de la dérive . . . . . . . . . . . . 13
Victor Connes et Nicolas Dugué.
Apprentissage de plongements lexicaux par une approche réseaux complexes . . . . . . . . . . . . . . . . . . . 27
Ludovic Tanguy, Pauline Brunet et Olivier Ferret.
Comparaison qualitative et extrinsèque d’analyseurs syntaxiques du français : confrontation de
modèles distributionnels sur un corpus spécialisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
Loïc Vial, Benjamin Lecouteux et Didier Schwab.
Compression de vocabulaire de sens grâce aux relations sémantiques pour la désambiguïsation
lexicale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Natalia Grabar, Cyril Grouin, Thierry Hamon et Vincent Claveau.
Corpus annoté de cas cliniques en français . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Antoine Caubrière, Natalia Tomashenko, Yannick Estève, Antoine Laurent et Emmanuel Morin.
Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts
sémantiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Anissa Hamza et Delphine Bernhard.
Détection des ellipses dans des corpus de sous-titres en anglais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Tim Van de Cruys.
La génération automatique de poésie en français. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .113
Marco Dinarelli et Loïc Grobol.
Modèles neuronaux hybrides pour la modélisation de séquences : le meilleur de trois mondes127
Amalia Todirascu, Marion Cargill et Thomas Francois.
PolylexFLE : une base de données d’expressions polylexicales pour le FLE . . . . . . . . . . . . . . . . . . . . . 143

Volume II : Articles courts

Kate Thompson, Nicholas Asher, Philippe Muller et Jeremy Auguste.
Analyse faiblement supervisée de conversation en actes de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
Salima Mdhaffar, Yannick Estève, Nicolas Hernandez, Antoine Laurent et Solen Quiniou.
Apport de l’adaptation automatique des modèles de langage pour la reconnaissance de la parole :
évaluation qualitative extrinsèque dans un contexte de traitement de cours magistraux . . . . . . .167
Sonia Badene, Kate Thompson, Jean-Pierre Lorré et Nicholas Asher.
Apprentissage faiblement supervisé de la structure discursive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Frédéric Béchet, Cindy Aloui, Delphine Charlet, Géraldine Damnati, Johannes Heinecke, Alexis Nasr et Frédéric
Herlédan.
CALOR-QUEST : un corpus d’entraînement et d’évaluation pour la compréhension automatique
de textes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Iris Eshkol-Taravella, Mariame Maarouf, Marie Skrovec et Flora Badin.
Chunker différents types de discours oraux : défis pour l’apprentissage automatique . . . . . . . . . . 195
Yuming Zhai, Gabriel Illouz et Anne Vilnat.

Classification automatique des procédés de traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Guillaume Wisniewski.
Combien d’exemples de tests sont-ils nécessaires à une évaluation fiable ? Quelques observations
sur l’évaluation de l’analyse morpho-syntaxique du français. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Tsanta Randriatsitohaina et Thierry Hamon.
De l’extraction des interactions médicament-médicament vers les interactions aliment-médicament
à partir de textes biomédicaux : Adaptation de domaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223
Fiammetta Namer, Lucie Barque, Olivier Bonami, Pauline Haas, Nabil Hathout et Delphine Tribout.
Demonette2 - Une base de données dérivationnelles du français à grande échelle : premiers ré-
sultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Elise Bigeard et Natalia Grabar.
Détecter la non-adhérence médicamenteuse dans les forums de discussion avec les méthodes de
recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Rémi Cardon et Natalia Grabar.
Détection automatique de phrases parallèles dans un corpus biomédical comparable technique/simplifié
255
Benoît Sagot.
Développement d’un lexique morphologique et syntaxique de l’ancien français . . . . . . . . . . . . . . . . . 265
Adrien Bardet, Fethi Bougares et Loïc Barrault.
Étude de l’apprentissage par transfert de systèmes de traduction automatique neuronaux . . . . 275
Antoine Perquin, Gwénolé Lecorvé, Damien Lolive et Laurent Amsaleg.
Évaluation objective de plongements pour la synthèse de parole guidée par réseaux de neurones
285
Sara Meftah, Nasredine Semmar, Youssef Tamaazousti, Hassane Essafi et Fatiha Sadat.
Exploration de l’apprentissage par transfert pour l’analyse de textes des réseaux sociaux . . . . 293
Syrielle Montariol, Aina Garí Soler et Alexandre Allauzen.
Exploring sentence informativeness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Fréjus A. A. Laleye, Antonia Blanié, Antoine Brouquet, Dan Benhamou et Gaël de Chalendar.
Hybridation d’un agent conversationnel avec des plongements lexicaux pour la formation au diag-
nostic médical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Nadia Bebeshina-Clairet et Mathieu Lafourcade.
Inférence des relations sémantiques dans un réseau lexico-sémantique multilingue . . . . . . . . . . . . . 323
Jean-Yves Antoine, Marion Crochetet, Céline Arbizu, Emmanuelle Lopez, Samuel Pouplin, Amélie Besnier et
Mathieu Thebaud.
Ma copie adore le vélo : analyse des besoins réels en correction orthographique sur un corpus de
dictées d’enfants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
Olga Seminck, Vincent Segonne et Pascal Amsili.
Modèles de langue appliqués aux schémas Winograd français . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
Patricia Chiril, Farah Benamara, Véronique Moriceau, Marlène Coulomb-Gully et Abhishek Kumar.
Multilingual and Multitarget Hate Speech Detection in Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
Iris Eshkol-Taravella et Hyun Jung Kang.
Observation de l’expérience client dans les restaurants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Laurent Kevers, Florian Guéniot, A. Ghjacumina Tognotti et Stella Retali-Medori.
Outiller une langue peu dotée grâce au TALN : l’exemple du corse et de la BDLC . . . . . . . . . . . . 371
Amira Barhoumi, Nathalie Camelin, Chafik Aloulou, Yannick Estève et Lamia Hadrich Belguith.
Plongements lexicaux spécifiques à la langue arabe : application à l’analyse d’opinions . . . . . . . 381
Saoussen Mathlouthi Bouzid et Chiraz Ben Othmane Zribi.
Q-learning pour la résolution des anaphores pronominales en langue arabe . . . . . . . . . . . . . . . . . . . . . 391

Tom Bourgeade et Philippe Muller.
Représentation sémantique distributionnelle et alignement de conversations par chat . . . . . . . . . 399
Quentin Gliosca et Pascal Amsili.
Résolution des coréférences neuronale : une approche basée sur les têtes . . . . . . . . . . . . . . . . . . . . . . . 409
Amir Hazem, Béatrice Daille, Dominique Stutzmann, Jacob Currie et Christine Jacquin.
Réutilisation de textes dans les manuscrits anciens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
Aleksandra Miletić, Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat et Marianne Vergez-Couret.
Transformation d’annotations en parties du discours et lemmes vers le format Universal Depen-
dencies : étude de cas pour l’alsacien et l’occitan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
Yoann Dupont.
Un corpus libre, évolutif et versionné en entités nommées du français. . . . . . . . . . . . . . . . . . . . . . . . . . .437
Filipo Studzinski Perotto, Fadila Taleb, Eric Trupin, Youssouf Saidali, Maryvonne Holzem, Jacques Labiche et
Laurent Vercouter.
Une approche hybride pour la segmentation automatique de documents juridiques . . . . . . . . . . . . 447

Volume III : RECITAL

Mathilde Regnault.
Adaptation d’une métagrammaire du français contemporain au français médiéval . . . . . . . . . . . . . 459
Mérième Bouhandi.
Apport des termes complexes pour enrichir l’analyse distributionnelle en domaine spécialisé 473
Jessica López Espejel.
Automatic summarization of medical conversations, a review . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487
Bruno Oberle.
Détection automatique de chaînes de coréférence pour le français écrit : règles et ressources adap-
tées au repérage de phénomènes linguistiques spécifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
Ygor Gallina.
Etat de l’art des méthodes d’apprentissage profond pour l’extraction automatique de termes-clés
513
Emmanuelle Kelodjoue.
Extraction d’opinions pour l’analyse multicritère à partir de corpus oraux transcrits : État de
l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525
Léon-Paul Schaub et Cyndel Vaudapiviz.
Les systèmes de dialogue orientés-but : état de l’art et perspectives d’amélioration . . . . . . . . . . . 541
Mathilde Veron.
Lifelong learning et systèmes de dialogue : définition et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563
Manon Scholivet.
Méthodes de représentation de la langue pour l’analyse syntaxique multilingue . . . . . . . . . . . . . . . . 577
Dusica Terzic.
Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane . . . . . . . . . . . . . . . . . . . . . . . 591
Sandra Bellato.
Vers la traduction automatique d’adverbiaux temporels du français en langue des signes française
605

Volume IV : Démonstrations

Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial et Benjamin Lecouteux.
Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en
situation de handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN . . . . . . . . 619

Guillaume Dubuisson Duplessis, Sofiane Kerroua, Ludivine Kuznik et Anne-Laure Guénet.
Cameli @ : analyses automatiques d’e-mails pour améliorer la relation client . . . . . . . . . . . . . . . . . . . 623
Marine Schmitt, Élise Moreau, Mathieu Constant et Agata Savary.
Démonstrateur en-ligne du projet ANR PARSEME-FR sur les expressions polylexicales . . . . . 627
Olivier Hamon, Kévin Espasa et Sara Quispe.
SylNews, un agréfilter multilingue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 631
Ioan Calapodescu, Caroline Brun, Vassilina Nikoulina et Salah Aït-Mokhtar.
“Sentiment Aware Map” : exploration cartographique de points d’intérêt via l’analyse de senti-
ments au niveau des aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635
Alexandre Arnold, Gérard Dupont, Catherine Kobus, François Lancelot et Pooja Narayan.
Interprétation et visualisation contextuelle de NOTAMs (messages aux navigants aériens) . . . 639

Éditorial
    La 26e édition de la conférence TALN et la 21e édition de la session jeunes chercheuses et chercheurs
RECITAL se déroulent cette année à Toulouse au sein de la Plateforme française d’intelligence artificielle
(PFIA). TALN a une longue tradition de tenue conjointe avec des conférences de domaines proches. Cette
pratique a été initiée avec les Journées d’étude sur la parole (JEP) en 2002 à Nancy puis depuis 2008 tous les
quatre ans (2008 : Avignon, 2012 : Grenoble, 2016 : Paris). Elle s’est diversifiée avec la Conférence de recherche
d’information et applications (CORIA) en 2018 à Rennes. Elle innove cette année avec un hébergement à
Toulouse au sein de PFIA. Ces événements sont l’occasion de rencontres enrichissantes pour tous. Cette année,
ce ne sont pas moins de huit conférences, sans compter les ateliers associés, aux sessions desquelles les participants
à TALN-RECITAL pourront se mêler : APIA (5e Conférence sur les Applications Pratiques de l’Intelligence
Artificielle), CAp (21e Conférence sur l’Apprentissage Automatique), IC (30es Journées Francophones Ingénierie
des Connaissances), JFPDA (14es Journées Planification, Décision et Apprentissage), JFSMA (27es Journées
Francophones sur les Systèmes Multi-Agents), JIAF (13es Journées d’Intelligence Artificielle Fondamentale),
RJCIA (17e Rencontre des Jeunes Chercheurs en Intelligence Artificielle), ainsi que CNIA (22e Conférence
Nationale en Intelligence Artificielle), qui regroupe les thématiques de l’intelligence artificielle non couvertes par
les conférences précédentes.
    Les conférences invitées plénières, les sessions de présentations affichées et de démonstrations, les déjeuners
et pauses café, les dîners de la conférence sont autant de moments programmés pour que se retrouvent les
participants de toutes les conférences. Nous tenons à saluer la qualité de la planification et du suivi du comité
scientifique de la plateforme ainsi que le grand travail du comité d’organisation, le tout visant à assurer que
l’ensemble des conférences se tienne dans les meilleures conditions et au meilleur coût.
    Pour la deuxième année consécutive, les modalités de soumission à TALN se faisaient avec un appel unique
et un seul format de soumission en article court pouvant être étendu en article long sur proposition du comité
de programme (et demande préalable des auteurs). Nous avons ainsi reçu soixante cinq articles courts et le
comité de programme a proposé à dix articles le passage en format long (15 %) et a retenu trente et un
articles en format court (48 %). Chaque article a été relu par trois membres du comité de lecture en s’appuyant
le cas échant sur des relecteurs additionnels. Le comité de programme s’est appuyé sur ces relectures pour
sélectionner lors d’une réunion pleinière les articles composant le programme. C’est un fonctionnement auquel
nous sommes profondément attachés pour assurer une diversité dans les thématiques abordées. L’ensemble des
évaluations ont été réalisées en double aveugle. Nous remercions les membres des comités de programme et de
lecture (à parité femme – homme) pour leur contribution indispensable à ce processus. Le programme de la
conférence est complété par quatre démonstrations sélectionnées par le comité de programme. Les titres des
sessions donnent une idée des thématiques abordées par la conférence. Ils comprennent des paliers et tâches
habituels du TAL (Morphologie et Syntaxe, Syntaxe, Résolution d’anaphores, Multilinguisme), reflètent la place
prise par l’apprentissage (Apprentissage par transfert et modèles de langue, Plongements de mots), l’importance
fondamentale que continuent à jouer les corpus et bases de données lexicales (Ressources), et l’intérêt du TAL
pour des domaines particuliers (Langues spécialisées, Traitement de la langue biomédicale). Comme chaque
année, l’ATALA a décerné un prix de thèse dont la récipiendaire présentera son travail en session plénière.
La conférence a invité la présentation d’instruments récents du CNRS par leurs coordinatrices : d’une part
le pré-GDR TAL (INS2I / informatique), qui adopte une vision inclusive du traitement de la langue (écrite,
orale, signée), couvrant les communautés du traitement automatique des langues, du traitement automatique
du langage parlé et de la recherche d’information ; d’autre part le GDR LIFT (INSHS / sciences du langage)
sur la linguistique informatique, formelle et de terrain.
    Cette année, dix-sept articles ont été soumis à RECITAL. Après avoir été chacun évalué par deux membres
du comité de programme, quatre articles ont été retenus pour une présentation orale (soit un taux de sélection
pour présentation orale de 24 %), et sept autres ont été retenus pour une présentation sous forme de poster
(taux de sélection global de 65 %). Nous avons ainsi pu donner l’opportunité à douze jeunes chercheuses et
chercheurs, en grande majorité en début de thèse, de présenter leurs travaux à la communauté. Nous remercions
le comité de programme (également à parité femme – homme) pour leur minutieux travail de relecture.
    Nous souhaitons pour finir au public de ces conférences une semaine riche en découvertes scientifiques et en
rencontres de nouveaux collègues, dans une ambiance assurément chaude pour toute la semaine.

                                                Emmanuel Morin, Sophie Rosset et Pierre Zweigenbaum (TALN)
                                                          Anne-Laure Ligozat et Sahar Ghannay (RECITAL)

                                                          7                          TALN-RECITAL@PFIA 2019

Comités

Présidents de TALN
  — Emmanuel Morin (LS2N, Université de Nantes)
  — Sophie Rosset (LIMSI, CNRS, Université Paris-Saclay)
  — Pierre Zweigenbaum (LIMSI, CNRS, Université Paris-Saclay)

Membres du CP de TALN
  —   Delphine Bernard (LiLPa, Université de Strasbourg)
  —   Chloé Braud (LORIA, CNRS)
  —   Nathalie Camelin (LIUM, Le Mans Université)
  —   Peggy Cellier (IRISA, INSA Rennes)
  —   Benoît Crabbé (LLF, Université Paris Diderot)
  —   Iris Eshkol-Taravella (MoDyCo, Université Paris Nanterre)
  —   Cécile Fabre (CLLE-ERSS, Université Toulouse - Jean Jaurès)
  —   Núria Gala (LPL, Aix Marseille Université)
  —   Thierry Hamon (LIMSI, Université Paris Nord)
  —   Philippe Langlais (RALI/DIRO, Université de Montréal)
  —   Gwénolé Lecorvé (IRISA, Université de Rennes 1)
  —   Aurélie Névéol (LIMSI, CNRS, Université Paris-Saclay)
  —   Damien Nouvel (ERTIM, INaLCO)
  —   Didier Schwab (LIG, Université Grenoble Alpes)
  —   Xavier Tannier (LIMICS, Université Pierre et Marie Curie)

Comité de lecture de TALN
  —   Gilles Adda (LIMSI, CNRS, Université Paris-Saclay)
  —   Salah Ait-Mokhtar (Naver Labs Europe)
  —   Alexandre Allauzen (LIMSI, CNRS, Université Paris-Saclay)
  —   Maxime Amblard (LORIA, Université de Lorraine)
  —   Jean-Yves Antoine (LIFAT, Université de Tours)
  —   Loïc Barrault (LIUM, Le Mans Université)
  —   Denis Béchet (LS2N, Université de Nantes)
  —   Frederic Béchet (LIS, Aix-Marseille Université)
  —   Patrice Bellot (LIS, Aix-Marseille Université)
  —   Asma Ben Abacha (Lister Hill Center, National Library of Medicine)
  —   Laurent Besacier (LIG, Université Grenoble Alpes)
  —   Yves Bestgen (ILC, Université catholique de Louvain)
  —   Philippe Blache (LPL, CNRS, Aix-Marseille Université)
  —   Fethi Bougares (LIUM, Le Mans Université)
  —   Thierry Charnois (LIPN, Université Paris 13)
  —   Vincent Claveau (IRISA, CNRS)
  —   Chloé Clavel (LTCI, Télécom ParisTech)
  —   Kevin Bretonnel Cohen (University of Colorado School of Medicine)
  —   Béatrice Daille (LS2N, Université de Nantes)
  —   Géraldine Damnati (Orange Labs)
  —   Gaël Dias (GREYC, Normandie Université)
  —   Marco Dinarelli (LIG, CNRS)
  —   Patrick Drouin (OLST, Université de Montréal)
  —   Dominique Estival (MARCS, Western Sydney University)
  —   Yannick Estève (LIUM, Le Mans Université)
  —   Olivier Ferret (CEA LIST)
  —   Karën Fort (STIH, Sorbonne Université)
  —   Thomas Francois (CENTAL, Université catholique de Louvain)
  —   Éric Gaussier (LIG, Université Grenoble Alpes)
  —   Jérôme Goulian (LIG, Université Grenoble Alpes)

TALN-RECITAL@PFIA 2019                             8

—   Natalia Grabar (STL, CNRS)
  —   Cyril Grouin (LIMSI, CNRS, Université Paris-Saclay)
  —   Olivier Hamon (Syllabs)
  —   Nabil Hathout (CLLE-ERSS, CNRS)
  —   Amir Hazem (LS2N, Université de Nantes)
  —   Nicolas Hernandez (LS2N, Université de Nantes)
  —   Stéphane Huet (LIA, Université d’Avignon et des Pays de Vaucluse)
  —   Christine Jacquin (LS2N, Université de Nantes)
  —   Sylvain Kahane (Modyco, Université Paris Nanterre)
  —   Olivier Kraif (LIDILEM, Université Grenoble Alpes)
  —   Mathieu Lafourcade (LIRMM, Université de Montpellier)
  —   David Langlois (LORIA, Université de Lorraine)
  —   Eric Laporte (LIGM, Université Paris-Est Marne-la-Vallée)
  —   Thomas Lavergne (LIMSI, Université Paris Sud, Université Paris-Saclay)
  —   Joseph Le Roux (LIPN, Université Paris 13)
  —   Benjamin Lecouteux (LIG, Université Grenoble Alpes)
  —   Yves Lepage (Waseda University)
  —   Denis Maurel (LIFAT, Université de Tours)
  —   Richard Moot (LIRMM, CNRS)
  —   Véronique Moriceau (IRIT, Université Paul Sabatier)
  —   Philippe Muller (IRIT, Université Paul Sabatier)
  —   Alexis Nasr (LIS, Aix Marseille Université)
  —   Adeline Nazarenko (LIPN, Université Paris 13)
  —   Luka Nerima (Université de Genève)
  —   Jian-Yun Nie (RALI/DIRO, Université de Montréal)
  —   Yannick Parmentier (LORIA, Université de Lorraine)
  —   Sebastian Peña Saldarriaga (Dictanova)
  —   Thierry Poibeau (Lattice, CNRS)
  —   Alain Polguère (ATILF, Université de Lorraine)
  —   Jean-Philippe Prost (LIRMM, Université de Montpellier)
  —   Solen Quiniou (LS2N, Université de Nantes)
  —   Christian Raymond (IRISA, INSA Rennes)
  —   Christian Retoré (LIRMM, Université de Montpellier)
  —   Djamé Seddah (ALMAnaCH, Paris Sorbonne Université)
  —   Gilles Serasset (LIG, Université Grenoble Alpes)
  —   Michel Simard (NRC, Canada)
  —   Kamel Smaili (LORIA, Université de Lorraine)
  —   Pascale Sébillot (IRISA, INSA Rennes)
  —   Ludovic Tanguy (CLLE-ERSS, Université Toulouse - Jean Jaurès)
  —   Juan-Manuel Torres-Moreno (LIA, Université d’Avignon et des Pays de Vaucluse)
  —   Guillaume Wisniewski (LIMSI, Université Paris-Sud, Université Paris-Saclay)
  —   François Yvon (LIMSI, CNRS, Université Paris-Saclay)

Relecteurs additionnels de TALN
  —   Jingshu Liu (Dictanova)
  —   Emile Chapuis (LTCI, Télécom ParisTech)
  —   Caroline Langlet (LTCI, Paris Sorbonne Université)
  —   Joseph Lark (Dictanova)
  —   Alexandre Garcia (LTCI, Télécom ParisTech)

Présidentes de RECITAL
  — Anne-Laure Ligozat (LIMSI, CNRS, Université Paris-Saclay)
  — Sahar Ghannay (LIMSI, CNRS, Université Paris-Saclay)

Membres du CP de RECITAL
  — Jean-Yves Antoine (LIFAT, Université de Tours)

                                                   9                      TALN-RECITAL@PFIA 2019

—   Ismail Badache (ESPE / LIS, Aix-Marseille Université)
  —   Amira Barhoumi (LIUM, Université du Maine - MIRACL Sfax)
  —   Rachel Bawden (University of Edinburgh)
  —   Aurélien Bossard (LIASD, Université Paris 8)
  —   Chloé Braud (LORIA, CNRS)
  —   Nathalie Camelin (LIUM, Université du Maine)
  —   Rémi Cardon (STL, Lille)
  —   Peggy Cellier (IRISA, INSA Rennes)
  —   Antoine Doucet (L3i, Université de la Rochelle)
  —   Maha Elbayad, LIG/ Inria
  —   Arnaud Ferré (LIMSI-CNRS/MaIAGE-INRA, Université Paris-Saclay)
  —   Amel Fraisse (Gériico, Lille)
  —   Thomas François (CENTAL, Université catholique de Louvain)
  —   Nicolas Hernandez (LS2N, Université de Nantes)
  —   Yann Mathet (Greyc, Université de Caen)
  —   Alice Millour (STIH, Université Paris-Sorbonne)
  —   Anne-Lyse Minard (LLL, Orléans)
  —   Jose Moreno (IRIT, UPS)
  —   Tsanta Randriatsitohaina (LIMSI, Université Paris-Sud, Université Paris-Saclay)
  —   Loïc Vial (LIG, Université Grenoble Alpes)

TALN-RECITAL@PFIA 2019                              10

Volume IV : Démonstrations

Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial et Benjamin Lecouteux

      Apporter des connaissances sémantiques à un jeu de
pictogrammes destiné à des personnes en situation de handicap :
  un ensemble de liens entre WordNet et Arasaac, Arasaac-WN

 Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial, Benjamin Lecouteux
              Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France
    {loic.vial, benjamin.lecouteux, didier.schwab}@univ-grenoble-alpes.fr

R ÉSUMÉ
Cet article présente une ressource qui fait le lien entre WordNet et Arasaac, la plus grande base de
pictogrammes librement disponible. Cette ressource est particulièrement intéressante pour la création
d’applications visant l’aide aux personnes en situation de handicap cognitif.
A BSTRACT
Giving semantic knowledge to a set of pictograms for people with disabilities : a set of links
between WordNet and Arasaac, Arasaac-WN
This article presents a resource that links WordNet and Arasaac, the largest freely available database of
pictograms. This resource is particularly interesting for the creation of applications aimed at helping
people with cognitive disabilities.
M OTS - CLÉS : Outils d’assistance pour les personnes en situation de handicap, Pictogrammes,
Communication Alternative et Augmentée.
K EYWORDS: Assistive Technology for people with disabilities, Pictograms, Alternative and
Augmented Communication.

1     Introduction
Communiquer lorsque le langage oral et signé est inaccessible ou mis en difficulté est une véritable
épreuve pour les individus en situation de polyhandicap et leur entourage. L’utilisation d’un code
de communication alternatif dans les activités quotidiennes peut être freinée par des difficultés
d’apprentissage, des représentations négatives de la communication non orale, ou un coût trop
important des outils d’aide à la communication, engendrant d’importantes frustrations pour les
interactants. Pour permettre aux individus en situation de handicap langagier de communiquer, il
existe plusieurs méthodes de Communication Alternative et Améliorée (CAA) (Nègre, 2017). Ces
méthodes sont dites « alternatives » lorsqu’elles remplacent totalement les moyens d’expression orale
et sont dites « améliorées » lorsqu’elles permettent de suppléer les capacités de communication déjà
présentes, pouvant même aider à l’émergence de l’oralisation ou de la graphie pour certains individus
(Beukelman and Mirenda, 2017).
Pour de nombreuses personnes en situation de polyhandicap, les gestes et la parole sont impossibles
et seule la communication par pictogrammes est possible. Le pictogramme peut être défini comme un
signe graphique schématique dont le signifiant entretient un rapport de ressemblance plus au moins
fort avec le signifié, au contraire des signes linguistiques phoniques ou graphiques dont la forme du
stimulus est arbitraire et indépendante de celle du référent. Il permet une représentation plus iconique
de l’information et est plus facilement interprétable. Le développement de ce type d’outil correspond
également à une demande sociale de plus en plus forte pour développer l’accessibilité : il s’agit alors
de présenter une certaine image pour demander à boire, d’en présenter une autre pour demander à

Démonstrations                                     619                       TALN-RECITAL@PFIA 2019

Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de
handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN

manger (parfois en désignant du regard par l’intermédiaire d’un oculomètre (Schwab et al., 2018)).
Le cœur de cette démonstration pose des bases pour de futurs outils liés aux pictogrammes comme,
par exemple, l’automatisation de la communication par pictogrammes (voir vidéo).

2 Du pictogramme à la langue naturelle
Actuellement, il n’existe pas de base de connaissance permettant de lier des pictogrammes issus
d’Arassac de manière formelle à leur représentation sémantique. Généralement, les utilisateurs de
pictogrammes vont les choisir en fonction d’une description textuelle, d’une représentation graphique,
d’un mode d’emploi ou encore suite à une formation. Cette association entre un pictogramme et une
représentation sémantique est pourtant un élément essentiel pour réaliser des outils de TALN utilisant
les pictogrammes. Un travail équivalent a déjà été réalisé pour d’autres jeux de pictogrammes qui ne
sont malheureusement pas utilisés en France (Vandeghinste and Schuurman, 2014). Nous présentons
donc une première base de données réalisant ce lien à partir de pictogrammes qui sont à la fois libres
et utilisés dans les institutions. Notre objectif est de promouvoir le développement de divers outils
autour des pictogrammes, nous souhaitons cette base soit enrichie au fur et à mesure des années.

2.1 Le jeu de pictogrammes ouvert et libre : Arassac
Les pictogrammes Arasaac sont fournis par le Portail Aragonais de la Communication Améliorée et
Alternative (http://www.arasaac.org). Le portail aragonais met à disposition plus de treize
mille pictogrammes en noir et blanc et plus de quinze mille pictogrammes en couleur. Il s’agit ainsi
de la plus grande base librement disponible. Ces pictogrammes disposent d’une licence Creative
Commons de type BY-NC-SA qui autorise l’exploitation à des fins non commerciales, ainsi que la
création d’œuvres dérivées, à condition qu’elles soient distribuées sous la même licence.

F IGURE 1 – Manger. F IGURE 2 – Boire. F IGURE 3 – Dormir.

2.2 Exemples d’applications
Une fois le lien entre une base de pictogrammes et WordNet établie, il est possible d’envisager
de nombreuses applications. Nous en présentons deux que nous souhaiterions développer : 1) la
génération vocale à partir des pictogrammes qui permettrait à une personne en situation de handicap
de composer des messages sous la forme d’une voix synthétisée. Le problème revient ainsi à la
recherche des pictogrammes nécessaires à la composition du message ; Arasaac-WN permettrait ainsi
une recherche en fonction des idées associées aux images en passant par le texte des définitions
et/ou le réseau lexical par exemple à la manière de (Zock and Schwab, 2011) ; 2) la génération de
pictogrammes à partir du langage naturel (Vaschalde et al., 2018b,a; Sevens et al., 2017). Il s’agit
ainsi d’associer les pictogrammes au discours correspondant. L’idée est de plonger dans un bain
langagier une personne nécessitant d’apprendre ou de réapprendre à partir de zéro . En effet, c’est en
multipliant les occasions où elle est confrontée à l’association d’un pictogramme avec un certain mot,
un certain concept que la personne arrivera à les associer de manière naturelle exactement comme les
enfants typiques apprennent les mots.

3 La ressource Arasaac-WN
Afin de présenter au mieux la ressource, nous avons opté pour l’utilisation d’outils spécialisés dans la
diffusion de collections numériques. Nous nous sommes orientés sur Omeka (Scheinfeldt, 2008) qui
est une plateforme libre développée par le Center for History and New Media (CHNM) de l’Université

TALN-RECITAL@PFIA 2019 620 Démonstrations

Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial et Benjamin Lecouteux

George Mason. Cet outil est particulièrement conçu pour l’organisation, l’exposition et la mise en
ligne de données iconographiques, avec leurs métadonnées. Par exemple, Omeka permet d’associer
des métadonnées standardisées au format du Dublin Core (vocabulaire du web sémantique utilisé
pour exprimer les données dans un modèle Resource Description Framework, RDF) afin d’effectuer
des recherches poussées au sein de la collection numérique.

3.1    Structure de la ressource
La ressource est disponible dans le format RDF, il est ainsi possible d’utiliser des outils classiques
du Web sémantique et de l’interroger en SPARQL (SPARQL Protocol and RDF Query Language).
Nous avons pris le parti d’exploiter les champs initiaux du Dublin Core afin de représenter les
différents pictogrammes. Les principaux attributs de Arasaac-WN sont les suivants : 1) Titre : nom du
pictogramme tel qu’il était indiqué sur Arasaac ; 2) Description : identifiants WordNet permettent
l’identification unique d’un terme dans la base de données lexicale et ainsi de supprimer toute
ambiguïté (emplacement des bases de données (Database locations 1), le numéro de sens (Sense
numbers 2) ainsi que la clé de sens (Sense key 3)) ; 3) Créateur : l’organisme qui a créé le lien ; 4)
Contributeur : nom de la personne qui a ajouté l’entrée dans la base ; 5) Relation : comme indiqué
dans les spécifications du Dublin Core, ce champ permet de faire appel à une ressource apparentée
et peut servir à donner des liens vers celles-ci. Cet élément sert donc à mettre en évidence les liens
à partir desquels les données sont extraites ; 6) Langue : cet élément permet de préciser que les
informations renseignées sont en anglais. Le WordNet étant en anglais, l’ensemble des mots des deux
listes en français ont été intégrés à la collection sous leur nom anglais sur Arasaac ; 7) Alternative
title : cet élément du Dublin Core qualifié permet, comme son nom l’indique, de donner un titre
alternatif à la ressource. Ce champ a donc été utilisé pour renseigner le nom français du pictogramme
et ainsi faciliter la recherche dans la base.
Au 25 mai 2019, la ressource contient 586 liens, c’est-à-dire 586 pictogrammes d’Arasaac qui ont été
reliés à WordNet.

3.2    Difficultés et protocoles d’annotation
Pour certains pictogrammes, il est difficile d’extraire une signification unique à partir du contenu
représenté. Pour le pictogramme "oublier" par exemple, l’image ne permet pas d’établir avec certitude
la signification visée par le créateur de celle-ci et de faire un lien univoque avec WordNet (forget).
Dans ce genre de cas, les entrées pour un même pictogramme peuvent être multipliées pour cor-
respondre aux différentes significations possibles lorsque celles-ci sont couramment usitées. Des
différences relativement fines sont présentes pour certains termes comme la pluie par exemple, où
WordNet propose les deux définitions suivantes : "water falling in drops from vapor condensed in the
atmosphere" et "drops of fresh water that fall as precipitation from clouds". Lorsque ce genre de cas
se présente, il est nécessaire de sélectionner le bon synset. D’autres problèmes de correspondance ont
pu être mis en évidence lors de la création de la ressource, comme des noms de pictogrammes en
plusieurs mots ne trouvant pas d’équivalent sur WordNet (ex : to grow larger).

4     Conclusion et perspectives
Dans cet article nous avons présenté une première version de Arasaac-WN qui lie le WordNet à la base
ARASSAAC : la plus grande base de pictogrammes destinés aux personnes en situation de handicap
disponible librement. À ce jour, 586 pictogrammes ont été liés permettant d’accéder à l’écosystème
du WordNet et ainsi de permettre d’accéder à tout un ensemble d’outils du traitement automatique des
langues pour l’assistance aux personnes en situation de handicap. La réalisation de ce type de base
est assez fastidieuse en raison des difficultés rencontrées et du protocole d’annotation. Comme nous
l’avons montré, il y a des problèmes liés à des équivalences avec WordNet qui n’existent pas. Dans
les versions à venir, nous proposerons des solutions pour contourner ces problèmes.

 Démonstrations                                   621                       TALN-RECITAL@PFIA 2019

Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de
handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN

Références
D. Beukelman and P. Mirenda. 2017. Communication alternative et augmentée : Aider les enfants et
les adultes avec des difficultés de communication.
E. Cataix Nègre. 2017. Communiquer autrement : Accompagner les personnes avec des troubles de
la parole ou du langage.
Tom Scheinfeldt. 2008. Omeka: Open source web publishing for research, collections and exhibitions.
Open Source Business Resource.
Didier Schwab, Amela Fejza, Loïc Vial, and Yann Robert. 2018. The GazePlay Project: Open and
Free Eye-trackers Games and a Community for People with Multiple Disabilities. In ICCHP 2018 -
16th International Conference on Computers Helping People with Special Needs, volume 10896 of
LNCS, pages 254–261, Linz, Austria. Springer.
L. Sevens, V. Vandeghinste, I. Schuurman, and F. Van Eynde. 2017. Simplified Text-to-Pictograph
Translation for People with Intellectual Disabilities. NLDB.
V. Vandeghinste and I. Schuurman. 2014. Linking Pictographs to Synsets: Sclera2Cornetto. LREC.
C. Vaschalde, B. Lecouteux, and D. Schwab. 2018a. Génération de pictogrammes à partir de la
parole spontanée pour la mise en place d’une communication médiée. 50 ans de linguistique sur
corpus oraux : Apports à l’étude de la variation.
C. Vaschalde, P. Trial, E. Esperança-Rodier, D. Schwab, and B. Lecouteux. 2018b. Automatic picto-
gram generation from speech to help the implementation of a mediated communication. Conference
on Barrier-free Communication.
Michael Zock and Didier Schwab. 2011. Storage does not Guarantee Access: The Problem of
Organizing and Accessing Words in a Speaker’s Lexicon. Journal of Cognitive Science, 12 :233–258.
(Impact-F 3.52 estim. in 2012).

TALN-RECITAL@PFIA 2019                             622                                     Démonstrations

Guillaume Dubuisson Duplessis, Sofiane Kerroua, Ludivine Kuznik et Anne-Laure Guénet

    Cameli@ : analyses automatiques d’e-mails pour améliorer la
                          relation client

        Guillaume Dubuisson Duplessis Sofiane Kerroua                        Ludivine Kuznik
                              Anne-Laure Guénet
    EDF Commerce, Direction Numérique, Tour PB6, 178 Rond-Point de la Défense, 92800 Puteaux, France
                                  anne-laure.guenet@edf.fr

R ÉSUMÉ
Cette démonstration présente un système actuellement en production d’analyses automatiques d’e-
mails en français incluant des analyses thématiques, des analyses de l’opinion, des tâches d’extraction
d’information et une tâche de pseudo-anonymisation.
A BSTRACT
Cameli@ : automatic e-mail analysis to improve the customer relationship
This demonstration presents an automatic e-mail analysis system in French language including
thematic analysis, opinion analysis, information extraction tasks and a pseudo-anonymization task.
M OTS - CLÉS : classification thématique, analyse de l’opinion, extraction d’information.
K EYWORDS: thematic classification, opinion mining, information extraction.

1      Analyses automatiques des e-mails client à EDF Commerce

Chaque mois plusieurs centaines de milliers d’e-mails client sont envoyés à EDF et font l’objet d’un
traitement manuel attentif de la part des conseillers client. Ces données textuelles en français offrent
une grande richesse. Résultat d’une expression libre et spontanée du client, elles font notamment
apparaître une grande variabilité, par exemple, en terme de nombre de sujets abordés, de respect
de l’orthographe et de la syntaxe, de niveau de langue, de politesse mais aussi de structuration.
L’augmentation significative de l’utilisation des canaux digitaux comme les e-mails appelle à une
optimisation du processus de réponse afin de raccourcir le temps de traitement des e-mails tout en
assurant un très haut niveau de qualité dans la relation client. C’est pour faire face à ce défi que le
projet Cameli@ a vu le jour. Il met en place des technologies récentes du domaine du TALN en
production afin d’optimiser le traitement des e-mails clients pour l’amélioration de la relation client.
Les analyses automatiques de Cameli@ visent à enrichir « à la volée » les e-mails d’information
comme la thématique de contact ou le ressenti du client afin de nourrir trois cas d’usage. Premièrement,
elles ont été pensées afin d’optimiser le routage vers le conseiller le plus adapté. Ensuite, les résultats
des analyses sont exposés via un tableau de bord permettant le pilotage de l’activité de traitement
des e-mails. Nourrie au fil de l’eau, cette interface permet aux directions métier de suivre les pics
de contacts sur les différents motifs et ainsi gagner en réactivité dans leurs process. Aussi, il permet
d’avoir une vision allant de plusieurs mois à la journée courante tout en garantissant un retour
aux e-mails pseudo-anonymisés. Enfin, les analyses permettent l’automatisation du traitement de

Démonstrations                                     623                      TALN-RECITAL@PFIA 2019

Cameli @ : analyses automatiques d’e-mails pour améliorer la relation client

certaines demandes simples et ciblées afin de décharger les conseillers client. Par exemple, un e-mail
client informant uniquement d’une relève d’index peut faire l’objet d’un traitement complètement
automatique.
Le projet Cameli@ met en place des analyses variées dans un cadre opérationnel. Il a été pensé dans le
respect de contraintes de nature diverse. La première contrainte est de nature légale. Les analyses et les
cas d’usage ont été conçus en prenant en compte nativement la loi RGPD. Par exemple, un algorithme
de pseudo-anonymisation des e-mails a été conçu pour permettre un retour aux données dans le
tableau de bord occultant des éléments identifiants tels que les prénoms, noms et adresses postales. La
deuxième contrainte est de nature technique. Les analyses sont développées pour un fonctionnement
en production dans l’écosystème de la DSI Commerce d’EDF. Cela impacte notamment le choix des
langages de programmation ou encore l’infrastructure cible (par exemple, la présence ou non de GPU).
En outre, le temps de traitement des analyses est optimisé pour permettre un enrichissement des
e-mails à la volée au fur et à mesure de leur réception. Enfin, la troisième contrainte est une exigence
« métier » en terme de performances et d’un certain niveau de transparence des modèles (Weller,
2017). Effectivement, les résultats des modèles sont exploités par des utilisateurs qui ne sont pas
les concepteurs des modèles. Afin de garantir leur utilisabilité, il est nécessaire d’assurer un niveau
de performance optimal et leur capacité à généraliser. Il est aussi important de donner une certaine
intuition du fonctionnement du modèle, en particulier pour les modèles de type « boîte noire ». Dans
ce contexte, le retour aux données est primordial.
Le projet Cameli@ met en oeuvre trois grands types de tâches. Il inclut de multiples tâches de classi-
fication. Tout d’abord, une quinzaine de catégorisations thématiques non-exclusives qui permettent
de cerner le contenu de l’e-mail (par exemple, des catégories telles que « réclamation », « coupure »,
« montant de la facture »). Ensuite, des modèles d’analyse de l’opinion (Clavel et al., 2013) afin de
cerner la polarité émotionnelle de l’e-mail telle que la présence de l’expression d’un mécontentement.
Le projet inclut des tâches d’extraction d’information dans le but d’automatiser le traitement des
demandes simples. À l’heure actuelle, il s’agit de l’extraction des index du compteur communiqués
par e-mail. Enfin, le projet implique une tâche de pseudo-anonymisation qui vise à désidentifier les
e-mails en supprimant des éléments identifiants tels que les noms et adresses postales. Cette dernière
se fonde sur une tâche de reconnaissance d’entités nommées (Nouvel et al., 2016).
Le projet a bénéficié de la mise en place d’un processus d’annotation rigoureux. Les données d’ap-
prentissage ont été annotées en interne via une plateforme web inspirée du projet Camomile (Poignant
et al., 2016) avec un effort particulier pour assurer la qualité des annotations (triple annotation, accord
inter-annotateur). L’importante quantité de données non-annotées a été exploitée par l’usage de mo-
dèles de plongement vectoriel entraînés spécifiquement sur les e-mails tels que Word2Vec (Mikolov
et al., 2013), FastText (Bojanowski et al., 2016), et GloVe (Pennington et al., 2014). De multiples
approches de classification ont été explorées. Notamment, des approches neuronales de type CNN et
LSTM. In fine, des classifieurs plus « simples » mais offrant des performances compétitives ont été
retenus (Shen et al., 2018). L’extraction d’information repose sur le logiciel XIP développé par la
société Xerox fonctionnant à base de règles linguistiques.

2 Démonstrateur

Cette démonstration vise à exposer les différentes analyses réalisées sur les e-mails et à présenter le
cas d’usage « tableau de bord ». À cet effet, le démonstrateur inclut (i) la possibilité pour l’utilisateur

TALN-RECITAL@PFIA 2019 624 Démonstrations

Guillaume Dubuisson Duplessis, Sofiane Kerroua, Ludivine Kuznik et Anne-Laure Guénet

de saisir un e-mail fictif, de lancer le traitement sur cet e-mail en « temps réel » et de visualiser la
restitution des différentes analyses, et (ii) une présentation du tableau de bord qui permet de restituer
et synthétiser les résultats des analyses sur une quantité importante d’e-mails.

Remerciements
Nous remercions chaleureusement toutes les personnes qui sont intervenues sur ce projet : Meryl
Bothua, Sylvain Boucault, Christophe Malnou, Bulent Burgucuoglu, Mélanie Cazes, Ariane De
Moegen, Thomas Desmettre, Uyen-To Doan-Rabier, Asceline Goudjo, Uta Hosokawa, Cécile Legrand,
Youcef Maamra, Ibtissem Menacer, Mathilde Poulain, Jean-Charles Rue, Jérôme Simoneto et son
équipe, Véronique Ubério, Jérémy Vialaneix, et Jean Vidal.

Références
 B OJANOWSKI P., G RAVE E., J OULIN A. & M IKOLOV T. (2016). Enriching word vectors with
 subword information. arXiv preprint arXiv :1607.04606.
 C LAVEL C., A DDA G., C AILLIAU F., G ARNIER -R IZET M., C AVET A., C HAPUIS G., C OURCI -
 NOUS S., DANESI C., DAQUO A.-L., D ELDOSSI M. et al. (2013). Spontaneous speech and opinion
 detection : mining call-centre transcripts. Language resources and evaluation, 47(4), 1089–1125.
 M IKOLOV T., C HEN K., C ORRADO G. & D EAN J. (2013). Efficient estimation of word representa-
 tions in vector space. arXiv preprint arXiv :1301.3781.
 N OUVEL D., E HRMANN M. & ROSSET S. (2016). Named Entities for Computational Linguistics.
 John Wiley & Sons.
 P ENNINGTON J., S OCHER R. & M ANNING C. D. (2014). Glove : Global vectors for word
 representation. In Empirical Methods in Natural Language Processing (EMNLP), p. 1532–1543.
 P OIGNANT J., B UDNIK M., B REDIN H., BARRAS C., S TEFAS M., B RUNEAU P., A DDA G., B E -
 SACIER L., E KENEL H., F RANCOPOULO G. et al. (2016). The Camomile collaborative annotation
 platform for multi-modal, multi-lingual and multi-media documents. In LREC 2016 Conference.
 S HEN D., WANG G., WANG W., M IN M. R., S U Q., Z HANG Y., L I C., H ENAO R. & C ARIN L.
 (2018). Baseline needs more love : On simple word-embedding-based models and associated pooling
 mechanisms. In Proceedings of the 56th Annual Meeting of the Association for Computational
 Linguistics (Volume 1 : Long Papers), volume 1, p. 440–450.
 W ELLER A. (2017). Challenges for transparency. arXiv preprint arXiv :1708.01870.

Démonstrations                                    625                      TALN-RECITAL@PFIA 2019

Marine Schmitt, Élise Moreau, Mathieu Constant et Agata Savary

Démonstrateur en-ligne du projet ANR PARSEME-FR sur les
expressions polylexicales

Marine Schmitt1 Élise Moreau2 Mathieu Constant1 Agata Savary3
(1) Université de Lorraine, CNRS, ATILF, France, (2) Vivoka, France (3) Université de Tours, LIFAT, France
Marine.Schmitt@atilf.fr, elise.moreau@vivoka.com,
Mathieu.Constant@univ-lorraine.fr, agata.savary@univ-tours.fr

R ÉSUMÉ
Nous présentons le démonstrateur en-ligne du projet ANR PARSEME-FR dédié aux expressions
polylexicales. Il inclut différents outils d’identification de telles expressions et un outil d’exploration
des ressources linguistiques de ce projet.
A BSTRACT
On-line demonstrator of the PARSEME-FR project on multiword expressions.
We present an on-line demonstrator of PARSEME-FR project on multiword expressions. It includes
several multiword expression identification tools, and a browser of the linguistic resources built during
this project.
M OTS - CLÉS : Expressions polylexicales, identification, corpus annoté, lexique.
K EYWORDS: Multiword expressions, identification, annotated corpus, lexicon.

1 Présentation générale
Les expressions polylexicales (EPs) sont des séquences d’éléments lexicaux montrant des irrégularités
de composition à différents niveaux linguistiques. Leur identification est un composant essentiel du
traitement automatique des langues, mais fait face à de nombreuses difficultés : ex. discontinuité, non-
compositionnalité, variabilité, . . . (Constant et al., 2017). Le projet ANR PARSEME-FR 1 est dédié à
ce type d’expressions et vise à développer de nouvelles méthodes de traitement en combinaison avec
l’analyse syntaxique et sémantique. Il a conduit à la construction de nouvelles ressources logicielles
et linguistiques, distribuées sous licences libres. Dans cet article, nous présentons un démonstrateur
en-ligne public 2 qui permet de tester différents outils d’identification développés par les chercheurs du
projet et de parcourir un corpus annoté en EPs et une ressource lexicale qui ont été automatiquement
alignés. Il est dédié au traitement de la langue française, mais il est prévu une version multilingue.
A notre connaissance, aucun outil comparable n’existe dans la communauté francophone du TAL
et ceux proposés par la communauté internationale sont peu nombreux. La version 1.0 du corpus
PARSEME en 15 langues (Savary et al., 2018), y compris le français, peut notamment être interrogée
1. http://parsemefr.lis-lab.fr
2. Le démonstrateur (https://mwedemonstrator.atilf.fr) a été développé avec le langage Python, à l’aide du
framework Django pour l’intégration web. La base de données ayant servi à inclure le lexique et le corpus a été mise en place
avec SQLite. La partie interface a été construite en HTML/CSS à l’aide du framework Bootstrap, ainsi qu’en Javascript/jQuery.
Enfin, nous avons utilisé un container Docker pour faciliter la mise en place de l’environnement de développement.

Démonstrations 627 TALN-RECITAL@PFIA 2019

Vous pouvez aussi lire