TALN-RECITAL PFIA 2019 - Conférence sur le Traitement Automatique des Langues Naturelles - IRIT
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Table des matières Emmanuel Morin, Sophie Rosset et Pierre Zweigenbaum (TALN) Anne-Laure Ligozat et Sahar Ghannay (RECITAL). Éditorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . Comités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Volume I : Articles longs Syrielle Montariol et Alexandre Allauzen. Apprentissage de plongements de mots dynamiques avec régularisation de la dérive . . . . . . . . . . . . 13 Victor Connes et Nicolas Dugué. Apprentissage de plongements lexicaux par une approche réseaux complexes . . . . . . . . . . . . . . . . . . . 27 Ludovic Tanguy, Pauline Brunet et Olivier Ferret. Comparaison qualitative et extrinsèque d’analyseurs syntaxiques du français : confrontation de modèles distributionnels sur un corpus spécialisé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Loïc Vial, Benjamin Lecouteux et Didier Schwab. Compression de vocabulaire de sens grâce aux relations sémantiques pour la désambiguïsation lexicale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Natalia Grabar, Cyril Grouin, Thierry Hamon et Vincent Claveau. Corpus annoté de cas cliniques en français . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Antoine Caubrière, Natalia Tomashenko, Yannick Estève, Antoine Laurent et Emmanuel Morin. Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts sémantiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Anissa Hamza et Delphine Bernhard. Détection des ellipses dans des corpus de sous-titres en anglais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Tim Van de Cruys. La génération automatique de poésie en français. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .113 Marco Dinarelli et Loïc Grobol. Modèles neuronaux hybrides pour la modélisation de séquences : le meilleur de trois mondes127 Amalia Todirascu, Marion Cargill et Thomas Francois. PolylexFLE : une base de données d’expressions polylexicales pour le FLE . . . . . . . . . . . . . . . . . . . . . 143 Volume II : Articles courts Kate Thompson, Nicholas Asher, Philippe Muller et Jeremy Auguste. Analyse faiblement supervisée de conversation en actes de dialogue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 Salima Mdhaffar, Yannick Estève, Nicolas Hernandez, Antoine Laurent et Solen Quiniou. Apport de l’adaptation automatique des modèles de langage pour la reconnaissance de la parole : évaluation qualitative extrinsèque dans un contexte de traitement de cours magistraux . . . . . . .167 Sonia Badene, Kate Thompson, Jean-Pierre Lorré et Nicholas Asher. Apprentissage faiblement supervisé de la structure discursive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Frédéric Béchet, Cindy Aloui, Delphine Charlet, Géraldine Damnati, Johannes Heinecke, Alexis Nasr et Frédéric Herlédan. CALOR-QUEST : un corpus d’entraînement et d’évaluation pour la compréhension automatique de textes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Iris Eshkol-Taravella, Mariame Maarouf, Marie Skrovec et Flora Badin. Chunker différents types de discours oraux : défis pour l’apprentissage automatique . . . . . . . . . . 195 Yuming Zhai, Gabriel Illouz et Anne Vilnat.
Classification automatique des procédés de traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Guillaume Wisniewski. Combien d’exemples de tests sont-ils nécessaires à une évaluation fiable ? Quelques observations sur l’évaluation de l’analyse morpho-syntaxique du français. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 Tsanta Randriatsitohaina et Thierry Hamon. De l’extraction des interactions médicament-médicament vers les interactions aliment-médicament à partir de textes biomédicaux : Adaptation de domaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .223 Fiammetta Namer, Lucie Barque, Olivier Bonami, Pauline Haas, Nabil Hathout et Delphine Tribout. Demonette2 - Une base de données dérivationnelles du français à grande échelle : premiers ré- sultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Elise Bigeard et Natalia Grabar. Détecter la non-adhérence médicamenteuse dans les forums de discussion avec les méthodes de recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 Rémi Cardon et Natalia Grabar. Détection automatique de phrases parallèles dans un corpus biomédical comparable technique/simplifié 255 Benoît Sagot. Développement d’un lexique morphologique et syntaxique de l’ancien français . . . . . . . . . . . . . . . . . 265 Adrien Bardet, Fethi Bougares et Loïc Barrault. Étude de l’apprentissage par transfert de systèmes de traduction automatique neuronaux . . . . 275 Antoine Perquin, Gwénolé Lecorvé, Damien Lolive et Laurent Amsaleg. Évaluation objective de plongements pour la synthèse de parole guidée par réseaux de neurones 285 Sara Meftah, Nasredine Semmar, Youssef Tamaazousti, Hassane Essafi et Fatiha Sadat. Exploration de l’apprentissage par transfert pour l’analyse de textes des réseaux sociaux . . . . 293 Syrielle Montariol, Aina Garí Soler et Alexandre Allauzen. Exploring sentence informativeness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 Fréjus A. A. Laleye, Antonia Blanié, Antoine Brouquet, Dan Benhamou et Gaël de Chalendar. Hybridation d’un agent conversationnel avec des plongements lexicaux pour la formation au diag- nostic médical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 Nadia Bebeshina-Clairet et Mathieu Lafourcade. Inférence des relations sémantiques dans un réseau lexico-sémantique multilingue . . . . . . . . . . . . . 323 Jean-Yves Antoine, Marion Crochetet, Céline Arbizu, Emmanuelle Lopez, Samuel Pouplin, Amélie Besnier et Mathieu Thebaud. Ma copie adore le vélo : analyse des besoins réels en correction orthographique sur un corpus de dictées d’enfants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 Olga Seminck, Vincent Segonne et Pascal Amsili. Modèles de langue appliqués aux schémas Winograd français . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 Patricia Chiril, Farah Benamara, Véronique Moriceau, Marlène Coulomb-Gully et Abhishek Kumar. Multilingual and Multitarget Hate Speech Detection in Tweets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Iris Eshkol-Taravella et Hyun Jung Kang. Observation de l’expérience client dans les restaurants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 361 Laurent Kevers, Florian Guéniot, A. Ghjacumina Tognotti et Stella Retali-Medori. Outiller une langue peu dotée grâce au TALN : l’exemple du corse et de la BDLC . . . . . . . . . . . . 371 Amira Barhoumi, Nathalie Camelin, Chafik Aloulou, Yannick Estève et Lamia Hadrich Belguith. Plongements lexicaux spécifiques à la langue arabe : application à l’analyse d’opinions . . . . . . . 381 Saoussen Mathlouthi Bouzid et Chiraz Ben Othmane Zribi. Q-learning pour la résolution des anaphores pronominales en langue arabe . . . . . . . . . . . . . . . . . . . . . 391
Tom Bourgeade et Philippe Muller. Représentation sémantique distributionnelle et alignement de conversations par chat . . . . . . . . . 399 Quentin Gliosca et Pascal Amsili. Résolution des coréférences neuronale : une approche basée sur les têtes . . . . . . . . . . . . . . . . . . . . . . . 409 Amir Hazem, Béatrice Daille, Dominique Stutzmann, Jacob Currie et Christine Jacquin. Réutilisation de textes dans les manuscrits anciens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 Aleksandra Miletić, Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat et Marianne Vergez-Couret. Transformation d’annotations en parties du discours et lemmes vers le format Universal Depen- dencies : étude de cas pour l’alsacien et l’occitan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427 Yoann Dupont. Un corpus libre, évolutif et versionné en entités nommées du français. . . . . . . . . . . . . . . . . . . . . . . . . . .437 Filipo Studzinski Perotto, Fadila Taleb, Eric Trupin, Youssouf Saidali, Maryvonne Holzem, Jacques Labiche et Laurent Vercouter. Une approche hybride pour la segmentation automatique de documents juridiques . . . . . . . . . . . . 447 Volume III : RECITAL Mathilde Regnault. Adaptation d’une métagrammaire du français contemporain au français médiéval . . . . . . . . . . . . . 459 Mérième Bouhandi. Apport des termes complexes pour enrichir l’analyse distributionnelle en domaine spécialisé 473 Jessica López Espejel. Automatic summarization of medical conversations, a review . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 487 Bruno Oberle. Détection automatique de chaînes de coréférence pour le français écrit : règles et ressources adap- tées au repérage de phénomènes linguistiques spécifiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 Ygor Gallina. Etat de l’art des méthodes d’apprentissage profond pour l’extraction automatique de termes-clés 513 Emmanuelle Kelodjoue. Extraction d’opinions pour l’analyse multicritère à partir de corpus oraux transcrits : État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 Léon-Paul Schaub et Cyndel Vaudapiviz. Les systèmes de dialogue orientés-but : état de l’art et perspectives d’amélioration . . . . . . . . . . . 541 Mathilde Veron. Lifelong learning et systèmes de dialogue : définition et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563 Manon Scholivet. Méthodes de représentation de la langue pour l’analyse syntaxique multilingue . . . . . . . . . . . . . . . . 577 Dusica Terzic. Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane . . . . . . . . . . . . . . . . . . . . . . . 591 Sandra Bellato. Vers la traduction automatique d’adverbiaux temporels du français en langue des signes française 605 Volume IV : Démonstrations Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial et Benjamin Lecouteux. Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN . . . . . . . . 619
Guillaume Dubuisson Duplessis, Sofiane Kerroua, Ludivine Kuznik et Anne-Laure Guénet. Cameli @ : analyses automatiques d’e-mails pour améliorer la relation client . . . . . . . . . . . . . . . . . . . 623 Marine Schmitt, Élise Moreau, Mathieu Constant et Agata Savary. Démonstrateur en-ligne du projet ANR PARSEME-FR sur les expressions polylexicales . . . . . 627 Olivier Hamon, Kévin Espasa et Sara Quispe. SylNews, un agréfilter multilingue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 631 Ioan Calapodescu, Caroline Brun, Vassilina Nikoulina et Salah Aït-Mokhtar. “Sentiment Aware Map” : exploration cartographique de points d’intérêt via l’analyse de senti- ments au niveau des aspects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 635 Alexandre Arnold, Gérard Dupont, Catherine Kobus, François Lancelot et Pooja Narayan. Interprétation et visualisation contextuelle de NOTAMs (messages aux navigants aériens) . . . 639
Éditorial La 26e édition de la conférence TALN et la 21e édition de la session jeunes chercheuses et chercheurs RECITAL se déroulent cette année à Toulouse au sein de la Plateforme française d’intelligence artificielle (PFIA). TALN a une longue tradition de tenue conjointe avec des conférences de domaines proches. Cette pratique a été initiée avec les Journées d’étude sur la parole (JEP) en 2002 à Nancy puis depuis 2008 tous les quatre ans (2008 : Avignon, 2012 : Grenoble, 2016 : Paris). Elle s’est diversifiée avec la Conférence de recherche d’information et applications (CORIA) en 2018 à Rennes. Elle innove cette année avec un hébergement à Toulouse au sein de PFIA. Ces événements sont l’occasion de rencontres enrichissantes pour tous. Cette année, ce ne sont pas moins de huit conférences, sans compter les ateliers associés, aux sessions desquelles les participants à TALN-RECITAL pourront se mêler : APIA (5e Conférence sur les Applications Pratiques de l’Intelligence Artificielle), CAp (21e Conférence sur l’Apprentissage Automatique), IC (30es Journées Francophones Ingénierie des Connaissances), JFPDA (14es Journées Planification, Décision et Apprentissage), JFSMA (27es Journées Francophones sur les Systèmes Multi-Agents), JIAF (13es Journées d’Intelligence Artificielle Fondamentale), RJCIA (17e Rencontre des Jeunes Chercheurs en Intelligence Artificielle), ainsi que CNIA (22e Conférence Nationale en Intelligence Artificielle), qui regroupe les thématiques de l’intelligence artificielle non couvertes par les conférences précédentes. Les conférences invitées plénières, les sessions de présentations affichées et de démonstrations, les déjeuners et pauses café, les dîners de la conférence sont autant de moments programmés pour que se retrouvent les participants de toutes les conférences. Nous tenons à saluer la qualité de la planification et du suivi du comité scientifique de la plateforme ainsi que le grand travail du comité d’organisation, le tout visant à assurer que l’ensemble des conférences se tienne dans les meilleures conditions et au meilleur coût. Pour la deuxième année consécutive, les modalités de soumission à TALN se faisaient avec un appel unique et un seul format de soumission en article court pouvant être étendu en article long sur proposition du comité de programme (et demande préalable des auteurs). Nous avons ainsi reçu soixante cinq articles courts et le comité de programme a proposé à dix articles le passage en format long (15 %) et a retenu trente et un articles en format court (48 %). Chaque article a été relu par trois membres du comité de lecture en s’appuyant le cas échant sur des relecteurs additionnels. Le comité de programme s’est appuyé sur ces relectures pour sélectionner lors d’une réunion pleinière les articles composant le programme. C’est un fonctionnement auquel nous sommes profondément attachés pour assurer une diversité dans les thématiques abordées. L’ensemble des évaluations ont été réalisées en double aveugle. Nous remercions les membres des comités de programme et de lecture (à parité femme – homme) pour leur contribution indispensable à ce processus. Le programme de la conférence est complété par quatre démonstrations sélectionnées par le comité de programme. Les titres des sessions donnent une idée des thématiques abordées par la conférence. Ils comprennent des paliers et tâches habituels du TAL (Morphologie et Syntaxe, Syntaxe, Résolution d’anaphores, Multilinguisme), reflètent la place prise par l’apprentissage (Apprentissage par transfert et modèles de langue, Plongements de mots), l’importance fondamentale que continuent à jouer les corpus et bases de données lexicales (Ressources), et l’intérêt du TAL pour des domaines particuliers (Langues spécialisées, Traitement de la langue biomédicale). Comme chaque année, l’ATALA a décerné un prix de thèse dont la récipiendaire présentera son travail en session plénière. La conférence a invité la présentation d’instruments récents du CNRS par leurs coordinatrices : d’une part le pré-GDR TAL (INS2I / informatique), qui adopte une vision inclusive du traitement de la langue (écrite, orale, signée), couvrant les communautés du traitement automatique des langues, du traitement automatique du langage parlé et de la recherche d’information ; d’autre part le GDR LIFT (INSHS / sciences du langage) sur la linguistique informatique, formelle et de terrain. Cette année, dix-sept articles ont été soumis à RECITAL. Après avoir été chacun évalué par deux membres du comité de programme, quatre articles ont été retenus pour une présentation orale (soit un taux de sélection pour présentation orale de 24 %), et sept autres ont été retenus pour une présentation sous forme de poster (taux de sélection global de 65 %). Nous avons ainsi pu donner l’opportunité à douze jeunes chercheuses et chercheurs, en grande majorité en début de thèse, de présenter leurs travaux à la communauté. Nous remercions le comité de programme (également à parité femme – homme) pour leur minutieux travail de relecture. Nous souhaitons pour finir au public de ces conférences une semaine riche en découvertes scientifiques et en rencontres de nouveaux collègues, dans une ambiance assurément chaude pour toute la semaine. Emmanuel Morin, Sophie Rosset et Pierre Zweigenbaum (TALN) Anne-Laure Ligozat et Sahar Ghannay (RECITAL) 7 TALN-RECITAL@PFIA 2019
Comités Présidents de TALN — Emmanuel Morin (LS2N, Université de Nantes) — Sophie Rosset (LIMSI, CNRS, Université Paris-Saclay) — Pierre Zweigenbaum (LIMSI, CNRS, Université Paris-Saclay) Membres du CP de TALN — Delphine Bernard (LiLPa, Université de Strasbourg) — Chloé Braud (LORIA, CNRS) — Nathalie Camelin (LIUM, Le Mans Université) — Peggy Cellier (IRISA, INSA Rennes) — Benoît Crabbé (LLF, Université Paris Diderot) — Iris Eshkol-Taravella (MoDyCo, Université Paris Nanterre) — Cécile Fabre (CLLE-ERSS, Université Toulouse - Jean Jaurès) — Núria Gala (LPL, Aix Marseille Université) — Thierry Hamon (LIMSI, Université Paris Nord) — Philippe Langlais (RALI/DIRO, Université de Montréal) — Gwénolé Lecorvé (IRISA, Université de Rennes 1) — Aurélie Névéol (LIMSI, CNRS, Université Paris-Saclay) — Damien Nouvel (ERTIM, INaLCO) — Didier Schwab (LIG, Université Grenoble Alpes) — Xavier Tannier (LIMICS, Université Pierre et Marie Curie) Comité de lecture de TALN — Gilles Adda (LIMSI, CNRS, Université Paris-Saclay) — Salah Ait-Mokhtar (Naver Labs Europe) — Alexandre Allauzen (LIMSI, CNRS, Université Paris-Saclay) — Maxime Amblard (LORIA, Université de Lorraine) — Jean-Yves Antoine (LIFAT, Université de Tours) — Loïc Barrault (LIUM, Le Mans Université) — Denis Béchet (LS2N, Université de Nantes) — Frederic Béchet (LIS, Aix-Marseille Université) — Patrice Bellot (LIS, Aix-Marseille Université) — Asma Ben Abacha (Lister Hill Center, National Library of Medicine) — Laurent Besacier (LIG, Université Grenoble Alpes) — Yves Bestgen (ILC, Université catholique de Louvain) — Philippe Blache (LPL, CNRS, Aix-Marseille Université) — Fethi Bougares (LIUM, Le Mans Université) — Thierry Charnois (LIPN, Université Paris 13) — Vincent Claveau (IRISA, CNRS) — Chloé Clavel (LTCI, Télécom ParisTech) — Kevin Bretonnel Cohen (University of Colorado School of Medicine) — Béatrice Daille (LS2N, Université de Nantes) — Géraldine Damnati (Orange Labs) — Gaël Dias (GREYC, Normandie Université) — Marco Dinarelli (LIG, CNRS) — Patrick Drouin (OLST, Université de Montréal) — Dominique Estival (MARCS, Western Sydney University) — Yannick Estève (LIUM, Le Mans Université) — Olivier Ferret (CEA LIST) — Karën Fort (STIH, Sorbonne Université) — Thomas Francois (CENTAL, Université catholique de Louvain) — Éric Gaussier (LIG, Université Grenoble Alpes) — Jérôme Goulian (LIG, Université Grenoble Alpes) TALN-RECITAL@PFIA 2019 8
— Natalia Grabar (STL, CNRS) — Cyril Grouin (LIMSI, CNRS, Université Paris-Saclay) — Olivier Hamon (Syllabs) — Nabil Hathout (CLLE-ERSS, CNRS) — Amir Hazem (LS2N, Université de Nantes) — Nicolas Hernandez (LS2N, Université de Nantes) — Stéphane Huet (LIA, Université d’Avignon et des Pays de Vaucluse) — Christine Jacquin (LS2N, Université de Nantes) — Sylvain Kahane (Modyco, Université Paris Nanterre) — Olivier Kraif (LIDILEM, Université Grenoble Alpes) — Mathieu Lafourcade (LIRMM, Université de Montpellier) — David Langlois (LORIA, Université de Lorraine) — Eric Laporte (LIGM, Université Paris-Est Marne-la-Vallée) — Thomas Lavergne (LIMSI, Université Paris Sud, Université Paris-Saclay) — Joseph Le Roux (LIPN, Université Paris 13) — Benjamin Lecouteux (LIG, Université Grenoble Alpes) — Yves Lepage (Waseda University) — Denis Maurel (LIFAT, Université de Tours) — Richard Moot (LIRMM, CNRS) — Véronique Moriceau (IRIT, Université Paul Sabatier) — Philippe Muller (IRIT, Université Paul Sabatier) — Alexis Nasr (LIS, Aix Marseille Université) — Adeline Nazarenko (LIPN, Université Paris 13) — Luka Nerima (Université de Genève) — Jian-Yun Nie (RALI/DIRO, Université de Montréal) — Yannick Parmentier (LORIA, Université de Lorraine) — Sebastian Peña Saldarriaga (Dictanova) — Thierry Poibeau (Lattice, CNRS) — Alain Polguère (ATILF, Université de Lorraine) — Jean-Philippe Prost (LIRMM, Université de Montpellier) — Solen Quiniou (LS2N, Université de Nantes) — Christian Raymond (IRISA, INSA Rennes) — Christian Retoré (LIRMM, Université de Montpellier) — Djamé Seddah (ALMAnaCH, Paris Sorbonne Université) — Gilles Serasset (LIG, Université Grenoble Alpes) — Michel Simard (NRC, Canada) — Kamel Smaili (LORIA, Université de Lorraine) — Pascale Sébillot (IRISA, INSA Rennes) — Ludovic Tanguy (CLLE-ERSS, Université Toulouse - Jean Jaurès) — Juan-Manuel Torres-Moreno (LIA, Université d’Avignon et des Pays de Vaucluse) — Guillaume Wisniewski (LIMSI, Université Paris-Sud, Université Paris-Saclay) — François Yvon (LIMSI, CNRS, Université Paris-Saclay) Relecteurs additionnels de TALN — Jingshu Liu (Dictanova) — Emile Chapuis (LTCI, Télécom ParisTech) — Caroline Langlet (LTCI, Paris Sorbonne Université) — Joseph Lark (Dictanova) — Alexandre Garcia (LTCI, Télécom ParisTech) Présidentes de RECITAL — Anne-Laure Ligozat (LIMSI, CNRS, Université Paris-Saclay) — Sahar Ghannay (LIMSI, CNRS, Université Paris-Saclay) Membres du CP de RECITAL — Jean-Yves Antoine (LIFAT, Université de Tours) 9 TALN-RECITAL@PFIA 2019
— Ismail Badache (ESPE / LIS, Aix-Marseille Université) — Amira Barhoumi (LIUM, Université du Maine - MIRACL Sfax) — Rachel Bawden (University of Edinburgh) — Aurélien Bossard (LIASD, Université Paris 8) — Chloé Braud (LORIA, CNRS) — Nathalie Camelin (LIUM, Université du Maine) — Rémi Cardon (STL, Lille) — Peggy Cellier (IRISA, INSA Rennes) — Antoine Doucet (L3i, Université de la Rochelle) — Maha Elbayad, LIG/ Inria — Arnaud Ferré (LIMSI-CNRS/MaIAGE-INRA, Université Paris-Saclay) — Amel Fraisse (Gériico, Lille) — Thomas François (CENTAL, Université catholique de Louvain) — Nicolas Hernandez (LS2N, Université de Nantes) — Yann Mathet (Greyc, Université de Caen) — Alice Millour (STIH, Université Paris-Sorbonne) — Anne-Lyse Minard (LLL, Orléans) — Jose Moreno (IRIT, UPS) — Tsanta Randriatsitohaina (LIMSI, Université Paris-Sud, Université Paris-Saclay) — Loïc Vial (LIG, Université Grenoble Alpes) TALN-RECITAL@PFIA 2019 10
Volume IV : Démonstrations
Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial et Benjamin Lecouteux Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial, Benjamin Lecouteux Univ. Grenoble Alpes, CNRS, Grenoble INP, LIG, 38000 Grenoble, France {loic.vial, benjamin.lecouteux, didier.schwab}@univ-grenoble-alpes.fr R ÉSUMÉ Cet article présente une ressource qui fait le lien entre WordNet et Arasaac, la plus grande base de pictogrammes librement disponible. Cette ressource est particulièrement intéressante pour la création d’applications visant l’aide aux personnes en situation de handicap cognitif. A BSTRACT Giving semantic knowledge to a set of pictograms for people with disabilities : a set of links between WordNet and Arasaac, Arasaac-WN This article presents a resource that links WordNet and Arasaac, the largest freely available database of pictograms. This resource is particularly interesting for the creation of applications aimed at helping people with cognitive disabilities. M OTS - CLÉS : Outils d’assistance pour les personnes en situation de handicap, Pictogrammes, Communication Alternative et Augmentée. K EYWORDS: Assistive Technology for people with disabilities, Pictograms, Alternative and Augmented Communication. 1 Introduction Communiquer lorsque le langage oral et signé est inaccessible ou mis en difficulté est une véritable épreuve pour les individus en situation de polyhandicap et leur entourage. L’utilisation d’un code de communication alternatif dans les activités quotidiennes peut être freinée par des difficultés d’apprentissage, des représentations négatives de la communication non orale, ou un coût trop important des outils d’aide à la communication, engendrant d’importantes frustrations pour les interactants. Pour permettre aux individus en situation de handicap langagier de communiquer, il existe plusieurs méthodes de Communication Alternative et Améliorée (CAA) (Nègre, 2017). Ces méthodes sont dites « alternatives » lorsqu’elles remplacent totalement les moyens d’expression orale et sont dites « améliorées » lorsqu’elles permettent de suppléer les capacités de communication déjà présentes, pouvant même aider à l’émergence de l’oralisation ou de la graphie pour certains individus (Beukelman and Mirenda, 2017). Pour de nombreuses personnes en situation de polyhandicap, les gestes et la parole sont impossibles et seule la communication par pictogrammes est possible. Le pictogramme peut être défini comme un signe graphique schématique dont le signifiant entretient un rapport de ressemblance plus au moins fort avec le signifié, au contraire des signes linguistiques phoniques ou graphiques dont la forme du stimulus est arbitraire et indépendante de celle du référent. Il permet une représentation plus iconique de l’information et est plus facilement interprétable. Le développement de ce type d’outil correspond également à une demande sociale de plus en plus forte pour développer l’accessibilité : il s’agit alors de présenter une certaine image pour demander à boire, d’en présenter une autre pour demander à Démonstrations 619 TALN-RECITAL@PFIA 2019
Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN manger (parfois en désignant du regard par l’intermédiaire d’un oculomètre (Schwab et al., 2018)). Le cœur de cette démonstration pose des bases pour de futurs outils liés aux pictogrammes comme, par exemple, l’automatisation de la communication par pictogrammes (voir vidéo). 2 Du pictogramme à la langue naturelle Actuellement, il n’existe pas de base de connaissance permettant de lier des pictogrammes issus d’Arassac de manière formelle à leur représentation sémantique. Généralement, les utilisateurs de pictogrammes vont les choisir en fonction d’une description textuelle, d’une représentation graphique, d’un mode d’emploi ou encore suite à une formation. Cette association entre un pictogramme et une représentation sémantique est pourtant un élément essentiel pour réaliser des outils de TALN utilisant les pictogrammes. Un travail équivalent a déjà été réalisé pour d’autres jeux de pictogrammes qui ne sont malheureusement pas utilisés en France (Vandeghinste and Schuurman, 2014). Nous présentons donc une première base de données réalisant ce lien à partir de pictogrammes qui sont à la fois libres et utilisés dans les institutions. Notre objectif est de promouvoir le développement de divers outils autour des pictogrammes, nous souhaitons cette base soit enrichie au fur et à mesure des années. 2.1 Le jeu de pictogrammes ouvert et libre : Arassac Les pictogrammes Arasaac sont fournis par le Portail Aragonais de la Communication Améliorée et Alternative (http://www.arasaac.org). Le portail aragonais met à disposition plus de treize mille pictogrammes en noir et blanc et plus de quinze mille pictogrammes en couleur. Il s’agit ainsi de la plus grande base librement disponible. Ces pictogrammes disposent d’une licence Creative Commons de type BY-NC-SA qui autorise l’exploitation à des fins non commerciales, ainsi que la création d’œuvres dérivées, à condition qu’elles soient distribuées sous la même licence. F IGURE 1 – Manger. F IGURE 2 – Boire. F IGURE 3 – Dormir. 2.2 Exemples d’applications Une fois le lien entre une base de pictogrammes et WordNet établie, il est possible d’envisager de nombreuses applications. Nous en présentons deux que nous souhaiterions développer : 1) la génération vocale à partir des pictogrammes qui permettrait à une personne en situation de handicap de composer des messages sous la forme d’une voix synthétisée. Le problème revient ainsi à la recherche des pictogrammes nécessaires à la composition du message ; Arasaac-WN permettrait ainsi une recherche en fonction des idées associées aux images en passant par le texte des définitions et/ou le réseau lexical par exemple à la manière de (Zock and Schwab, 2011) ; 2) la génération de pictogrammes à partir du langage naturel (Vaschalde et al., 2018b,a; Sevens et al., 2017). Il s’agit ainsi d’associer les pictogrammes au discours correspondant. L’idée est de plonger dans un bain langagier une personne nécessitant d’apprendre ou de réapprendre à partir de zéro . En effet, c’est en multipliant les occasions où elle est confrontée à l’association d’un pictogramme avec un certain mot, un certain concept que la personne arrivera à les associer de manière naturelle exactement comme les enfants typiques apprennent les mots. 3 La ressource Arasaac-WN Afin de présenter au mieux la ressource, nous avons opté pour l’utilisation d’outils spécialisés dans la diffusion de collections numériques. Nous nous sommes orientés sur Omeka (Scheinfeldt, 2008) qui est une plateforme libre développée par le Center for History and New Media (CHNM) de l’Université TALN-RECITAL@PFIA 2019 620 Démonstrations
Didier Schwab, Pauline Trial, Céline Vaschalde, Loïc Vial et Benjamin Lecouteux George Mason. Cet outil est particulièrement conçu pour l’organisation, l’exposition et la mise en ligne de données iconographiques, avec leurs métadonnées. Par exemple, Omeka permet d’associer des métadonnées standardisées au format du Dublin Core (vocabulaire du web sémantique utilisé pour exprimer les données dans un modèle Resource Description Framework, RDF) afin d’effectuer des recherches poussées au sein de la collection numérique. 3.1 Structure de la ressource La ressource est disponible dans le format RDF, il est ainsi possible d’utiliser des outils classiques du Web sémantique et de l’interroger en SPARQL (SPARQL Protocol and RDF Query Language). Nous avons pris le parti d’exploiter les champs initiaux du Dublin Core afin de représenter les différents pictogrammes. Les principaux attributs de Arasaac-WN sont les suivants : 1) Titre : nom du pictogramme tel qu’il était indiqué sur Arasaac ; 2) Description : identifiants WordNet permettent l’identification unique d’un terme dans la base de données lexicale et ainsi de supprimer toute ambiguïté (emplacement des bases de données (Database locations 1), le numéro de sens (Sense numbers 2) ainsi que la clé de sens (Sense key 3)) ; 3) Créateur : l’organisme qui a créé le lien ; 4) Contributeur : nom de la personne qui a ajouté l’entrée dans la base ; 5) Relation : comme indiqué dans les spécifications du Dublin Core, ce champ permet de faire appel à une ressource apparentée et peut servir à donner des liens vers celles-ci. Cet élément sert donc à mettre en évidence les liens à partir desquels les données sont extraites ; 6) Langue : cet élément permet de préciser que les informations renseignées sont en anglais. Le WordNet étant en anglais, l’ensemble des mots des deux listes en français ont été intégrés à la collection sous leur nom anglais sur Arasaac ; 7) Alternative title : cet élément du Dublin Core qualifié permet, comme son nom l’indique, de donner un titre alternatif à la ressource. Ce champ a donc été utilisé pour renseigner le nom français du pictogramme et ainsi faciliter la recherche dans la base. Au 25 mai 2019, la ressource contient 586 liens, c’est-à-dire 586 pictogrammes d’Arasaac qui ont été reliés à WordNet. 3.2 Difficultés et protocoles d’annotation Pour certains pictogrammes, il est difficile d’extraire une signification unique à partir du contenu représenté. Pour le pictogramme "oublier" par exemple, l’image ne permet pas d’établir avec certitude la signification visée par le créateur de celle-ci et de faire un lien univoque avec WordNet (forget). Dans ce genre de cas, les entrées pour un même pictogramme peuvent être multipliées pour cor- respondre aux différentes significations possibles lorsque celles-ci sont couramment usitées. Des différences relativement fines sont présentes pour certains termes comme la pluie par exemple, où WordNet propose les deux définitions suivantes : "water falling in drops from vapor condensed in the atmosphere" et "drops of fresh water that fall as precipitation from clouds". Lorsque ce genre de cas se présente, il est nécessaire de sélectionner le bon synset. D’autres problèmes de correspondance ont pu être mis en évidence lors de la création de la ressource, comme des noms de pictogrammes en plusieurs mots ne trouvant pas d’équivalent sur WordNet (ex : to grow larger). 4 Conclusion et perspectives Dans cet article nous avons présenté une première version de Arasaac-WN qui lie le WordNet à la base ARASSAAC : la plus grande base de pictogrammes destinés aux personnes en situation de handicap disponible librement. À ce jour, 586 pictogrammes ont été liés permettant d’accéder à l’écosystème du WordNet et ainsi de permettre d’accéder à tout un ensemble d’outils du traitement automatique des langues pour l’assistance aux personnes en situation de handicap. La réalisation de ce type de base est assez fastidieuse en raison des difficultés rencontrées et du protocole d’annotation. Comme nous l’avons montré, il y a des problèmes liés à des équivalences avec WordNet qui n’existent pas. Dans les versions à venir, nous proposerons des solutions pour contourner ces problèmes. Démonstrations 621 TALN-RECITAL@PFIA 2019
Apporter des connaissances sémantiques à un jeu de pictogrammes destiné à des personnes en situation de handicap : un ensemble de liens entre WordNet et Arasaac, Arasaac-WN Références D. Beukelman and P. Mirenda. 2017. Communication alternative et augmentée : Aider les enfants et les adultes avec des difficultés de communication. E. Cataix Nègre. 2017. Communiquer autrement : Accompagner les personnes avec des troubles de la parole ou du langage. Tom Scheinfeldt. 2008. Omeka: Open source web publishing for research, collections and exhibitions. Open Source Business Resource. Didier Schwab, Amela Fejza, Loïc Vial, and Yann Robert. 2018. The GazePlay Project: Open and Free Eye-trackers Games and a Community for People with Multiple Disabilities. In ICCHP 2018 - 16th International Conference on Computers Helping People with Special Needs, volume 10896 of LNCS, pages 254–261, Linz, Austria. Springer. L. Sevens, V. Vandeghinste, I. Schuurman, and F. Van Eynde. 2017. Simplified Text-to-Pictograph Translation for People with Intellectual Disabilities. NLDB. V. Vandeghinste and I. Schuurman. 2014. Linking Pictographs to Synsets: Sclera2Cornetto. LREC. C. Vaschalde, B. Lecouteux, and D. Schwab. 2018a. Génération de pictogrammes à partir de la parole spontanée pour la mise en place d’une communication médiée. 50 ans de linguistique sur corpus oraux : Apports à l’étude de la variation. C. Vaschalde, P. Trial, E. Esperança-Rodier, D. Schwab, and B. Lecouteux. 2018b. Automatic picto- gram generation from speech to help the implementation of a mediated communication. Conference on Barrier-free Communication. Michael Zock and Didier Schwab. 2011. Storage does not Guarantee Access: The Problem of Organizing and Accessing Words in a Speaker’s Lexicon. Journal of Cognitive Science, 12 :233–258. (Impact-F 3.52 estim. in 2012). TALN-RECITAL@PFIA 2019 622 Démonstrations
Guillaume Dubuisson Duplessis, Sofiane Kerroua, Ludivine Kuznik et Anne-Laure Guénet Cameli@ : analyses automatiques d’e-mails pour améliorer la relation client Guillaume Dubuisson Duplessis Sofiane Kerroua Ludivine Kuznik Anne-Laure Guénet EDF Commerce, Direction Numérique, Tour PB6, 178 Rond-Point de la Défense, 92800 Puteaux, France anne-laure.guenet@edf.fr R ÉSUMÉ Cette démonstration présente un système actuellement en production d’analyses automatiques d’e- mails en français incluant des analyses thématiques, des analyses de l’opinion, des tâches d’extraction d’information et une tâche de pseudo-anonymisation. A BSTRACT Cameli@ : automatic e-mail analysis to improve the customer relationship This demonstration presents an automatic e-mail analysis system in French language including thematic analysis, opinion analysis, information extraction tasks and a pseudo-anonymization task. M OTS - CLÉS : classification thématique, analyse de l’opinion, extraction d’information. K EYWORDS: thematic classification, opinion mining, information extraction. 1 Analyses automatiques des e-mails client à EDF Commerce Chaque mois plusieurs centaines de milliers d’e-mails client sont envoyés à EDF et font l’objet d’un traitement manuel attentif de la part des conseillers client. Ces données textuelles en français offrent une grande richesse. Résultat d’une expression libre et spontanée du client, elles font notamment apparaître une grande variabilité, par exemple, en terme de nombre de sujets abordés, de respect de l’orthographe et de la syntaxe, de niveau de langue, de politesse mais aussi de structuration. L’augmentation significative de l’utilisation des canaux digitaux comme les e-mails appelle à une optimisation du processus de réponse afin de raccourcir le temps de traitement des e-mails tout en assurant un très haut niveau de qualité dans la relation client. C’est pour faire face à ce défi que le projet Cameli@ a vu le jour. Il met en place des technologies récentes du domaine du TALN en production afin d’optimiser le traitement des e-mails clients pour l’amélioration de la relation client. Les analyses automatiques de Cameli@ visent à enrichir « à la volée » les e-mails d’information comme la thématique de contact ou le ressenti du client afin de nourrir trois cas d’usage. Premièrement, elles ont été pensées afin d’optimiser le routage vers le conseiller le plus adapté. Ensuite, les résultats des analyses sont exposés via un tableau de bord permettant le pilotage de l’activité de traitement des e-mails. Nourrie au fil de l’eau, cette interface permet aux directions métier de suivre les pics de contacts sur les différents motifs et ainsi gagner en réactivité dans leurs process. Aussi, il permet d’avoir une vision allant de plusieurs mois à la journée courante tout en garantissant un retour aux e-mails pseudo-anonymisés. Enfin, les analyses permettent l’automatisation du traitement de Démonstrations 623 TALN-RECITAL@PFIA 2019
Cameli @ : analyses automatiques d’e-mails pour améliorer la relation client certaines demandes simples et ciblées afin de décharger les conseillers client. Par exemple, un e-mail client informant uniquement d’une relève d’index peut faire l’objet d’un traitement complètement automatique. Le projet Cameli@ met en place des analyses variées dans un cadre opérationnel. Il a été pensé dans le respect de contraintes de nature diverse. La première contrainte est de nature légale. Les analyses et les cas d’usage ont été conçus en prenant en compte nativement la loi RGPD. Par exemple, un algorithme de pseudo-anonymisation des e-mails a été conçu pour permettre un retour aux données dans le tableau de bord occultant des éléments identifiants tels que les prénoms, noms et adresses postales. La deuxième contrainte est de nature technique. Les analyses sont développées pour un fonctionnement en production dans l’écosystème de la DSI Commerce d’EDF. Cela impacte notamment le choix des langages de programmation ou encore l’infrastructure cible (par exemple, la présence ou non de GPU). En outre, le temps de traitement des analyses est optimisé pour permettre un enrichissement des e-mails à la volée au fur et à mesure de leur réception. Enfin, la troisième contrainte est une exigence « métier » en terme de performances et d’un certain niveau de transparence des modèles (Weller, 2017). Effectivement, les résultats des modèles sont exploités par des utilisateurs qui ne sont pas les concepteurs des modèles. Afin de garantir leur utilisabilité, il est nécessaire d’assurer un niveau de performance optimal et leur capacité à généraliser. Il est aussi important de donner une certaine intuition du fonctionnement du modèle, en particulier pour les modèles de type « boîte noire ». Dans ce contexte, le retour aux données est primordial. Le projet Cameli@ met en oeuvre trois grands types de tâches. Il inclut de multiples tâches de classi- fication. Tout d’abord, une quinzaine de catégorisations thématiques non-exclusives qui permettent de cerner le contenu de l’e-mail (par exemple, des catégories telles que « réclamation », « coupure », « montant de la facture »). Ensuite, des modèles d’analyse de l’opinion (Clavel et al., 2013) afin de cerner la polarité émotionnelle de l’e-mail telle que la présence de l’expression d’un mécontentement. Le projet inclut des tâches d’extraction d’information dans le but d’automatiser le traitement des demandes simples. À l’heure actuelle, il s’agit de l’extraction des index du compteur communiqués par e-mail. Enfin, le projet implique une tâche de pseudo-anonymisation qui vise à désidentifier les e-mails en supprimant des éléments identifiants tels que les noms et adresses postales. Cette dernière se fonde sur une tâche de reconnaissance d’entités nommées (Nouvel et al., 2016). Le projet a bénéficié de la mise en place d’un processus d’annotation rigoureux. Les données d’ap- prentissage ont été annotées en interne via une plateforme web inspirée du projet Camomile (Poignant et al., 2016) avec un effort particulier pour assurer la qualité des annotations (triple annotation, accord inter-annotateur). L’importante quantité de données non-annotées a été exploitée par l’usage de mo- dèles de plongement vectoriel entraînés spécifiquement sur les e-mails tels que Word2Vec (Mikolov et al., 2013), FastText (Bojanowski et al., 2016), et GloVe (Pennington et al., 2014). De multiples approches de classification ont été explorées. Notamment, des approches neuronales de type CNN et LSTM. In fine, des classifieurs plus « simples » mais offrant des performances compétitives ont été retenus (Shen et al., 2018). L’extraction d’information repose sur le logiciel XIP développé par la société Xerox fonctionnant à base de règles linguistiques. 2 Démonstrateur Cette démonstration vise à exposer les différentes analyses réalisées sur les e-mails et à présenter le cas d’usage « tableau de bord ». À cet effet, le démonstrateur inclut (i) la possibilité pour l’utilisateur TALN-RECITAL@PFIA 2019 624 Démonstrations
Guillaume Dubuisson Duplessis, Sofiane Kerroua, Ludivine Kuznik et Anne-Laure Guénet de saisir un e-mail fictif, de lancer le traitement sur cet e-mail en « temps réel » et de visualiser la restitution des différentes analyses, et (ii) une présentation du tableau de bord qui permet de restituer et synthétiser les résultats des analyses sur une quantité importante d’e-mails. Remerciements Nous remercions chaleureusement toutes les personnes qui sont intervenues sur ce projet : Meryl Bothua, Sylvain Boucault, Christophe Malnou, Bulent Burgucuoglu, Mélanie Cazes, Ariane De Moegen, Thomas Desmettre, Uyen-To Doan-Rabier, Asceline Goudjo, Uta Hosokawa, Cécile Legrand, Youcef Maamra, Ibtissem Menacer, Mathilde Poulain, Jean-Charles Rue, Jérôme Simoneto et son équipe, Véronique Ubério, Jérémy Vialaneix, et Jean Vidal. Références B OJANOWSKI P., G RAVE E., J OULIN A. & M IKOLOV T. (2016). Enriching word vectors with subword information. arXiv preprint arXiv :1607.04606. C LAVEL C., A DDA G., C AILLIAU F., G ARNIER -R IZET M., C AVET A., C HAPUIS G., C OURCI - NOUS S., DANESI C., DAQUO A.-L., D ELDOSSI M. et al. (2013). Spontaneous speech and opinion detection : mining call-centre transcripts. Language resources and evaluation, 47(4), 1089–1125. M IKOLOV T., C HEN K., C ORRADO G. & D EAN J. (2013). Efficient estimation of word representa- tions in vector space. arXiv preprint arXiv :1301.3781. N OUVEL D., E HRMANN M. & ROSSET S. (2016). Named Entities for Computational Linguistics. John Wiley & Sons. P ENNINGTON J., S OCHER R. & M ANNING C. D. (2014). Glove : Global vectors for word representation. In Empirical Methods in Natural Language Processing (EMNLP), p. 1532–1543. P OIGNANT J., B UDNIK M., B REDIN H., BARRAS C., S TEFAS M., B RUNEAU P., A DDA G., B E - SACIER L., E KENEL H., F RANCOPOULO G. et al. (2016). The Camomile collaborative annotation platform for multi-modal, multi-lingual and multi-media documents. In LREC 2016 Conference. S HEN D., WANG G., WANG W., M IN M. R., S U Q., Z HANG Y., L I C., H ENAO R. & C ARIN L. (2018). Baseline needs more love : On simple word-embedding-based models and associated pooling mechanisms. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1 : Long Papers), volume 1, p. 440–450. W ELLER A. (2017). Challenges for transparency. arXiv preprint arXiv :1708.01870. Démonstrations 625 TALN-RECITAL@PFIA 2019
Marine Schmitt, Élise Moreau, Mathieu Constant et Agata Savary Démonstrateur en-ligne du projet ANR PARSEME-FR sur les expressions polylexicales Marine Schmitt1 Élise Moreau2 Mathieu Constant1 Agata Savary3 (1) Université de Lorraine, CNRS, ATILF, France, (2) Vivoka, France (3) Université de Tours, LIFAT, France Marine.Schmitt@atilf.fr, elise.moreau@vivoka.com, Mathieu.Constant@univ-lorraine.fr, agata.savary@univ-tours.fr R ÉSUMÉ Nous présentons le démonstrateur en-ligne du projet ANR PARSEME-FR dédié aux expressions polylexicales. Il inclut différents outils d’identification de telles expressions et un outil d’exploration des ressources linguistiques de ce projet. A BSTRACT On-line demonstrator of the PARSEME-FR project on multiword expressions. We present an on-line demonstrator of PARSEME-FR project on multiword expressions. It includes several multiword expression identification tools, and a browser of the linguistic resources built during this project. M OTS - CLÉS : Expressions polylexicales, identification, corpus annoté, lexique. K EYWORDS: Multiword expressions, identification, annotated corpus, lexicon. 1 Présentation générale Les expressions polylexicales (EPs) sont des séquences d’éléments lexicaux montrant des irrégularités de composition à différents niveaux linguistiques. Leur identification est un composant essentiel du traitement automatique des langues, mais fait face à de nombreuses difficultés : ex. discontinuité, non- compositionnalité, variabilité, . . . (Constant et al., 2017). Le projet ANR PARSEME-FR 1 est dédié à ce type d’expressions et vise à développer de nouvelles méthodes de traitement en combinaison avec l’analyse syntaxique et sémantique. Il a conduit à la construction de nouvelles ressources logicielles et linguistiques, distribuées sous licences libres. Dans cet article, nous présentons un démonstrateur en-ligne public 2 qui permet de tester différents outils d’identification développés par les chercheurs du projet et de parcourir un corpus annoté en EPs et une ressource lexicale qui ont été automatiquement alignés. Il est dédié au traitement de la langue française, mais il est prévu une version multilingue. A notre connaissance, aucun outil comparable n’existe dans la communauté francophone du TAL et ceux proposés par la communauté internationale sont peu nombreux. La version 1.0 du corpus PARSEME en 15 langues (Savary et al., 2018), y compris le français, peut notamment être interrogée 1. http://parsemefr.lis-lab.fr 2. Le démonstrateur (https://mwedemonstrator.atilf.fr) a été développé avec le langage Python, à l’aide du framework Django pour l’intégration web. La base de données ayant servi à inclure le lexique et le corpus a été mise en place avec SQLite. La partie interface a été construite en HTML/CSS à l’aide du framework Bootstrap, ainsi qu’en Javascript/jQuery. Enfin, nous avons utilisé un container Docker pour faciliter la mise en place de l’environnement de développement. Démonstrations 627 TALN-RECITAL@PFIA 2019
Vous pouvez aussi lire