Numérisation des données dialectales d'oïl : le projet APPI comme laboratoire - APPI : Atlas pan ...

La page est créée Michel Boulanger

Nourriture et boissons

Français

Like
Partager
Intégrer
Plein écran
Diapositives
Télécharger HTML
Télécharger PDF
Abus

←

CONTINUER À LIRE

→

Transcription du contenu de la page

Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous

Numérisation des données dialectales d'oïl :
                           le projet APPI comme laboratoire

                                                                Esther Baiwir et Pascale Renders
                                                                               Université de Lille1

         0. Introduction

       La révolution numérique a provoqué depuis quelques années un mouvement international
d’informatisation des ressources lexicographiques, visible à travers les publications des colloques
scientifiques Euralex et eLex (v. http://euralex.org et https://elex.link) ainsi que sur les portails
dédiés aux grandes langues européennes (voir par exemple http://ivdnt.org/onderzoek-a-
onderwijs/projecten/gigant, http://woerterbuchnetz.de/ ou http://www.cnrtl.fr/). Les objectifs sont
non seulement d’améliorer l’accessibilité des données, mais aussi d’ouvrir la voie à de nouveaux
modes de consultation et d’exploitation, notamment via la mise en réseau de ces ressources.
L’Europe encourage depuis 2014 la numérisation, la mise en ligne et la mise en réseau des
dictionnaires des grandes langues européennes via l’action COST « European Network of e-
Lexicography » (www.elexicography.eu).
       La linguistique historique française et romane n’échappe pas à ce mouvement. Le format
numérique est privilégié, que ce soit dès la création d’une ressource (par exemple pour le
Dictionnaire du Moyen Français – DMF ou le Dictionnaire étymologique roman – DÉRom) ou dans
le cadre de la rétroconversion d’un ouvrage au départ imprimé (par exemple pour le Trésor de la
Langue Française – TLFi ou le Französisches etymologisches Wörterbuch – FEW). De nombreuses
ressources ne sont toutefois pas encore disponibles sous une forme numérique, que ce soit pour des
motifs humains (manque de moyens ou de porteurs de projets) ou techniques. Parmi ces ressources,
les atlas linguistiques, ouvrages de référence pour la dialectologie et ressources essentielles pour la
linguistique galloromane, présentent des matériaux non linéaires, contrairement aux dictionnaires.
Leur numérisation ne peut donc s'envisager sans une transformation radicale de leur microstructure.
Bien que le plus ancien, l’Atlas linguistique de la France, ait fait l’objet d’un projet de mise en ligne
sous la forme d’images (voir http://cartodialect.imag.fr/cartoDialect), les atlas linguistiques par
régions sont pour la plupart cantonnés à des éditions physiques, voire encore à l’état de matériaux
inédits. L’intégration de ces atlas dans le réseau lexicographique en construction est pourtant
nécessaire : outre la sauvegarde d’un patrimoine linguistique en voie de disparition (et des matériaux
d’enquête eux-mêmes, manuscrits rarement numérisés), la mise en ligne des données dialectales
permet d’accéder enfin à des données qui éclairent et corrigent les ressources lexicographiques de la
Galloromania et de mettre à jour ces dernières (cf. Baiwir/Renders 2013). La mise en réseau des atlas
remédierait également au cloisonnement qu’ils opérent entre les différents domaines géolinguistiques,
ouvrant ainsi la voie à une meilleure compréhension des marges entre les aires linguistiques
traditionnelles (v. Deparis 1973), voire à une réflexion sur les liens entre dialectes et français
régionaux (v. Avanzi 2017). La question de la faisabilité d’une intégration de ressources
atlantographiques dans un réseau essentiellement lexicographique se pose toutefois, ainsi que la
pertinence des diverses modalités d’intégration possibles, d’un point de vue linguistique et d’un
point de vue informatique.

1
    Univ. Lille, EA 1061 - ALITHILA - Analyses Littéraires et Histoire de la Langue, F-59000 Lille, France.

                    Édition numérique — Atlas pan-picard informatisé (APPI)
                       Projet financé par l'Agence nationale de la Recherche
                                Première mise en ligne le 4 avril 2019
                                       https://appi.univ-lille.fr
                                                                                                          1

C’est pour répondre à ces questions qu’a été initié le projet APPI, acronyme de Atlas pan-
picard informatisé, qui vient de recevoir un financement de l’ANR pour les années 2018, 2019 et
2020 (appel générique 2017). Au-delà de sa focalisation sur un domaine dialectal, certes
particulièrement intéressant, mais géographiquement réduit, le projet a pour objectif plus général de
préparer la future intégration des ressources atlantographiques dans le réseau de lexicographie
numérique en analysant tous les aspects du problème, qu’il s’agisse des modalités de mise en relation
avec les ressources lexicographiques concernées ou des modalités de numérisation des données elles-
mêmes, qui se présentent sous des formes très variées selon les atlas.
       Après un rappel de l’état du numérique en dialectologie et en lexicographie galloromane (1),
cette communication présente le projet APPI en détaillant les trois phases du projet : la constitution
d’un corpus rassemblant des données hétérogènes (2.1), la numérisation proprement dite, sous un
nouveau format permettant le dialogue entre l’atlantographie et la lexicographie (2.2), et l’intégration
dans le réseau lexicographique (2.3). Sont finalement décrits les résultats attendus du projet (3), le
plus attendu étant sans aucun doute la valorisation du patrimoine linguistique dialectal par les
nouveaux modes d’exploitation qu’offre le format numérique.

      1. La révolution numérique en lexicographie et dialectologie galloromanes

        La lexicographie galloromane est dominée par le FEW, qui en constitue le « dizionario-tetto »
(Buchi/Renders 2013). Ce véritable thesaurus rassemble l’ensemble des lexèmes du domaine
galloroman (français et dialectes d'oïl, gascon, occitan, franco-provençal) des origines à nos jours.
L’informatisation des 25 volumes, entamée en 2012 à l’ATILF (http://www.atilf.fr/few), a ouvert la
voie à la mise en réseau des ressources galloromanes, amenées à préparer leur connexion numérique
autour de cet ouvrage central (cf. Renders/Baiwir/Dethier 2015). Parmi les travaux concernés se
trouvent d’une part des ouvrages à visée diachronique, qui complètent le FEW pour une période
chronologique déterminée (par exemple le DMF et le TLF cités supra, ou encore le Dictionnaire
étymologique de l’ancien français – DEAF), d’autre part des ouvrages à visée diatopique, qui
examinent un domaine linguistique dialectal ou régional (Dictionnaire suisse romand – DSR,
Dictionnaire historique du français québecois – DHFQ, Atlas linguistique de la Wallonie – ALW
notamment). Toutes ces ressources, dont une partie sont déjà disponibles sous une forme numérique
(DEAF, DMF, TLF) corrigent et complètent le FEW, qui leur apporte à son tour un cadre structurant
et englobant.
        En ce qui concerne les dialectes, la discipline la plus répandue est l’étude de la répartition
diatopique des traits linguistiques, ou géographie linguistique. En France, c’est le suisse Jules
Gilliéron (1854-1926) qui porte la discipline sur les fonts baptismaux en lançant la campagne
d’enquêtes pour l’Atlas linguistique de la France (ALF). L’enquête, constituée de traductions des
mots et phrases du français vers les parlers locaux, sera menée par Edmond Edmont, entre 1897 et
1901 (v., par exemple, Brun-Trigaud, Le Berre et Le Dû 2005). Quelques décennies plus tard, Albert
Dauzat, épinglant les défauts d’une entreprise qui, au-delà de ses qualités extraordinaires, avait
souffert de l’immaturité de la discipline, rassemble des équipes de scientifiques locaux et conçoit le
projet d’une seconde campagne d’enquêtes linguistiques et ethnographiques dans toute la France (v.
Séguy 1973 et Straka/Gardette 1973), mais en morcellant le territoire en zones a priori homogènes
aux niveaux linguistique et culturel (ce découpage étant donc forcément antérieur aux conclusions
auxquelles devraient amener ces atlas régionaux — v. par exemple Tuaillon 1976 : 27-28). D’une
part, il s’agissait d’affiner les questionnaires par rapport aux réalités locales : l’interdépendance entre
les mots et les choses est en effet au coeur de l’entreprise (« Wörter und Sachen »), ce qui n’était pas
le cas pour l’ALF. D’autre part, l’idée était de resserrer le réseau des points d’enquête pour former
un maillage plus apte à éclairer des micro-faits de langues.

                  Édition numérique — Atlas pan-picard informatisé (APPI)
                     Projet financé par l'Agence nationale de la Recherche
                              Première mise en ligne le 4 avril 2019
                                     https://appi.univ-lille.fr
                                                                                                              2

La fragmentation du domaine et l’objectif de coller aux réalités locales eurent pour
conséquence un éclatement des méthodes d’enquête ainsi que des collections de matériaux plus
hétéroclites. Ceux-ci constituent néanmoins de précieux témoignages d’un passé linguistique ayant
forgé l’identité des régions de France, aux niveaux toponymique ou anthroponymique, folklorique et
culturel et éclairant l’histoire sociale et littéraire française. La disparition des locuteurs dialectaux
rend aujourd’hui ces enquêtes d’autant plus irremplaçables et leur édition essentielle.
Malheureusement, seule une partie est éditée ; quant aux les matériaux publiés, ils sont eux aussi peu
accessibles, pour plusieurs raisons. L’éparpillement des informations, la disparité des différents
corpus (voir Baiwir 2017 pour une revue systématique des entreprises atlantographiques du nord de
la France) et l’opacité des matériaux non analysés rend difficile l’exploitation de ces données, aussi
bien pour les linguistes non-dialectologues (les membres du projet DÉRom, par exemple) que pour
les spécialistes de la sous-discipline. Cette difficulté d’accès a pour conséquence directe
l’impossibilité de s’en servir pour mettre à jour les ouvrages lexicographiques de synthèse (v.
Buchi/Renders 2013), en particulier le FEW.
       La numérisation de ces atlas constituerait un pas important vers leur meilleure exploitation.
Divers projets atlantographiques exploitent déjà la voie de l’informatisation et de l’exploitation des
ressources informatiques, que ce soit pour acquérir une nouvelle dimension – c’est le cas des atlas
audiovisuels en Suisse (Atlas linguistique audiovisuel du Valais romand) ou en France (Atlas
linguistique multimédia de la région Rhône-Alpes et des régions limitrophes, Thesaurus occitan —
THESOC) – ou pour exploiter d’autres voies théoriques – telles que la dialectométrie formalisée par
Hans Goebl (1982 ou 1987, par exemple). Cet apport du numérique est prometteur, mais encore
timide. Le pas de la rétroconversion en langage XML pour formaliser les liens avec les autres
ressources est une voie qui n’a pas encore été défrichée.
       À la limite entre géolinguistique et lexicographie existe également l’admirable travail effectué
ces dernières années autour du Glossaire des patois de la Suisse romande (GPSR), balisé,
rétroconverti et interrogeable en ligne (à l’adresse http://www.unine.ch/gpsr). Toutefois, si son
contenu présente une dimention diatopique importante, sa structure est de type purement
lexicographique et la rétroconversion s’apparente à celle de dictionnaires tels que le TLF.
       Le projet le plus ancien de numérisation d'atlas galloromans est le THESOC, rassemblant les
données d'atlas avec les ressources de nouvelles enquêtes. La modélisation informatique de ce
dernier projet a fait l'objet de plusieurs révolutions depuis la création du projet en 1992, et l'actuelle
présentation des données (voir Oliviéri / Casagrande / Brun-Trigaud / Georges 2017) ouvre des
perspectives, même si ce projet n'a pas de vocation à devenir un réseau pan-galloroman.
       Enfin, dans le panorama des ressources dialectales, l’ALW, qui propose à la fois des cartes et
des notices, s’avère particulièrement intéressant à cause de son statut mixte atlanto-lexicographique.
Son informatisation a fait l’objet de quelques études préliminaires, accompagnant une première mise
en ligne de notices scannées (cf. http://alw.philo.ulg.ac.be/). Parmi ces études, citons les tentatives de
structuration en langage RDF (Mazziotta 2008 et 2011), sur la base de la modélisation scientifique
proposée par Boutier 2008. Grâce à l’ALW, la réflexion concernant la modélisation informatique des
matériaux dialectaux d’oïl est donc entamée.

      2. Le projet APPI

       C'est à partir du domaine picard qu'est envisagée la réflexion sur la mise en réseau des atlas
linguistiques avec les dictionnaires du domaine galloroman. Ce dialecte est en effet bien documenté,
grâce aux matériaux recueillis dans le cadre de l’Atlas linguistique et ethnographique picard (ALPic).
Les deux volumes publiés en 1989 et en 1997 sous l'égide du CNRS contiennent 660 cartes, éditant
une partie des matériaux des 1150 questions de l’enquête effectuée à partir de 1980 par Fernand

                  Édition numérique — Atlas pan-picard informatisé (APPI)
                     Projet financé par l'Agence nationale de la Recherche
                              Première mise en ligne le 4 avril 2019
                                     https://appi.univ-lille.fr
                                                                                                             3

Carton et Maurice Lebègue, à laquelle il convient d’ajouter les questions des enquêtes antérieures de
Loriot, Dubois et Deparis (1960-1968). Les 660 faits de langue relevés en 127 points d’enquête et
cartographiés ont été considérés par les auteurs de l’ALPic comme les plus représentatifs des
enquêtes, un des critères de sélection étant leur répartition sur l’ensemble du domaine considéré. Le
premier tome (cartes 1 à 317) couvre les notions appartenant au champ sémantique de la vie rurale,
vocabulaire particulièrement menacé de disparition, tandis que le second tome (cartes 318-660)
complète le corpus au niveau ethnographique, lexical, morphologique et phonétique. L’ensemble
peut être considéré comme représentatif du dialecte des cinq départements picards de France que
sont le Nord, le Pas-de-Calais, la Somme, l’Oise et l’Aisne.
       Le domaine picard de Belgique a pour sa part été recueilli lors des enquêtes de Jean Haust
pour l’Atlas linguistique de la Wallonie (ALW), effectuées entre 1924 et 1959 sur l’ensemble du
territoire de la Belgique romane. Les rédacteurs de l’ALW ont actuellement édité la moitié des
matériaux dialectaux recueillis, en 10 volumes sur les 20 prévus. Ces 10 volumes comptabilisent
ensemble quelque 1670 notices et 812 cartes, couvrant une grande variété de champs sémantiques
sur l’ensemble du territoire belge, qui comprend le picard, mais aussi le wallon et le gaumais (v.
http://alw.philo.ulg.ac.be/publications/liste-des-volumes-publies/). La particularité de l’ALW est
qu’il s’agit d’un atlas explicatif, dans lequel les cartes sont subordonnées au texte. Dans chaque
notice, les rédacteurs s’attachent à livrer des matériaux intégrés dans un cadre historique galloroman,
grâce à un dialogue constant avec le FEW et avec d’autres ressources lexicographiques. Les cartes
apparaissent uniquement lorsque la répartition aréologique des matériaux est intéressante.
Contrairement aux pratiques françaises, les cartes deviennent donc une illustration des matériaux et
non plus le coeur de la microstructure, dans une démarche tirant l’atlantographie vers la
lexicographie.
       Le domaine picard a donc pour particularité de se répartir entre la France et la Belgique, qui
l’ont traité très différemment de part et d’autre de la frontière. Il permet dès lors la rencontre entre
deux méthodes différentes, l’une purement atlantographique (du côté français), l’autre intermédiaire
entre diatopie synchronique et lexicographie historique (du côté belge). Outre les prémisses de
l’informatisation de l’ALW, qui constitue un pont possible entre les données atlantographiques et les
ressources lexicographiques, le projet s’appuie sur deux autres résultats préliminaires : tout d’abord
l’informatisation en cours du FEW, dont l’étude préalable constitue un « intérêt paradigmatique pour
d’autres projets et réalisations de numérisation en philologie » (M.-D. Gleβgen, en présentation de
Renders 2015, quatrième de couverture) ; ensuite l’examen des possibilités techniques de la réunion
des matériaux de l’ALPic et de l’ALW ainsi que des verrous d’une telle entreprise (Baiwir 2016).
       Le projet se décompose en trois étapes. La première consiste à rassembler les données des
deux atlas en un corpus homogène pan-picard. Une modélisation informatique adéquate permettra
ensuite la création proprement dite de la ressource APPI, qui sera mise à la disposition de la
communauté scientifique. Enfin, la dernière étape étudie la mise en relation de cette nouvelle
ressource numérique avec le FEW et envisage l’extension du modèle à d’autres domaines
linguistiques.

      2.1 Constitution d’un corpus atlantographique pan-picard

      L’objectif de la première étape est de permettre, par la réunion de matériaux éparpillés, une
appréhension globale du fait picard qui ne soit plus cloisonnée par les frontières administrative et
méthodologique entre la France et la Belgique.
      La constitution du corpus se donne comme base de travail les 660 faits de langue répertoriés
dans les volumes 1 et 2 de l’ALPic, considérés comme représentatifs de la langue dans tous ses
aspects (phonétique/phonologique, morpho-syntaxique et lexical). Cette édition est a priori fiable ;
néanmoins, des questions de découpage syntaxique ou de lemmatisation pourront apparaître. Les

                  Édition numérique — Atlas pan-picard informatisé (APPI)
                     Projet financé par l'Agence nationale de la Recherche
                              Première mise en ligne le 4 avril 2019
                                     https://appi.univ-lille.fr
                                                                                                           4

archives de la Somme permettront de compléter, vérifier ou documenter les données rassemblées
pour l’APPI par la consultation des cahiers d’enquêtes d’origine de l’ALPic. Y sont adjoints les
matériaux picards de l’ALW présentant les mêmes faits de langue.
       La réunion des matériaux de l’ALPic et de l’ALW en un corpus atlantographique homogène,
interrogeable comme un tout, nécessite de résoudre un grand nombre d’obstacles liés à
l’hétérogénéité des données atlantographiques elles-mêmes. Chaque atlas possède en effet ses
méthodes et ses défauts propres : c’est vrai dans le nord de la France comme partout ailleurs (Pop
1950, Baiwir 2017). Dans le cas picard, les données divergent toutefois particulièrement selon
qu’elles proviennent de France ou de Belgique. Les différences entre les deux ressources sont
nombreuses, qu’elles concernent la chronologie des enquêtes, la densité du réseau des points
d’enquête et le système de référencement de ceux-ci, le système de transcription phonétique ou la
présentation des matériaux. Baiwir (2016) envisage les difficultés liées à l’homogénéisation d’un
corpus constitué de ces deux ressources atlantographiques aux structures si différentes.
       Les divergences de transcription phonétique seront par exemple résolues par une normalisation
en alphabet phonétique international (API). L’homogénéisation des points d’enquête sera effectuée
en ajoutant à la numérotation de l’ALPic des sigles renvoyant aux différents départements, de façon
à assurer une numérotation cohérente des points d’enquête. Enfin, un géoréférencement de tous ces
points d’enquête permettra au corpus d’être interrogé sous sa forme atlantographique, via des cartes
en ligne englobant l’ensemble du domaine picard.

      2.2 Transfert vers une ressource numérique atlanto-lexicographique

        A partir de la collection atlantographique classique de matériaux bruts résultant de l’étape
précédente, il s’agit ensuite de créer une ressource numérique qui puisse être intégrée dans un réseau
d’ordre lexicographique. La méthodologie proposée accorde un rôle important au modèle de
description dialectale offert par l’ALW, qui situe chaque fait de langue dans l’histoire de sa famille
lexicale. Cette pratique de l’« étymologie-histoire du mot » permet d’inscrire pleinement les
matériaux dialectaux dans la discipline de la lexicographie historique, en leur apportant une
dimension diachronique dont ils sont dépourvus dans leur forme atlantographique. Le projet APPI
fait l’hypothèse que l’ajout aux données atlantographiques de cette épaisseur historique est, dans le
domaine galloroman, la solution la plus efficace et la plus pertinente pour intégrer les atlas dans un
réseau de ressources lexicographiques numérisées autour du FEW.
        Concrètement, cette épaisseur historique est apportée par l’étymologisation des données et leur
intégration dans l'une des familles lexicales décrites dans le FEW. Situer les matériaux dans un
article du FEW peut dès lors suffire à assurer cette inscription historique de façon minimale : il s’agit
d’ajouter aux données dialectales une « référence FEW », dans les meilleures pratiques de la
lexicographie historique romane. Cette référence est présente dans les notices de l’ALW ; en
revanche, elle est absente de l’ALPic. La réunion des matériaux de l’ALPic et de l’ALW doit
permettre une étymologisation rapide d’une partie du corpus, élevant en quelque sorte l’ALPic au
niveau de l’analyse lexicographique de l’ALW. Environ 80% des matériaux devraient pouvoir être
étymologisés de la sorte. Les données restantes seront traitées au moyen du classement
onomasiologique que le FEW propose pour les matériaux d’origine inconnue. De nouveaux étymons
pourront également être ajoutés à la nomenclature du FEW. Le projet APPI nourrira ainsi la
réflexion en cours sur la façon dont le FEW numérique peut intégrer les mises à jour apportées par
les ressources lexicales galloromanes qui le corrigent et le complètent.
        D’un point de vue technique, la structuration informatique des données se fera durant cette
étape au moyen du langage XML, particulièrement adapté à la formalisation de données textuelles.
Le format TEI sera privilégié autant que possible. L’encodage des caractères phonétiques particuliers

                  Édition numérique — Atlas pan-picard informatisé (APPI)
                     Projet financé par l'Agence nationale de la Recherche
                              Première mise en ligne le 4 avril 2019
                                     https://appi.univ-lille.fr
                                                                                                            5

aux différentes ressources suivra le standard Unicode ; en cas d’utilisation des zones privées, le
codage défini pour la fonte du FEW (Renders 2015) servira de guide.
       Dès cette deuxième étape du projet, cette nouvelle ressource numérique sera mise à la
disposition de tous, chercheurs, étudiants et grand public. Sa diffusion sera effectuée en open access,
via une interface d’interrogation en ligne qui contiendra également la bibliographie du projet et une
documentation sur les nouvelles possibilités d’exploitation des données mises à la disposition de la
communauté scientifique. Cette mise en ligne assurera en même temps la sauvegarde et la
valorisation du patrimoine dialectal picard.

      2.3 Mise en réseau grâce au FEW et étude d’extension du modèle

       La numérisation du corpus et l’étymologisation des matériaux ne suffisent pas pour mettre les
données picardes en réseau avec le FEW et les autres ressources linguistiques du domaine. Connecter
l’APPI au FEW nécessite de définir concrètement les modalités d’implémentation des liens. Une
première question concerne les unités à mettre en relation dans chacune des ressources : s’agit-il du
lexème, de l’article, de la notice, de la carte ? En fonction de la granularité des unités ainsi identifiées,
diverses modélisations informatiques sont possibles. Le FEW propose par exemple deux niveaux de
description lexicographique : chacun de ses articles décrit une famille lexicale dans sa globalité,
tandis qu’au sein de chaque famille, chaque unité lexicale est définie avec ses caractéristiques
propres. La modélisation XML du FEW (Renders 2015) permet d'envisager des liens vers chacun de
ces deux niveaux. En pratique, l’implémentation d’une relation vers un article du FEW pourra se
contenter d’une URI identifiant cet article, tandis qu’un lien de lexème à lexème nécessitera peut-être
la création d’un réseau lexical plus précis, qui se formalisera plus facilement sous la forme de triplets
RDF, comme cela a été proposé pour l’ALW suivant les pratiques de l’Ontology Web Language
(Mazziotta 2008).
       Par ailleurs, l’étude envisagera divers cas de figure selon que les données auront pu, ou non,
être étymologisées dans le module précédent. L’informatisation du FEW n’étant pas encore achevée,
seules les données de l’APPI qui sont en relation avec les articles du FEW en ligne (actuellement les
articles des volumes 16, 17 et 19) seront effectivement mises en réseau d’un point de vue technique.
Les autres données du corpus seront pourvues d’une implémentation qui permettra leur mise en
réseau dès que les volumes correspondants du FEW seront numérisés.
       Au terme de cette troisième étape, le projet APPI constituera ni plus ni moins que la première
tentative de mise en réseau entre un atlas et le FEW numérisé. Si cette expérience s’avère concluante,
le modèle sera proposé pour les atlas des autres domaines linguistiques de France. Le second objectif
de cette phase est en effet l’examen de la faisabilité d’une extension du modèle aux domaines
linguistiques connexes (normand, wallon, parlers de l’Ile-de-France et orléanais), de façon à
documenter la question des limites entre domaines atlantographiques. Cette question des marges
constituera un premier pas vers une extension du modèle APPI à d’autres aires dialectales jusqu'à,
peut-être, recouvrir l'ensemble du domaine d'oïl.

      3. Conclusion

       La transformation d’une ressource papier en une ressource numérique est toujours synonyme
d’une meilleure accessibilité de son contenu. Les choix effectués dans la modélisation informatique
jouent toutefois un rôle majeur dans les modalités des exploitations rendues ainsi possibles. Dans le
cadre du projet APPI, l’accès aux matériaux dialectaux doit être amélioré non seulement par la mise
en ligne de ces derniers, mais surtout par l’ajout de métadonnées qui viennent jeter un pont entre les

                   Édition numérique — Atlas pan-picard informatisé (APPI)
                      Projet financé par l'Agence nationale de la Recherche
                               Première mise en ligne le 4 avril 2019
                                      https://appi.univ-lille.fr
                                                                                                            6

matériaux de départ et les données d’autres ressources linguistiques. L’homogénéisation des
transcriptions phonétiques et des références géographiques, l’analyse historique des données
lexicales et l’ajout de références au FEW permettront aux données dialectales picardes d’intégrer
pleinement un réseau lexicographique en construction. Grâce au pivot que constitue le FEW, des
liens hypertextes seront envisageables avec d’autres ressources, telles que le TLFi ou le DMF, qui
intègre de multiples diatopismes ; grâce à ce dernier, on pourra situer l’histoire lexicale du picard
moderne dans la diachronie. Les corrections et compléments que fournissent les données dialectales
pourront, dans un mouvement dialectique, être intégrés dans les projets partenaires. La linguistique
française et romane en retirera des matériaux traités, analysés et exploitables pour documenter les
questions de linguistique historique du monde roman. En particulier, des projets pan-romans tels que
le DÉRom bénéficieront grandement de l’accès à ces données dialectales.
        En dialectologie, la réunion des deux domaines picards au-delà de la frontière franco-belge en
un corpus homogénéisé ouvre la voie à des études qui permettront une vision globale de ce dialecte,
difficile jusqu’à présent. La transcription en alphabet phonétique international lèvera en outre les
difficultés de compréhension de ces matériaux phonétiques (actuellement retranscrits selon des
standards différents) et les rendra accessibles à tous au-delà même du monde galloroman. Leur
intégration dans des projets atlantographiques pan-romans tels que l’ALiR en sera grandement
facilitée. Cette vision globale profitera aussi aux étudiants, aux amateurs et au grand public, qui
seront plus à même de découvrir et de comprendre les faits linguistiques qu’ils rencontrent.
        En ce qui concerne le grand public, il sera par ailleurs intéressant de voir en quoi l’offre d’une
ressource numérique dialectale est susceptible de modifier la perception linguistique de ce dialecte,
auquel les locuteurs du nord du domaine n’identifient par toujours leur parler (qu'ils appellent ch’ti
ou patois). Cette absence de conscience picarde a été à plusieurs reprises signalée par Jean-Michel
Eloy, qui insiste sur le fait que cette région « ignor[e] même que son parler [est] picard » (Eloy 1997,
80).
        De façon plus large, le projet APPI permettra d’étudier en quoi les nouvelles approches
permises par le format numérique peuvent conduire la discipline française de la dialectologie à
renouveler ses concepts et ses méthodes. L’intégration de l’écrit et de l’oral, par exemple, impossible
dans la version imprimée des atlas de France, ouvre la voie à de nouvelles exploitations et à de
nouvelles possibilités d’étude du fait dialectal, dorénavant inscrit dans un univers multimedia et non
plus cantonné à des fiches manuscrites perdues au fond d’un tiroir d’archive. L’inscription
numérique des matériaux dialectaux les rendra par ailleurs accessibles pour de nouvelles études qui
pourraient dépasser le cadre linguistique pour contribuer à des recherches pluridisciplinaires en
ethnographie, en histoire sociale, en littérature.
        En jetant des ponts par-delà deux types de frontières (d’une part la frontière entre des
domaines géographiques contigus, mais traités séparément et différemment dans chaque atlas ;
d’autre part la frontière entre un traitement atlantographique et un traitement lexicographique des
matériaux linguistiques), nous espérons que le projet APPI permettra aux données dialectales
picardes de s’inscrire durablement dans le champ des humanités numériques.

                  Édition numérique — Atlas pan-picard informatisé (APPI)
                     Projet financé par l'Agence nationale de la Recherche
                              Première mise en ligne le 4 avril 2019
                                     https://appi.univ-lille.fr
                                                                                                             7

Bibliographie

ALAVAL = Atlas linguistique audiovisuel du Valais romand, http://www5.unine.ch/dialectologie/Atlas
    Present.html
ALF = Gilliéron, Jules & Edmond Edmont (1902-1910). Atlas linguistique de la France, 1920 cartes, Paris,
    Champion.
ALiR = Contini Michel (dir.), Atlas Linguistique Roman (1996), Vol. I, Tome 1 (Présentation), 232 pages;
    Tome 2 (Commentaires), 151 pages; Tome 3 (Atlas), 14 cartes, Rome, Istituto Poligrafico e Zecca dello
    Stato.
ALMURA = Atlas linguistique multimédia de la région Rhône-Alpes et des régions limitrophes,
     http://www.atlas-almura.net
ALPic = Carton, Fernand & Maurice Lebègue (1989-1998). Atlas linguistique et ethnographique picard, 2 vol.
     Editions du CNRS.
ALW = Remacle, Louis, Legros, Élisée, Lechanteur, Jean, Counet, Marie-Thérèse, Boutier, Marie-Guy, Baiwir,
     Esther (1953-). Atlas linguistique de la Wallonie, Liège, Université de Liège (10 vol.).
Avanzi, Mathieu (2017). « Le français régional à substrat picard : étude de géographie linguistique », in Bien
     Dire et Bien Aprandre, 32, numéro thématique intitulé Le picard moderne : un état de la recherche,
     Université de Lille 3, 133-158.
Baiwir, Esther, Renders, Pascale (2013). « Vingt minutes en Utopie : l'ALWi », in Baiwir, Esther & Renders,
     Pascale (éds), Actes de la 5e Journée liégeoise de Traitement des Sources Galloromanes (Liège, 16 mai
     2013), Liège, Université de Liège, publication électronique
     (http://lingwa.philo.ulg.ac.be/trasogal/baiwir_renders_2013.pdf), 9 p.
Baiwir, Esther (2016). « Un type picard par-delà les frontières : le  », Les dialectes de Wallonie, t.
     36, 5-24.
Baiwir, Esther (2017). « La géographie linguistique au nord du domaine d'oïl », Bien dire et bien aprandre 32,
     Le picard moderne : un état de la recherche, 73-100.
Boutier, Marie-Guy (2008). « Cinq relations de base pour traiter la matière géolinguistique: Réflexions à partir
     de l'expérience de l'Atlas linguistique de la Wallonie », Estudis Romànics 30, 301-310.
Brun-Trigaud, Guylaine, Yves Le Berre et Jean Le Dû (2005). Lectures de l'Atlas linguistique de la France de
     Gilliéron et Edmont. Du temps dans l'espace, Paris, CTHS.
Buchi, Éva et Renders, Pascale (2013). « 46. Gallo-romance I : Historical and etymological lexicography », in
     Dictionaries. An International Encyclopedia of Lexicography. Supplementary volume : Recent
     developments with special focus on computational lexicography, Gouws Rufus H et al. (éd.), De Gruyter,
     Berlin/New York (Handbooks of Linguistics and Communication Science (HSK) 5/4), 653-662.
DEAF, DEAFplus = K. Baldinger et al. (1974–), Dictionnaire Étymologique de l'Ancien Français, version
     informatisée : http://deaf-server.adw.uni-heidelberg.de
Deparis, Claude (1973). « Du picard au wallon: observations sur les parlers modernes de la Wallonie
     occidentale et du Hainaut français », in Straka, G. & Gardette, P. (éds). Les dialectes romans de France.
     Paris : Editions du CNRS, 462-472.
DÉRom = Dictionnaire étymologique roman, http://www.atilf.fr/DERom
DHFQ = Poirier, Claude (1998). Dictionnaire historique du français québecois. Monographie lexicographique
     des québécismes, Québec, Presses de l'Université Laval.
DMF = Martin, Robert et Bazin, Sylvie (dir.) (2015), Dictionnaire du Moyen Français, Nancy, ATILF/CNRS
     & Université de Lorraine, http://www.atilf.fr/dmf.
DSR = Thibault, André (1997/2004²). Dictionnaire suisse romand. Particularités du français contemporain,
     Éditions Zoé, Genève.

                   Édition numérique — Atlas pan-picard informatisé (APPI)
                      Projet financé par l'Agence nationale de la Recherche
                               Première mise en ligne le 4 avril 2019
                                      https://appi.univ-lille.fr
                                                                                                                   8

Eloy, Jean-Michel (1997). La constitution du picard : une approche de la notion de langue, Louvain-la-Neuve
     - Amiens, Bibliothèque des Cahiers de l'Institut de Linguistique de Louvain - Centre d’Etudes Picardes,
     262 p.
FEW = Wartburg, Walther von et al. (1922–2002). Französisches Etymologisches Wörterbuch. Eine
     darstellung des galloromanischen sprachschatzes, 25 vol., Bonn/Heidelberg/Leipzig-Berlin/Bâle,
     Klopp/Winter/Teubner/Zbinden.
GPSR = Gauchat, Louis/Jeanjaquet, Jules/Tappolet, Ernest et al. (1924–). Glossaire des patois de la Suisse
     romande, Neuchâtel/Paris, Attinger. Glossaire en ligne : http://www.unine.ch/gpsr
Goebl, Hans (1982). Dialektometrie : prinzipien und methoden des einsatzes der numerischen taxonomie im
     bereich der dialektgeographie, Wien, Österreichischen Akademie der Wissenschaften.
— (1987). « Points chauds de l’analyse dialectométrique : pondération et visualisation », Revue de linguistique
     romane 51, 63-118.
Mazziotta, Nicolas (2008). « Exploitation de l’Ontology Web Language pour la rédaction des notices de l’Atlas
     Linguistique de la Wallonie », in Heiden, S. et Pincemin, B. 2008. 9es journées internationales d’analyses
     stratistiques des données textuelles. Lyon,12-14 mars 2008, Lyon, Presses universitaires de Lyon, 823-
     835.
— (2011). « L’informatisation du Französisches Etymologisches Wörterbuch. Concepts pour une approche
     modélisée commune à l’Atlas Linguistique de la Wallonie », ZRP 127, 36-62.
Oliviéri, Michèle, Casagrande, Sylvain, Brun-Trigaud, Guylaine & Georges, Pierre-Aurélien (2017). « Le
     Thesaurus Occitan dans tous ses états », Revue française de linguistique appliquée, XXII-1, 89-102.
Pop, Sever (1950). La dialectologie. Aperçu historique et méthodes d'enquêtes linguistiques, Louvain, chez
     l'auteur, deux tomes.
Renders, Pascale (2015). L'informatisation du Französisches Etymologisches Wörterbuch. Modélisation d'un
     discours étymologique, Strasbourg, ELiPhi-Editions de linguistique et de philologie.
Renders, Pascale, Baiwir, Esther et Dethier, Gérard (2015). « Automatically Linking Dictionaries of Gallo-
     Romance Languages Using Etymological Information », in Kosem, I., Jakubiček, M., Kallas, J. (Eds.) et
     al., Electronic0020lexicography in the 21st century: linking lexical data in the digital age. Proceedings of
     the eLex 2015 conference, 11-13 August 2015, Herstmonceux Castle, United Kingdom, 452-460.
Séguy, Jean (1973). « Les Atlas linguistiques de la France par régions », Langue française 18 (Les parlers
     régionaux), 65-90.
Straka, G. et Gardette, P. (1973). Les dialectes romans de France à la lumière des atlas régionaux. Actes du
     Colloque National de Strasbourg, 24-28 mai 1971, Paris, CNRS.
TLF, TLFi = P. Imbs, B. Quemada (dir.) (1971–1994), Trésor de la langue française. Dictionnaire de la langue
     du XIXe et du XXe siècle (1789–1960), version informatisée : http://atilf.atilf.fr/tlf.htm
Tuaillon, Gaston (1976). Comportements de recherche en dialectologie française, Paris, CNRS.

          Pour citer cet article : Baiwir Esther & Renders Pascale, « Numérisation des données
          dialectales d'oïl : le projet APPI comme laboratoire », publication en ligne dans le cadre
          du projet APPI (Atlas pan-picard informatisé, sous la direction d'Esther Baiwir), avril
          2019, 9 p. (https://appi.univ-lille.fr/data/medias/baiwirrenders2019).

                    Édition numérique — Atlas pan-picard informatisé (APPI)
                       Projet financé par l'Agence nationale de la Recherche
                                Première mise en ligne le 4 avril 2019
                                       https://appi.univ-lille.fr
                                                                                                                    9

Vous pouvez aussi lire