Prise en main de l'outil d'annotation - Programme IA & droit - données d'apprentissage - Open Law
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
Prise en main de l’outil d’annotation Programme IA & droit - données d’apprentissage Ce document a pour vocation de guider l’utilisateur pas à pas lors de sa première annotation. NB : mise à jour juillet 2017 - suppression des catégorie Entête, Qualification de la décision et Dates de l’audience. Connexion et accès aux documents à annoter 3 1/ Choisir un login/password 3 2/ Connexion 3 3/ Accès aux documents 4 4/ Refresh et sauvegarde 5 Tout disparaît / se fige, que faire ? 5 Comment sauvegarder mes données ? 5 J’ai été déconnecté automatiquement. 6 Annotation du document - les principes 7 1/ Annoter des documents entiers 7 2/ Annoter au paragraphe et non au mot 7 3/ Annoter deux fois un même paragraphe 8 4/ Temps moyen d’annotation 9 Annotation du document - les fonctionnalités 10 1/ Ajouter une annotation 10 Sélection de la zone à annoter 10 Choix de la catégorie 11 2/ Retirer ou corriger une annotation 14 Retirer une annotation 14 Modifier une annotation 14 Annotation du document - le plan d’annotation 15 1/ Vue générale du plan d’annotation 15 2/ Les grandes zones de la décision 16 Zone Exposé du litige 16 1
Zone Motifs 18 Zone Dispositif 18 3/ Les sous-parties 19 4/ Entête de la décision 21 Références des décisions précédentes 21 Appelant/demandeur et intimé/défendeur 22 Avocats 23 Composition de la Cour 23 5/ Zone Exposé du litige 24 Faits et procédure 24 Moyens et prétentions des parties 25 6/ Zone Motifs 26 7/ Zone Dispositif 29 8/ Notation de l’annotation 30 2
Connexion et accès aux documents à annoter 1/ Choisir un login/password Choisir le login.password sur le fichier drive disponible ici : https://docs.google.com/spreadsheets/d/1Nv6VwFkSHv9cE- H9_fO6OZYaZBvWbpM45GrW0cp9pcA/edit?usp=sharing Inscrire son nom dans la colonne nom en face du premier login disponible. Remarque : pour des raisons d’évaluation des annotations, si vous avez fini un lot et souhaitez en commencer un nouveau, ne jamais prendre un lot qui suit ou précède immédiatement un lot déjà annoté par vous. Dans ce cas, sauter un lot. 2/ Connexion Entrer l’adresse suivante dans le navigateur : 52.208.15.169:8001 Survoler le logo Brat en haut à droite de l’écran pour afficher le bouton de login 3
Saisir vos login/password 3/ Accès aux documents Choisir un sous-dossier dans le dossier OpenLaw en fonction du login choisi (selon indication dans le fichier drive) Sélectionner le premier document de la liste. 4
Pour passer d’un document au suivant, cliquer sur les flèches en haut à gauche de l’écran 4/ Refresh et sauvegarde Tout disparaît / se fige, que faire ? Lorsque Brat « plante », rafraîchir la page (F5 ou relancer dans le navigateur) Comment sauvegarder mes données ? La sauvegarde est automatique et instantanée, il n’y a rien à faire. 5
J’ai été déconnecté automatiquement. Au bout d’un temps d’inactivité, vous serez déconnectés. Comme la sauvegarde est automatique, il vous suffit de vous reconnecter pour récupérer le travail effectué. 6
Annotation du document - les principes 1/ Annoter des documents entiers Principe : il faut être exhaustif au sein d’un document : tous les paragraphes qui peuvent être annotées dans un même document doivent être identifiés, sans exception. Pourquoi ? L’annotation sert à apprendre à l’algorithme ce qui doit être pris en compte pour une catégorie donnée et ce qui ne doit pas l’être. Si on omet des parties qui devraient être annotées, on enseigne à l’algorithme, à tort, que ces parties n’appartiennent à aucune catégorie. Remarque : si l’on se rend compte en cours d’annotation que le document est trop compliqué à annoter, il est possible de l’abandonner. Dans ce cas, il faut l’indiquer pour que l’arrêt ne soit pas pris en compte dans l’apprentissage en ajoutant la note « Impossible » en fin de document (voir explication ci-après). 2/ Annoter au paragraphe et non au mot Principe : il faut annoter des paragraphes entiers et non des mots, des phrases ou des bouts de phrase. En effet, l’objectif de l’annotation pour ce cas d’usage est d’identifier les différentes parties de la décision, pas des éléments précis. Pourquoi ? Le cas d’usage choisi (zonage des décisions) a vocation à permettre des applications 7
comme l’affichage du plan des décisions, ce qui nécessite, par exemple, d’identifier l’ensemble de la zone consacrée aux parties et non seulement le nom de chaque partie. L’outil Brat est conçu pour annoter au mot, ce qui rend assez difficile l’annotation au paragraphe (problèmes d’affichage divers). Nous avons donc choisi de découper artificiellement les paragraphes en ajoutant des retours à la ligne, ce qui réduit le nombre de bugs. Attention à donc bien sélectionner l’ensemble des lignes (= tout le paragraphe) concernant une catégorie donnée. 3/ Annoter deux fois un même paragraphe Il est possible qu’un même paragraphe corresponde à plusieurs catégories du plan de classement. Dans ce cas, une double annotation est possible. 8
Remarque 1 : pour la partie Motifs, il ne faut pas multi-annoter : si tous les éléments (faits, règle de droit, solution) sont mélangés, alors il convient d’utiliser la catégorie motif-n juge. Remarque 2 : lorsque le plan d’annotation prévoit un catégorie “chapô” et des sous- catégories (exemple “Faits et procédure”, “Faits”, “Procédure”), alors il ne faut pas multi- annoter. Dans ce cas, il convient d’utiliser soit la catégorie la plus fine si les éléments sont dissociables (dans des paragraphes distincts), soit la catégorie chapô si les éléments ne sont pas dissociables. 4/ Temps moyen d’annotation Nous estimons le temps moyen de prise en main de l’outil et du plan d’annotation à 1h. Par la suite, l’annotation doit être assez rapide : environ 5 minutes par décision. Il ne faut pas en principe avoir besoin de lire réellement la décision pour l’annoter. 9
Annotation du document - les fonctionnalités 1/ Ajouter une annotation Sélection de la zone à annoter Pour ajouter une annotation, il faut surligner le ou les paragraphe(s) concerné(s). Remarque : la sélection de l’ensemble du paragraphe est souvent difficile à faire (sélection qui se fait mal, ou alors se fait sur l’ensemble du document). Ne pas essayer de sélectionner toute la ligne : l’annotation du paragraphe est correcte même si le surlignage ne porte que sur une partie du ou des paragraphes. 10
Une règle permettant d’appliquer à l’ensemble du paragraphe l’annotation placée une partie du paragraphe sera appliquée en post-traitement. Il est également possible de double-cliquer sur un mot (seule la ligne contenant ce mot sera annotée). Remarque : il est indifférent d’annoter une zone en une seule ou en plusieurs fois. Choix de la catégorie Dès qu’un paragraphe a été sélectionné, une fenêtre s’affiche avec le plan d’annotation. 11
Sélectionner le bon item de la liste et appuyer sur OK. 12
L’annotation s’applique immédiatement sur la partie concernée. 13
2/ Retirer ou corriger une annotation Retirer une annotation Double cliquer sur le libellé, la fenêtre s’affiche à nouveau. Cliquer sur Delete. Modifier une annotation Double cliquer sur le libellé, la fenêtre s’affiche à nouveau. Changer la catégorie, cliquer sur OK. 14
Annotation du document - le plan d’annotation 1/ Vue générale du plan d’annotation Exposé du litige Motifs de la décision Dispositif Références décision attaquée Appelant-demandeur Intimé-défendeur Avocat Composition de la Cour Faits et procédure Faits Procédure Moyens et prétentions des parties Moyens et prétentions appelant Moyens et prétentions intimé Motif-1 juge Motif-1 règle de droit Motif-1 faits Motif-1 prétentions appelant Motif-1 prétentions intimé Motif-2 juge Motif-2 règle de droit Motif-2 faits Motif-2 prétentions appelant Motif-2 prétentions intimé 15
Motif-3 juge Motif-3 règle de droit Motif-3 faits Motif-3 prétentions appelant Motif-3 prétentions intimé Motif-demandes accessoires Dispositif-1 Dispositif-2 Dispositif-3 Dispositif-demandes accessoires Difficulté d'annotation_Facile Difficulté d'annotation_Moyen Difficulté d'annotation_Difficile Difficulté d'annotation_Impossible 2/ Les grandes zones de la décision Annoter d’abord la première ligne de chaque grande zone. Pourquoi ? Pour procéder au zonage de façon optimale, il est important d’identifier les grandes zones de la décision (Exposé du litige, Motifs et Dispositif). Mais pour ne pas surcharger l’annotation et permettre également une annotation plus fine (voir Sous-parties), il a été décidé d’identifier systématiquement chacune de ces grandes zones en annotant uniquement le premier mot de ladite zone. Zone Exposé du litige La zone Exposé du litige commence en général par les termes : - Exposé du litige - Faits et procédure... Cette zone contient l’ensemble des faits de l’espèce, la procédure en première instance, les prétentions (demandes chiffrées notamment) et moyens (argumentation) des parties. 16
Remarque : la zone Exposé du litige n’est pas forcément introduite par un titre. Dans ce cas, il convient d’annoter la première ligne des faits ou de la procédure. Zone Motifs La zone Motifs commence en général par les termes : - Motifs - Motifs de la décision 17
- Discussion - Sur ce…. Cette zone contient l’ensemble du raisonnement ayant amené le juge à sa décision (sa motivation). Zone Dispositif La zone Dispositif commence en général par les termes : - Par ces motifs - La Cour... Cette zone est la dernière zone de la décision, dans laquelle le juge énonce l’ensemble des solutions aux questions qui lui ont été soumises. 18
3/ Les sous-parties Au sein de chaque partie, un certain nombre de zones doivent être identifiées (parties, faits, procédure, prétentions des parties, motifs du juge, distinction des dispositifs…). Certaines de ces sous-parties ont été omises du plan d’annotation car elles étaient faciles à extraire par des systèmes de règles, comme par exemple les références de l’arrêt ou sa date. Pour effectuer le meilleur zonage, il est souhaitable d’identifier les zones le plus précisément possible. Néanmoins, ce n’est parfois pas possible. C’est pourquoi le plan d’annotation contient des catégories de niveaux différents. Ces catégories doivent être utilisées de façon alternatives et non cumulatives. Par exemple, au sein de la zone Exposé du litige, le plan d’annotation contient les catégories : - Faits et procédure - Faits - Procédure Si dans le document, il est possible de distinguer les faits et la procédure, on utilisera ces deux catégories et on ignorera la catégorie « Faits et procédure ». 19
En revanche, si les faits et la procédure sont mélangés, par exemple, parce qu’ils sont mentionnés dans le même paragraphe, on utilisera la catégorie « Faits et procédure » et on ignorera les catégories « Faits » et « Procédure ». 20
4/ Entête de la décision Les sous-parties à annoter concernant les différentes personnes intervenues dans l’affaire : - Appelant - Intimé - Avocats - Composition de la Cour Références des décisions précédentes Il a été choisi d’annoter systématiquement le paragraphe où est indiqué les références d’autres décisions de la même affaire, afin de permettre un chaînage des décisions. Cette information n’est pas toujours présente et est en général présente dans l’entête de la décision, mais peut exceptionnellement figurer ailleurs, en fin de décision par exemple. Remarque : il s’agit ici d’identifier, si elle existe, la zone qui présente les références de la décision précédente, et non toutes les mentions des décisions précédentes qui pourraient figurer, par exemple, dans la partie procédure. 21
Appelant/demandeur et intimé/défendeur Le ou les appelant et le ou les intimés sont toujours cités en début de décision. Avocats La catégorie avocat ne distingue pas entre avocat de l’appelant et avocat de l’intimé (un avocat suit toujours le nom de la partie qu’il représente). 22
Composition de la Cour La catégorie Composition de la Cour regroupe l’ensemble des paragraphes contenant l’indication du nom du président, assesseurs, greffe, etc. 23
5/ Zone Exposé du litige Faits et procédure La zone faits et procédure contient l’ensemble des faits et de la procédure ayant mené à la décision présente et qui ne sont contestés par aucune des parties. Ils sont parfois clairement distincts, parfois difficiles à dissocier (par exemple, dans toutes les ordonnances, arrêts de procédure, etc, les faits sont de la procédure). 24
Moyens et prétentions des parties Il s’agit du rappel des demandes des parties. On ne distinguera pas ici entre les prétentions (montant demandé) et les moyens (argumentation). Souvent, d’ailleurs, la Cour se contente de rappeler les prétentions et renvoie aux conclusions pour les moyens. On distingue deux catégories : moyens de l’appelant et moyens de l’intimé. 25
6/ Zone Motifs L’objectif de l’annotation est d’identifier au maximum les différentes étapes de l’analyse. On distingue, d’une part, entre les différentes questions abordées (motif 1, motif 2, motif demandes accessoires). 26
Au sein de chaque question, on distingue entre les zones suivantes : - la règle de droit : article de code ou de loi, décision de jurisprudence... - les éléments non contestés du litige applicables : faits, expertises… - les moyens de l’appelant et de l’intimé - la solution du juge 27
La règle à conserver en tête pour identifier les différentes zones au sein d’une question est la suivante : qui parle ? Remarque : lorsque les motifs sont divisés en plusieurs parties (ex, “Sur le fond”, “Sur la demande en nullité”, etc), il convient d’annoter chaque “titre” de partie avec la catégorie Motif- n juge. 28
7/ Zone Dispositif Là encore, on tentera lorsque c’est possible d’identifier les différentes questions en jeu, en attribuant les mêmes numéros que dans la zone Motifs. On distinguera les demandes accessoires à part. 29
8/ Notation de l’annotation Enfin, pour pouvoir faire des analyses sur les types de rédaction et pour améliorer l’évaluation du dataset, il est demandé aux annotateurs d’indiquer en fin de document si l’annotation leur a semblé facile, moyennement facile, difficile ou impossible. Si la catégorie Impossible a été choisie, la décision ne sera pas utilisée pour constituer le jeu de données d’apprentissage. 30
31
Vous pouvez aussi lire