La mécanique de Projet Quorum - Méthodologie de l' 'application du suivi de l'humeur en contexte de la COVID-19 - CLESSN

La page est créée Jean-Luc Masse
 
CONTINUER À LIRE
La mécanique de Projet Quorum - Méthodologie de l' 'application du suivi de l'humeur en contexte de la COVID-19 - CLESSN
La mécanique de Projet Quorum
Méthodologie de l’ ’application du suivi de l’humeur en contexte de la COVID-19

                    Date de la dernière mise à jour: 16/04/2021
Projet Quorum : description

Projet Quorum est une application Web développée à l’Université Laval qui permet aux citoyens1 , aux

chercheurs, aux journalistes et aux décideurs de prendre, au quotidien, le pouls de la société québécoise.

Résultante d’un partenariat entre plusieurs groupes de recherche, l’application synthétise l’actualité du moment

de manière neutre, transparente et scientifique. Ainsi, l’utilisateur peut obtenir un suivi quotidien du ton et du

contenu des discours des décideurs publics, consulter une synthèse de la couverture médiatique et observer

les tendances de l’opinion publique. À l’aide d’un panel de répondants qui lui est propre, Projet Quorum

questionne la population en continu et positionne l’humeur des utilisateurs sur la dimension de l’optimisme par

rapport à l’ensemble de la société québécoise, et cela sur le dossier de la gestion de la crise de la COVID-19.

Grâce à ces trois piliers de la démocratie que sont l’opinion publique, les décideurs publics et les médias,

Projet Quorum offre un espace d’échange et de transfert de connaissances entre les citoyens et les institutions

politiques québécoises dans l’objectif de faciliter la compréhension de l’autre et la discussion éclairée. Le dossier

actuellement couvert par Projet Quorum est la crise de la COVID-19.

Médias et décideurs publics

Extraction de données automatisée

Projet Quorum repose en partie sur l’extraction et l’analyse automatisée de données, permettant de suivre

quotidiennement l’évolution de ses trois volets d’analyse : les médias, les décideurs publics et l’opinion publique.

Pour collecter automatiquement le contenu en ligne des médias d’information et des discours des décideurs

publics, un constituant essentiel de Projet Quorum est un extracteur de données (Web scraper). La méthode

utilisée nécessite de repérer le contenu à extraire, puis d’organiser ces informations dans une base de données

structurée de manière à être facilement utilisable pour les analyses subséquentes. Cette section décrit en détail

ces diverses étapes.

Qu’est-ce qu’un extracteur de données?

Les informations composant les divers sites Web sont majoritairement présentées sous la forme de textes non

structurés (Munzert et al. 2014). Le rôle de l’extracteur de données est d’extraire et d’emmagasiner les données

pertinentes parmi une panoplie d’informations disponibles sur une page Web, et ce, de manière automatisée.

Un extracteur de données est un algorithme permettant d’extraire des contenus en ligne de manière automatique.

Il s’agit d’un programme informatique qui a pour fonction d’obtenir des informations d’un ou plusieurs sites
  1 L’usage   du masculin générique sert à alléger le texte. Nous privilégons le langage épicène lorsque cela nous semble approprié

                                                                 1
Web, comme du texte, des images, des dates de publications, etc.

Pour être efficace et reproductible, un extracteur de données doit être conçu de manière à repérer systéma-

tiquement des informations dans la structuration des pages Web (Munzert et al. 2014). Il mobilise à cette fin

les balises HTML. En effet, certaines informations sont récurrentes dans la syntaxe HTML, comme le titre,

le texte principal ou les images. Par conséquent, cela permet de choisir les blocs de données pertinents pour

Projet Quorum et de les extraire de manière reproductible. HTML est un des langages de balisage les plus

importants dans l’organisation des contenus en ligne.

Extraction des données médiatiques

Les données médiatiques sont collectées à partir des sites Web des six médias ayant les plus forts taux de

pénétration au Québec, soit ceux couvrant la politique québécoise et ayant le plus d’auditeurs et de lecteurs :

La Presse, Le Devoir, Le Journal de Montréal, Montreal Gazette, Radio-Canada et TVA Nouvelles. L’extracteur

de données médiatique a été construit en utilisant le langage de programmation Python. Toutes les dix minutes,

un minuteur faisant partie de l’infrastructure de Projet Quorum envoie un message permettant au code de

produire une liste de sources à extraire. Pour chaque source, un extracteur de données identifie l’article en Une

sur la page d’accueil de chaque site Web médiatique inclus, puis tente de trouver le titre, le texte et l’auteur. Il

exporte le tout dans une table de la base de données principale de Projet Quorum et crée un rapport résumant

les erreurs rencontrées pour analyse ultérieure. Ces erreurs apparaissent généralement si la structure du site

Web a été récemment changée, mais sont plutôt rares et faciles à corriger.

La position de la nouvelle à la Une est utilisée comme une mesure de saillance médiatique puisque les enjeux

se trouvant en Une sont généralement ceux qui occupent le débat public à un moment donné. La littérature

scientifique sur l’étude des médias montre que l’importance relative des enjeux couverts dans les nouvelles est

le principal déterminant des perceptions du public sur ce qui se passe dans l’actualité (Iyengar 2016; McCombs

et Shaw 1972).

L’extracteur de données réside dans une instance Django, un serveur en langage Python qui permet, entre

autres, la configuration et la visualisation rapide des données par le biais d’un site Web d’administration. Cette

instance Django réside dans l’infrastructure Amazon Web Services (AWS) en tant que conteneur Fargate, qui

communique avec une base de données Aurora Serverless pour l’entreposage des articles et des configurations.

L’extracteur de données extrait les données des sites Web médiatiques grâce à Splash, un programme open

source qui agit comme navigateur Web sans affichage destiné au scraping. Lorsque certaines sources bloquent les

accès par AWS, l’extracteur de données fait plutôt appel à une instance Crawlera, un proxy rotatif. L’extracteur

de données garde en mémoire l’entièreté du code HTML de la page d’accueil afin de pouvoir s’y référer plus

                                                         2
tard. Dans un premier temps, la configuration permet de repérer les balises pour identifier l’article en Une de

chaque média tout en sauvegardant le lien hypertexte menant à la page de celui-ci. Par la suite, l’extracteur de

données repère sur chaque page d’article les balises pointant vers le titre, le texte et l’auteur de l’article. Les

balises sont repérées à l’aide de sélecteurs CSS.

Pour chaque nouveau média ajouté, un travail manuel est nécessaire afin de trouver les sélecteurs CSS pertinents

pour automatiser l’extraction des données. Ce travail manuel est aussi répété si des erreurs fréquentes sont

détectées dans un média, notamment à la suite de changements dans l’allure visuelle du site Web. Puisque

différents articles d’un même site peuvent avoir une structure visuelle différente, l’extracteur de données

supporte plusieurs sélecteurs CSS différents pour une même tâche, i.e. l’extraction du titre. Si le premier

sélecteur ne réussit pas à trouver le titre, le deuxième essaie à son tour, le tout afin de réduire le nombre de

problèmes, comme l’extraction d’articles avec des informations manquantes.

Pour chaque média, sept données sont extraites relativement aux Unes :

  • URL (format texte) : le lien hypertexte vers l’article à la Une.

  • Titre (format texte) : le titre de l’article à la Une.

  • Texte (format texte) : le contenu textuel de l’article à la Une.

  • Date (format POSIXct) : la date et l’heure du premier repérage de l’article à la Une par l’extracteur de

      données.

  • Auteur (format texte) : le ou les auteurs de l’article à la Une.

  • Média (format texte) : le nom du site Web médiatique à partir duquel l’article à la Une a été extraite.

  • Langue (format texte) : la langue du site Web médiatique (français ou anglais).

Un article qui constitue la Une d’un média pendant trente minutes se trouve en trois copies dans la base de

données, une pour chaque utilisation de l’extracteur de données. Lors de la requête de récupération des données

pour analyse, les articles sont groupés par URL afin d’établir une chronologie du texte de l’article à travers le

temps. Un chercheur pourrait, au besoin, voir l’évolution du contenu d’un article à travers sa période en Une,

ou simplement établir la durée de la période en Une pour analyse.

Extraction des données parlementaires

Trois extracteurs de données distincts sont utilisés pour extraire les données parlementaires. Chacun d’entre

eux est pour l’instant activé manuellement et de manière quotidienne par la Chaire de leadership en science

sociale numérique (CLESSN).

Le premier extracteur extrait les données des conférences et points de presse répertoriés sur le site Web de

                                                        3
l’Assemblée nationale du Québec à partir d’un seul lien hypertexte menant à l’ensemble des conférences et

points de presse répertoriés pour l’année 2020. Un code en langage de programmation R permet de trouver

dans un premier temps les sélecteurs CSS pour identifier les conférences et points de presse en version finale

ayant eu lieu depuis le 12 mars 2020 (date de la fermeture des écoles au Québec), puis sauvegarde le lien

hypertexte menant à la page Web qui y est dédiée. Par la suite, l’extracteur de données repère sur chaque

page de conférence ou de point de presse les sélecteurs CSS pointant vers le titre et vers le texte en un seul

bloc ainsi que divisé par intervention. Une intervention est définie comme une prise de parole ininterrompue

d’un député, journaliste ou autre intervenant. Les interventions peuvent comporter à peine quelques mots ou

plusieurs paragraphes.

Le deuxième extracteur de données utilisé extrait les données des conférences et points de presse se trouvant

sur la liste de lecture YouTube « COVID-19 | Québec » de la chaîne CPAC. Il s’agit de l’endroit où se trouvent

l’ensemble des conférences et points de presse du gouvernement du Québec portant sur la COVID-19, y compris

ceux ayant été prononcés ailleurs qu’à l’Assemblée nationale. Un code en langage de programmation Python

permet de transformer le lien URL des 10 plus récentes vidéos YouTube sur cette liste de lecture en format

audio. Par la suite, le code fait appel au package Python azure.cognitiveservices.speech de Microsoft, qui

permet d’utiliser la reconnaissance vocale pour transformer l’extrait audio en format texte en spécifiant les

deux langues utilisées : le français canadien et l’anglais canadien. Une étape de correction manuelle des erreurs

de transcription de Microsoft Azure est par la suite effectuée par l’équipe de la CLESSN, qui identifie en même

temps les intervenants au début de leurs interventions de la même manière que dans les conférences et points

de presse réguliers. Cette étape est seulement effectuée pour les conférences et points de presse qui ne sont pas

déjà présents sur le site de l’Assemblée nationale.

Le troisième extracteur de données extrait les données des journaux des débats parlementaires de l’Assemblée

nationale du Québec, excluant les commissions parlementaires. Une fonction de recherche permettant de faire

afficher sur une même page les 100 plus récents journaux des débats parlementaires est utilisée pour ces données.

Il y a un journal des débats par jour. Toutefois, l’utilisation de cette fonction de recherche ne change pas

l’URL du site, qui affiche par défaut seulement les 25 premiers résultats. Ainsi, cette page a été manuellement

téléchargée en format HTML et sauvegardée sur un repo GitHub. Les nouveaux journaux des débats ajoutés sur

cette même page ne demandent pas l’utilisation de fonctions de recherche avancées et sont désormais intégrés

automatiquement à la base de données. Un code en langage de programmation R permet de trouver dans un

premier temps les sélecteurs CSS pour identifier les journaux des débats en version finale tout en sauvegardant

leur lien hypertexte. Par la suite, l’extracteur de données repère sur chaque journal des débats les sélecteurs

CSS pointant vers le titre et vers le texte en un seul bloc ainsi que divisé par intervention, comme pour les

                                                       4
conférences et points de presse.

Pour chaque conférence de presse, point de presse et journal des débats, cinq informations sont extraites :

  • URL (format texte) : le lien hypertexte vers la conférence de presse, le point de presse ou le journal des

     débats.

  • Titre (format texte) : le titre de la conférence de presse ou du point de presse.

  • Texte (format texte) : le contenu textuel de la conférence de presse, du point de presse ou du journal des

     débats.

  • Date (format POSIXct) : (1) la date du journal des débats; (2) la date et l’heure de début de la conférence

     de presse ou du point de presse indiquées dans le texte; et (3) la date et l’heure de fin de la conférence de

     presse ou du point de presse indiquées dans le texte.

  • Source (format texte) : soit « Conférences et points de presse », soit « Journal des débats - Assemblée ».

Pour chaque intervention lors d’une conférence de presse, d’un point de presse ou d’un journal des débats, dix

informations sont extraites :

  • Type d’intervenant (format texte) : élu, journaliste ou modérateur.

  • Texte (format texte) : le contenu textuel de l’intervention.

  • Nom de famille (format texte) : le nom de famille de l’intervenant.

  • Genre (format texte) : le genre (masculin ou féminin) de l’intervenant.

  • Circonscription (format texte) : la circonscription du député ayant fait l’intervention. Si non spécifiée,

     identifiée à partir du nom de famille et, si nécessaire, du genre. NA si l’intervenant n’est pas un député.

  • Prénom (format texte) : le prénom de l’intervenant, identifié à partir du nom de famille et, si nécessaire,

     du genre et de la circonscription.

  • Parti politique (format texte) : le parti politique du député ayant fait l’intervention, identifié à partir du

     nom de famille et, si nécessaire, du genre et de la circonscription. NA si l’intervenant n’est pas un député.

  • Média (format texte) : le média pour lequel travaille le journaliste ayant fait l’intervention. NA si

     l’intervenant n’est pas un journaliste.

  • Langue (format texte) : la langue de l’intervention (français ou anglais), repérée automatiquement grâce

     à la fonction detect_language du package R cld2.

  • Type d’intervention (format texte) : le type d’intervention, soit “allocution”, “question”, “réponse” ou

     “commentaire”.

                                                       5
Conversion des données

Les données médiatiques et parlementaires collectées sont entreposées sur les serveurs de la solution intégrée

VALERIA de l’Université Laval. Elles sont par la suite importées dans un code en langage de programmation

R par le biais du package clessnhub. Celui-ci permet de télécharger et de transformer les données en ligne du

scraper médiatique et des trois scrapers des décideurs publics en un ou plusieurs objets de type data.frame, les

rassemblant ainsi dans une base de données structurée et prête à être analysée systématiquement. Une fois les

données téléchargées sous ce format, elles peuvent être analysées séparément.

Sélection des textes traitant de la COVID-19

La mesure du ton des médias et des décideurs publics est le résultat d’une analyse de contenu automatisée par

dictionnaire. L’identification du sujet « COVID-19 » s’effectue par l’application d’un algorithme de pertinence

qui évalue l’importance du lien entre un texte et la question. La pertinence est calculée à partir d’une liste

de mots et expressions francophones et anglophones liés à la COVID-19. Cette liste a été élaborée à l’aide

d’un processus à codeurs multiples avec contre-vérifications extensives. En effet, plus de 50 articles de médias,

conférences de presse et débats parlementaires dans les deux langues officielles, tous sélectionnés aléatoirement,

ont permis la création du dictionnaire. Il inclut donc 226 mots et expressions exclusivement liés à la pandémie

de la COVID-19. Ces mots et expressions sont utilisés afin de mesurer l’importance du sujet dans les textes

évalués. Lors de ce processus, les différentes variantes de chaque mot ou expression sont considérées, grâce

à l’utilisation d’astérisques pour repérer les caractères manquants (quarant*in*, par exemple). Lorsqu’une

phrase contient un ou plusieurs mots du dictionnaire, la phrase est considérée comme traitant de la COVID-19.

À l’inverse, lorsqu’aucun mot de la liste n’est présent, la phrase est considérée comme ne traitant pas de la

COVID-19. L’index de pertinence pour une intervention produit donc un score toujours entre l’intervalle 0 et 1

et est calculé selon la formule suivante~:
                                                            n
                                                     θ=
                                                            T

où n représente le nombre de phrases traitant de la COVID-19 et T représente le nombre total de phrases dans

une intervention. Afin de raffiner l’analyse et d’éviter d’inclure dans le corpus des articles n’ayant pas pour

sujet la COVID-19, la sélection a débuté le 11 janvier 2020, date de la première Une d’un média canadien sur

le virus (Poirier et al. 2020).

Sélection des décideurs publics

Bien que l’ensemble des débats parlementaires soient colligés, seules les interventions des ministres du gou-

vernement du Québec sont retenues pour l’analyse de ton et pour l’analyse de pertinence afin de créer un

                                                        6
indicateur du ton des décideurs publics. La même logique s’applique aux conférences et points de presse. Cette

analyse des débats parlementaires, conférences et points de presse depuis le début de la crise sanitaire permet

d’observer l’évolution du ton du discours tenu par les ministres du gouvernement du Québec. De plus, elle

permet d’observer comment les différents développements de la crise ont pu influencer ce ton et comparer

celui-ci avec l’humeur médiatique et citoyenne.

Mesure du ton

Des dictionnaires de ton sont utilisés lors de l’assignation du caractère positif ou négatif des mots. Pour

le corpus en anglais, le Lexicoder Sentiment Dictionnary (LSD) développé par Young et Soroka (2012) est

utilisé. Ces derniers ont développé le LSD à partir de trois dictionnaires déjà existants, Roget’s Thesaurus,

GI et Regressive Imagery Dictionary (Young et Soroka 2012). Ces dictionnaires proviennent respectivement

de travaux en linguistique, en science politique et en psychologie. Pour ce qui est du corpus en français,

l’adaptation du LSD par Duval et Pétry (2016) est mobilisée. Ces derniers ont créé le LSDFr en traduisant

manuellement les mots et les expressions recensés dans le LSD et en ajoutant les synonymes appropriés.

Les mots qui ne font pas partie du dictionnaire de mots positifs ni du dictionnaire de mots négatifs sont

considérés comme des mots neutres, mais sont tout de même inclus dans l’analyse de ton. Les articles

médiatiques et interventions des décideurs publics comportant cinq mots non neutres sont retirées de l’analyse,

puisque ces articles et interventions sont souvent courts et très près d’un ton neutre, en plus de ne contenir, dans

plusieurs cas, qu’une ou deux phrases qui concernent toutes la COVID-19, ayant ainsi un indice de pertinence

très élevé. Une telle intervention avec un mot positif et aucun mot négatif, par exemple, est considérée comme

trop courte et trop neutre pour être incluse, puisque cela risquerait de faire augmenter de manière substantielle

le ton positif pour la journée où elle se trouve.

Opinion publique

Mesure de l’opinion publique

Le module sur l’opinion publique est un outil recueillant des données originales sur l’opinion publique afin de

mesurer les attitudes de la population sur des enjeux saillants. Les données sont analysées par les chercheurs

du comité scientifique de la Chaire de leadership en enseignement des sciences sociales numériques (CLESSN).

L’application Web contenant les questionnaires, les analyses et la visualisation graphique est maintenue par les

chercheurs de la CLESSN.

En plus d’être utilisées pour la recherche universitaire, les données recueillies par le module sur l’opinion

                                                         7
publique servent à construire un indice de l’humeur citoyenne, qui est directement comparable aux indices

d’humeur médiatique et politique décrits plus haut (voir section Présentation du calcul de l’humeur de la société

québécoise). Il s’agit de la dimension principale construite à partir des données sur l’opinion publique, qui sera

à terme déployée sur les divers enjeux qui sont au cœur de la sphère publique. D’autres indices de catégorisation

sont aussi élaborés par Projet Quorum, mais ils sont appelés à varier d’un dossier à l’autre. Par exemple, en ce

qui concerne la gestion de la COVID-19 au Québec, les trois enjeux permettent non seulement aux citoyens de

se situer par rapport à leurs pairs, mais aussi de les classer en « profils » ludiques et informatifs présentés de

manière à stimuler la réflexion sur leur positionnement personnel et la discussion avec leurs concitoyens. Pour

plus de détails sur les profils, voir la section L’assignation des profils et la construction des macarons.

Pourquoi utiliser des questionnaires?

L’utilisation des questionnaires est incontournable pour permettre une étude granulaire des attitudes des

citoyens. Cette méthode de collecte de données est particulièrement pertinente dans le cadre du module sur

l’opinion publique considérant les nombreux objectifs de l’outil, notamment la création d’échelles de mesure de

l’opinion publique sur les enjeux sociaux contemporains.

Analyser les données d’opinion publique

Ces mesures sont créées à l’aide d’échelles multidimensionnelles contenant plusieurs questions. Chaque question

est associée à la dimension principale ou à un des trois index auquel elle correspond le mieux. Une réflexion

théorique accompagne la construction des échelles, qui sont par la suite testées et validées à l’aide de plusieurs

indicateurs de fiabilité statistique. Cet exercice dépend de la création d’échelles de mesure multidimensionnelles.

L’échelle multidimensionnelle (multidimensional scaling) est une notion générique pour décrire une catégorie

de techniques ayant pour objectif de trouver le plus faible espace dimensionnel entre différents indicateurs

(Shepard 1962). Chaque indicateur représente une mesure imparfaite d’une caractéristique de la variable latente

qu’on mesure. La similarité entre les indicateurs est représentée, dans un graphique, par la proximité spatiale

entre les points (Shepard 1962).

La représentation d’un grand nombre de questions relatives aux attitudes et aux enjeux politiques exige

l’utilisation d’une technique statistique de réduction dimensionnelle. C’est dans cette optique qu’est utilisée

l’analyse factorielle. Cette technique permet de cerner les attitudes et la valeur sous-jacente des utilisateurs sur

un nombre minimum de dimensions politiques abstraites (appelées facteurs). Il est possible de se représenter

ces positions comme des points sur une échelle qui ne peuvent être mesurés directement par le biais d’une seule

question. Certains concepts ne peuvent être mesurés correctement avec un seul item, mais ils peuvent être

estimés à partir de questions connexes. L’écart entre le concept analysé et sa mesure à partir d’indicateurs

                                                         8
est inévitable dans la plupart des travaux en sciences sociales (King, Keohane, et Verba 1994). Des travaux

ont par ailleurs démontré que l’utilisation d’échelles composées de plusieurs indicateurs (au lieu d’items

d’enquête individuels) réduit de façon significative les erreurs de mesure (Ansolabehere, Rodden et Snyder,

2008). Une explication détaillée des postulats liés au modèle utilisé et les différentes étapes suivies pour dériver

les dimensions abstraites de l’opinion publique précédemment mentionnées est présentée plus bas. Posons p

comme étant le nombre d’indicateurs. Considérons X comme étant un vecteur des réponses d’un citoyen aux

indicateurs p où X ∈ Rp . Ensuite, assumons que nous trouvons que Z est un vecteur de k variables latentes

(ou facteurs) qui influence les réponses des citoyens, tel que Z ∈ Rk . La relation entre X et Z peut donc être

exprimée ainsi :

                                                 X = µ + ΛZ + ,

où Z ∼ N (0, I),  ∼ N (0, Ψ) et Λ ∈ Rp·k est une matrice de coefficients de saturation et µ est la moyenne.

De plus, il est considéré que cov(Xi , Zj ) = 0 pour i = 1,. . . , p et j = 1,. . . ,k. À partir de l’équation 1, X

conditionnel de Z est distribué de façon N (µ) + Λ(Z; Ψ). Utilisant les propriétés normales multivariées, la
                                            P
distribution jointe de (X, Z ) suit N (µxz , ) où

·

                                                            
                                                           µ
                                                  µxz   =
                                                            
                                                             
                                                           0

et

                                                                  
                                             X     ΛΛ + Ψ       Λ 
                                                 =                
                                                     ΛT          I

Le modèle est estimé en utilisant les fonctions du package R factanal. Les coefficients de saturation sont tirés

d’une estimation maximum de vraisemblance, auxquels une rotation de type varimax a été appliquée. Les

dimensions théoriques sont construites en fonction des contributions respectives de chacun des indicateurs.

Une fois la sélection des indicateurs pour chacune des dimensions déterminée, nous les projetons de manière

inductive dans une dimension unique. Cette dimension simple pour un répondant i est obtenue par régression

avec la formule suivante :

                                                         9
b T S −1 (xi − x̄)
                                                               Λ
                                                       z̃i =
                                                                      sx

où x̄, sx et S représentent respectivement un vecteur des moyennes, un vecteur des écarts-types et une matrice

des corrélations échantillonnées des réponses des citoyens pour une sous-sélection des indicateurs initiaux. Λ
                                                                                                             b

est un vecteur des coefficients estimés dont la longueur équivaut au nombre d’indicateurs dans la sous-sélection.

La mesure du ton de l’opinion publique

Une fois les échelles établies, il est possible de calculer le ton brut par jour en mobilisant l’échelle de pessimisme

(θ) :
                                                               p  n  p−n
                                                       θ=        − =
                                                               T  T   T

où p correspond au nombre d’individus optimistes, n correspond au nombre d’individus négatifs, et T au

nombre d’observations. L’assignation d’une position optimiste et pessimiste est établie selon la position

individuelle sur l’échelle de pessimisme allant de 0 à 1 où 0 est une personne très optimiste et 1 une personne

très pessimiste. Tout score faisant partie de l’ensemble [0, 0.4[ est considéré comme optimiste, tout score

faisant partie de l’ensemble [0.4, 0.6] est considéré neutre, et tout score faisant partie de l’ensemble ]0.6, 1] est

considéré pessimiste. Cette mesure est agrégée par jour et le nombre de mots positifs est multiplié par l’index

de pertinence lié à la COVID-19. La même procédure est répliquée pour le ton neutre et le ton négatif.

Pondération des résultats

Les réponses au questionnaire de Projet Quorum font l’objet d’une pondération afin de s’assurer que les

répondants d’une journée donnée soient représentatifs de la population adulte québécoise sur cinq variables

socio-démographiques fréquemment utilisées : genre, âge, éducation, langue et revenu. Les données de

population sont tirées des réponses des adultes québécois au recensement canadien de 2016. Les cinq variables

sont toutes corrélées avec l’échelle pessimiste/optimiste selon plusieurs tests internes : la sous-représentation

d’un groupe pour une journée risquerait de donner une mesure trop élevée ou trop faible du degré d’optimisme.

Chacune d’entre elles est divisée en trois catégories, qui sont identifiées et décrites dans l’Annexe II2 .

Le raking, une méthode de pondération reconnue et fréquemment employée par des firmes de sondage aussi bien

que par les études électorales canadienne et américaine, est utilisé par le biais de la fonction anesrake, issue
   2 L’ethnicité,
               la taille du foyer et le statut d’immigrant, à l’inverse, n’étaient pas corrélés avec l’échelle pessimiste/optimiste. Les
microdonnées de recensement ne donnaient pas accès à des données régionales significatives pour des fins de pondération, donc une
pondération sur la base de la région n’a pas pu être appliquée. Les variables incluses dans les tests sont utilisées comme variables
de pondération pour les sondages québécois des firmes Léger, EKOS, Mainstreet et Forum. Elles sont aussi utilisées dans les écrits
académiques concernant la pondération de données en sciences sociales (Chen et al. 2012; Gelman 2007; Särndal 2008; Si et al.
2017; Wang et al. 2015).

                                                                   10
du package de même nom basé sur la méthode de l’American National Election Study. En raison du nombre

incertain de répondants par jour et du nombre relativement grand de variables utilisées pour la pondération,

cette méthode est jugée plus appropriée que la post-stratification, qui constitue l’autre méthode de pondération

la plus utilisée en sciences sociales (Caughey et al. 2020, 14). Le raking a pour effet de rehausser le poids des

réponses des répondants qui sont sous-représentés parmi ceux de la plateforme de Projet Quorum pour une

période donnée. Cette incertitude quant au nombre de répondants par jour implique également l’imposition

d’une taille d’échantillon minimale afin de permettre une application efficace du raking. Ainsi, un échantillon

minimal de 300 répondants distribué sur 3 jours est considéré nécessaire à l’application du raking par l’équipe de

recherche. Autrement, un jour est ajouté à l’échantillon jusqu’à l’obtention du seuil minimal de 300 répondants.

Cet ajout de l’aspect temporel au raking et au calcul du score d’optimisme a l’effet bénéfique de stabiliser la

mesure et d’éviter les sursauts pouvant être causés par un biais de sélection particulièrement important à un

moment t.

Sur le graphique de l’humeur de la société québécoise, l’indicateur d’opinion publique ne prend pas en compte

simplement la moyenne de l’optimisme et la moyenne du pessimisme des répondants de la journée, mais plutôt

ces moyennes multipliées par un weight, lui-même créé par la fonction anesrake. Dans le cas d’une journée où

les répondants sont parfaitement représentatifs de la société québécoise en termes de genre, d’âge, d’éducation,

de langue et de revenu, le weight de chaque réponse est de 1 : aucune pondération n’est appliquée pour cette

journée. Par contre, une journée où les femmes de moins de 35 ans sont surreprésentées, le weight de ces

répondantes se situent entre 0 et 1, alors que les hommes de 35 ans et plus ont un weight se situant entre 1 et 5.

Après la multiplication, le ton est ajusté à la hausse ou à la baisse pour tenir compte davantage des préférences

des groupes sous-représentés.

L’assignation des profils et la construction des macarons

Le développement d’échelles permet également de cartographier les positions idéologiques associées à divers

enjeux. Pour le dossier de la COVID-19, quatre échelles ont été élaborées. La première échelle s’attarde à la

dimension de l’optimisme des répondants quant à la situation de crise. L’échelle de pessimisme utilise donc des

indicateurs comme la perception de l’avenir, la perception du danger que pose la maladie et l’évaluation du

risque de vagues subséquentes. La seconde échelle mesure le niveau d’autoritarisme qui serait acceptable aux

yeux des répondants en lien avec les mesures de crise du gouvernement. La troisième échelle cherche à mesurer

plus spécifiquement à quel point les répondants priorisent les mesures de santé publique sur leurs propres droits

et libertés. Enfin, la quatrième échelle a pour objectif de mesurer l’acceptabilité de la technologie comme outil

d’aide à la gestion de crise.

                                                       11
Les profils sont des portraits généraux de l’idéologie du répondant. Ils permettent donc aux participants de

se comparer et d’être confrontés à leur positionnement idéologique, dont ils ne sont pas toujours conscients.

Les macarons sont similaires dans la mesure où ils sont des représentations visuelles du profil idéologique des

répondants couplées à leurs caractéristiques sociodémographiques.

Les profils sont construits à partir des échelles Individualité et collectivité, Science et Technologie et Démocratie.

Celles-ci forment alors un espace tridimensionnel où chaque échelle représente un axe et où tous les profils

sont représentés. En d’autres mots, les trois échelles forment un cube à partir duquel il est possible d’obtenir

géométriquement toutes les combinaisons de réponse possibles. En effet, en séparant chaque échelle en deux,

huit plus petits cubes sont formés à l’intérieur de l’espace géométrique. Ces huit cubes représentent les

huit profils de l’application. Ainsi, chaque profil est formé à partir d’une combinaison différente des deux

niveaux de chaque échelle. Par exemple, le meneur est autoritaire, technophile et discipliné tandis que le

gardien est autoritaire, technocritique et discipliné. Ces deux profils occupent donc des cubes opposés sur l’axe

Technophile/Technocritique.

Pour associer un profil aux réponses d’un individu, la distance euclidienne entre sa position géométrique et

le point central des huit profils (cubes) est mesurée. Ainsi, pour une position individuelle ρ(x, y, z) et pour

chaque c ∈ C, il est calculé la distance ρcn selon :

                                        q
                                ρcn =       (ρx − cnx )2 + (ρy − cny )2 + (ρz − cnz )2

Le profil associé à la distance ρcn la plus courte est alors associé au répondant. Les cas d’égalités sont

causés par un résultat au centre d’une ou de plusieurs échelles et sont brisés théoriquement. Ainsi, le centre

Autoritaire/Pluraliste est associé à la position autoritaire, le centre Technophile/Technocritique est associé à la

position technocritique, et le centre Contestataire/Discipliné est associé à la position discipliné. Il est postulé

qu’une position centrale sur une dimension n’est pas un gage de neutralité, mais plutôt de méfiance envers l’un

des extrêmes de la dimension. Par exemple, un individu au centre sur la dimension Autoritaire/Pluraliste est

bien plus proche de la position autoritaire que de la position démocratique. Pour sa part, le macaron est formé

de sept couches différentes, toutes associées à un aspect sociodémographique ou idéologique du répondant.

Trois catégories sont établies pour le sexe, la langue et l’âge du répondant. Les échelles idéologiques (les mêmes

que pour les profils, mais en y ajoutant l’échelle de pessimisme) sont cette fois divisées en cinq catégories. Au

total, 29 formes différentes peuvent être superposées sur cinq couches afin d’obtenir un macaron. Au total,

16 875 macarons uniques sont possibles.

                                                           12
Présentation du calcul de l’humeur de la société québécoise

Une fois les mesures établies pour les trois piliers de la démocratie, le graphique de l’humeur de la société

québécoise de Projet Quorum permet de représenter leurs tendances et de les comparer. Il faut transformer

la mesure du ton par date de sorte à la rendre comparable. Plusieurs avenues ont été explorées (cotes,

transformation logarithmique, calcul d’un Relative Strength Index) avant d’identifier la transformation sigmoïdale

comme la mesure optimale. En effet, cette dernière combine la présentation d’une mesure absolue (au lieu d’une

mesure tendancielle) et l’intégration d’asymptotes qui permettent d’éviter les augmentations et diminutions

exponentielles. Ce dernier point est un avantage par rapport aux cotes et à la transformation logarithmique, qui

sont toutes deux sujettes aux données exponentielles. Le calcul d’une cote, en tenant compte de la correction

Haldane-Anscombe3 (Valenzuela 1993), se fait ainsi~:

                                       p                            n                          η
                       CP = 0.5 +              et   CN = 0.5 +             et   Cη = 0.5 +
                                      n+η                          p+η                        p+n

CP correspond à la cote positive, soit les chances qu’une unité positive soit pigée parmi le texte ou la population.

CN et Cη correspondent respectivement à la cote négative et à la cote neutre. Or, le calcul de l’humeur

s’intéresse aux chances d’un ton positif par rapport aux chances d’un ton négatif. Un ratio de cotes (RC) est

ainsi réalisé selon la formule suivante~:
                                                                  CP
                                                        RC =
                                                                  CN

Les cotes et les ratios de cotes ont la particularité de produire un résultat asymétrique, tel qu’illustré dans

la Figure 1. En effet, lorsque le numérateur est plus petit que le dénominateur, le résultat varie entre 0 et 1,

tandis que lorsque le numérateur est plus grand que le dénominateur, le résultat varie entre 1 et l’infini. Pour

le bien de la présentation des données, il est nécessaire que les deux bornes soient symétriques. Le logarithme

naturel (ln) est donc utilisé.

  3 La correction Haldane-Anscombe est normalement utilisée pour des matrices 2 x 2. La matrice que nous utilisons est 2 x 3,

mais cette rectification semblait avoir l’effet voulu et représentait une variation faible par rapport à d’autres méthodes.

                                                             13
C’est au moment d’appliquer le logarithme naturel aux données des décideurs publics et des médias que

l’indice de pertinence est appliqué afin de calculer le ton pondéré en fonction de la pertinence de l’intervention.

Le logarithme naturel du ratio de cotes et ainsi multiplié par l’indice de pertinence. Toutefois, l’indice de

pertinence variant entre 0 et 1, celui-ci est multiplié par l’inverse de sa moyenne (ce qui a pour effet d’imposer
                                                                                                           1
une moyenne de 1) afin d’éviter de biaiser les résultats vers un ton neutre, selon la formule suivante :   µ̄ .   Cette

procédure n’est pas appliquée à la mesure de l’humeur de l’opinion publique, puisque l’indice de pertinence a

déjà été appliqué auparavant.

Par la suite, pour éviter les valeurs extrêmes, il est nécessaire d’imposer des asymptotes au modèle. Elles sont

obtenues grâce à une transformation sigmoïdale~:

                                                            ex
                                                 S(x) =
                                                          ex + 1

Cette dernière formule est en fait l’opération inverse de la transformation logarithmique, comme la soustraction

est l’opération inverse de l’addition. Ce faisant, les données restent les mêmes, mais sont présentées entre deux

                                                        14
bornes. Si S(x) est borné entre 0 et 1, il est possible de l’ajuster à des fins esthétiques en le multipliant par 100

pour obtenir des résultats bornés entre 0 et 100. Ce faisant, en prenant en compte les opérations mentionnées

plus haut, il est obtenu la formule suivante~:

                                                        CP       i                                 CP       i
                         ex                       e(ln( CN )× µ̄ )                           e(ln( CN )× µ̄ )
              S(x) =    x
                                |= S(x) =            CP      i           |= S(x) =              CP      i       × 100
                       e +1                     e(ln( CN )× µ̄ ) + 1                     e(ln( CN )× µ̄ ) + 1

où i correspond à l’index de pertinence et µ̄ sa moyenne.

Dans le cas des données citoyennes, les poids obtenus par le raking sont appliqués au calcul de la fréquence

d’individus positifs (p), négatifs (n) et neutres (η) selon :

                                          X                      X                X
                                     p=         ωi ; n =               ωi ; η =         ωi
                                          i∈P                    i∈N              i∈H

où P , N et H sont respectivement les sous-ensembles des poids des répondants positifs, négatifs et neutres

pour chaque période de 3 jours. Ce calcul de la fréquence pondérée est ensuite intégré au calcul des cotes et

ultimement au calcul du score d’optimisme de la journée.

Enfin, pour éviter les variations trop importantes d’une journée à l’autre, une moyenne mobile (EMA) sur sept

jours est calculée à l’aide du package R TTR pour les données des décideurs et des médias. C’est la courbe liée

à cette moyenne mobile qui est affichée sur le graphique de l’humeur. Les données citoyennes n’ont pas besoin

d’un EMA étant donnée que l’application du raking est réalisée sur 3 jours, ce qui a pour effet d’émuler un

EMA sur 3 jours.

                                                                 15
Annexe I: Questions composant les échelles de mesure additives

Individualité et collectivité: Autoritaire/Pluraliste

  • En temps de crise majeure, la censure des journalistes devrait être permise.

  • Les régimes autoritaires gèrent les crises majeures de meilleure façon.

  • En période de crise majeure, les partis d’opposition et les médias devraient modérer leurs critiques du

     gouvernement.

Science et Technologie: Technocritique/Technophile

  • Les nouvelles technologies sont généralement bénéfiques pour la société.

  • Je crains que l’intelligence artificielle attaque et nuise aux humains.

  • Je détesterais l’idée que l’intelligence artificielle influence les décisions politiques.

Démocratie: Contestataire/Discipliné

  • Le port du masque obligatoire est une mesure exagérée.

  • Si l’intérêt de la santé publique l’exige, le partage des données personnelles de géolocalisation devrait être

     obligatoire pour tous.

  • La vaccination contre la COVID-19 devrait être obligatoire pour tout le monde.

  • Un couvre-feu est une mesure nécessaire.

  • Le non-respect grave des mesures sanitaires devrait pouvoir mener jusqu’à la prison.

Optimisme

  • Je crains qu’une nouvelle vague d’infections soit aussi grave ou pire que la précédente.

  • Le pire de la crise est derrière nous.

  • L’avenir s’annonce sombre.

  • La COVID-19 menace la survie de l’humanité.

Annexe II: Catégories des variables socio-démographiques utilisées

pour la pondération

Genre

  • Homme

                                                        16
• Femme

  • Je m’identifie autrement

Âge

  • 18-34 ans

  • 35-54 ans

  • 55 ans et plus

Niveau d’éducation

  • Secondaire ou moins

  • Collégial

  • Université

Langue parlée le plus souvent à la maison

  • Français

  • Anglais

  • Autre

Revenu annuel avant impôts

  • 60000 $ ou moins

  • Entre 60~000 et 150000 $

  • Plus de 150000 $

                                      17
Références

Caughey, Devin, Adam J. Berinsky, Sara Chatfield, Erin Hartman, Eric Schickler, et Jasjeet S. Sekhon. 2020.

   Target Estimation and Adjustment Weighting for Survey Nonresponse and Sampling Bias. Cambridge CB2

   8BS, United Kingdom : Cambridge University Press.

Chen, Qixuan, Andrew Gelman, Melissa Tracy, Fran H. Norris, et Sandro Galea. 2012. « Weighting Adjustments

   for Panel Nonresponse ». New York, NY: Columbia University.

Duval, Dominic, et François Pétry. 2016. « L’analyse automatisée du ton médiatique: construction et utilisation

   de la version française du Lexicoder Sentiment Dictionary ». Canadian Journal of Political Science/Revue

   canadienne de science politique 49 (2) : 197-220.

Gelman, Andrew. 2007. « Struggles with Survey Weighting and Regression Modeling ». Statistical Science 22

   (2) : 153-64.

Iyengar, Shanto. 2016. Media Politics: A Citizen’s Guide. WW Norton New York.

King, Gary, Robert O Keohane, et Sidney Verba. 1994. Designing social inquiry: Scientific inference in

   qualitative research. Princeton University Press.

McCombs, Maxwell E, et Donald L Shaw. 1972. « The agenda-setting function of mass media ». Public

   Opinion Quarterly 36 (2) : 176-87.

Munzert, Simon, Christian Rubba, Peter Meißner, et Dominic Nyhuis. 2014. Automated data collection with R:

   A practical guide to web scraping and text mining. John Wiley & Sons.

Poirier, William, Catherine Ouellet, Marc-Antoine Rancourt, Justine Béchard, et Yannick Dufresne. 2020.

   « (Un) Covering the COVID-19 Pandemic: Framing Analysis of the Crisis in Canada ». Canadian Journal

   of Political Science/Revue canadienne de science politique, 1-7.

Särndal, Carl-Erik. 2008. « Assessing Auxiliary Vectors for Control of Nonresponse Bias in the Calibration

   Estimator ». Journal of Official Statistics 24 (2) : 167.

Shepard, Roger N. 1962. « The analysis of proximities: multidimensional scaling with an unknown distance

   function. I. ». Psychometrika 27 (2) : 125-40.

Si, Yajuan, Rob Trangucci, Jonah Sol Gabry, et Andrew Gelman. 2017. « Bayesian Hierarchical Weighting

   Adjustment and Survey Inference ».

Valenzuela, C. 1993. « 2 Solutions for Estimating Odds Ratios with Ceros ». Revista Medica de Chile 121

   (12) : 1441.

                                                       18
Wang, Wei, David Rothschild, Sharad Goel, et Andrew Gelman. 2015. « Forecasting Elections with Non-

   Representative Polls ». International Journal of Forecasting 31 (3) : 980-91.

Young, Lori, et Stuart Soroka. 2012. « Lexicoder sentiment dictionary ». McGill University, Montreal, Canada.

                                                     19
Vous pouvez aussi lire