INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon

La page est créée Adrien Coulon
 
CONTINUER À LIRE
INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
INSIGHT
DÉCRYPTAGE STATISTIQUE
DE L’ÉVOLUTION ÉPIDÉMIQUE
EN FRANCE ET EN ITALIE                                                                               Par Damien Garrouste
                                                                                                           EPSILON France

Il n’aura échappé à personne que la crise sanitaire due au COVID-19 est fortement décrite
et pilotée par la data, la manifestation la plus éclatante en ayant été la prise en compte dans
la décision française de confinement des projections établies par modélisation, par une
équipe anglaise de « l’Imperial College ».

Souhaitant comprendre et m’approprier les ressorts de l’épidémie, j’ai analysé les données
relatives à la dynamique de l’épidémie et cherché comment établir des projections sur sa
fin. L’analyse porte sur les cas confirmés de COVID-19 consolidés par l’agence européenne
ECDC, les données françaises provenant de l’agence publique Santé Publique France.

Précisons que n’étant pas spécialiste en modélisation épidémiologique, les analyses présentées ci-dessous
sont purement fondées sur les données, pour lesquelles le nombre nous semble suffisant aujourd’hui pour
procéder à un ajustement statistique. L’analyse n’intègre donc pas d’hypothèses, de connaissances et de
modèles de propagation tels que dans celles réalisées par les épidémiologistes.

À noter également que les volumes de cas présentés ci-dessous sont un minorant du phénomène réel.
Nous savons en effet qu’il y a plus de cas que ceux remontés, mais ce qui prime dans l'analyse statistique
n'est pas tant le volume de cas en valeur absolue que la capacité de ces données à décrire la forme de la
courbe épidémique. Or, si nous faisons l’hypothèse que les données de cas observés suivent une définition
stable dans le temps alors nous pouvons analyser voir modéliser pour établir des projections.

Le graphique ci-dessous montre la courbe épidémique en cas cumulés puis en nouveaux cas quotidiens en
Chine. S'appuyer sur le cas de la Chine, point de départ de l'épidémie et où la première vague est terminée,
permet d'observer des données qui décrivent complément la courbe épidémique.

Aux données observées, nous avons ajouté un ajustement statistique basé sur une forme. La forme sigmoïde
est communément admise comme la forme décrivant le mieux la croissance d’une population, ici les cas
testés positifs au COVID-19.

L’ajustement ne suit pas complètement la courbe observée, cependant il restitue bien la forte hausse et forte
baisse de l’épidémie. À noter que le pic élevé de mi-février est un point extrême dû à une reprise d’historique
dans le Hubei suite à un changement de définition dans la notion de cas confirmés.
INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
Figure 1 : courbe observée et estimée épidémie COVID-19 en Chine, données observées et arrêtées au 10/04/2020 source ECDC

Nous cherchons à appliquer ce même type d’ajustement au cas européen et nous observons le même
type de phénomène. Cependant l’observation des données est partielle puisque nous venons tout juste de
dépasser le pic épidémique, un palier semble se former. La redescente parait plus lente et les différences de
politiques sanitaires y contribuent certainement.

Cette incertitude nous a amené à postuler un second modèle en concurrence, basé sur une formulation
de fonction dite de Gompertz. Cette dernière, contrairement à la fonction logistique, a la propriété de
redescendre plus lentement qu’elle n’a crû, cela peut donc être un modèle qui pourrait correspondre à
l’observation de l’épidémie en Europe.

Nous constatons à date une forte volatilité sur les cas observés qui nous impose une certaine prudence.
L’examen graphique montre qu’il est difficile de trancher définitivement entre les deux modèles.

Figure 2 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 13/04/2020 source ECDC

Le graphique ci-dessus montre l’ajustement en prenant en compte les données jusqu’au 13 avril inclus.
Si nous prenons en compte une semaine de plus jusqu’au 20 avril , nous observons un ajustement très
proche, où le modèle logistique se revèle plus adapté à la chute des nouveaux cas ces derniers jours.
INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
Figure 3 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 20/04/2020 source ECDC

En revanche en Italie, le modèle de Gompertz est plus adapté. Il suit mieux la décroissance lente qui est
observée dans les chiffres, alors que le modèle logistique anticipe une décroissance plus marquée qui ne se
vérifie pas.

Figure 4 : courbe observée et estimée de l’épidémie COVID-19 en Italie, données observées et arrêtées au 20/04/2020 source ECDC

Pour aller plus loin et déterminer une estimation de fin de vague épidémique, nous avons projeté les modèles
sur les prochaines semaines.

Figure 5 : courbe observée et estimée de l’épidémie COVID-19 en Italie, données observées et arrêtées au 20/04/2020 source ECDC
INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
Si nous optons pour le modèle de Gompertz en Italie à mesures sanitaires identiques, l'épidémie prendrait fin
courant juin, du moins pour la première vague (environ 210k cas confirmés seraient comptabilisés). Notons
que nous n’avons pas établi d’intervalle de confiance sur cette estimation.

Pour la France, le modèle pessimiste (courbe verte) nous indique alors, à mesures sanitaires identiques, que
la première vague épidémique se terminerait mi-juin (pour environ 140k confirmés). Le modèle en bleu, plus
optimiste, montre une extinction début mai, avec un plafonnement à 120k cas confirmés.

Figure 6 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 20/04/2020 source ECDC

Rappelons que les volumes de cas cités ici sont exprimés selon la définition des cas sévères recensés par les
statistiques publiques des différents pays.

Bien entendu, l’ajustement dépend des données et il n’est pas du tout certain que la courbe épidémique en
Italie et en France suive la redescente proposée par ces modèles basés uniquement sur de seules fonctions
mathématiques.

Cette première approche repose sur un postulat de forme sigmoïde de la courbe épidémique. Une
alternative statistique est d’aborder la courbe par une modélisation « ARIMA », approche utilisée
couramment en prévision de séries temporelles. Pour ce faire, uniquement l'Italie a été prise en compte car
le recul en nombre de points est plus grand, le confinement ayant débuté avant et l’observation des données
récentes de la série montre une série moins volatile que la série française. Cette modélisation suppose que
les données sont observées à mesures sanitaires égales.

Le modèle postulé est basé sur les techniques de régression ARIMAX, il est estimé sur les observations post
confinement après redescente du rythme épidémique, soit 26 points jours - du 19 mars au 13 avril inclus.
Les 7 points du 14 au 20 avril sont observés et prédits (courbes en pointillés) et constituent « une première
validation », les points au-delà sont des prévisions.
INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
Figure 7 : Modélisation et prévision des nouveaux cas positifs en Italie, données observées et arrêtées au 20/04/2020 source ECDC

Ce modèle repose sur peu de points de mesure, presque 4 semaines d’observation. Lorsque nous changeons
des hypothèses ou modifions le nombre de points d’entraînement, les prévisions varient fortement. Les
points « de validation » montrent d’ailleurs que le modèle surestime plusieurs journées consécutives ce qui
est le signe d’un changement potentiel de structure.

Malgré ses faiblesses, ce modèle permet d’établir une seconde projection sur l’évolution de l’épidémie : en
Italie le nombre de nouveaux cas se situerait entre 1500 et 3100 le 30 avril 2020 avec une confiance de 80%.
Le modèle sigmoïde, le plus pessimiste, prévoit une estimation ponctuelle proche de 1000 cas fin avril.

Nos deux modèles aboutissent à des conclusions différentes car le modèle sigmoïde trace une décroissance
plus forte.

  Les projections établies dans notre analyse montrent que si la fin de l’épidémie est esquissée, la forme
  de la décroissance est encore incertaine et les projections les plus optimistes sur la France montrent
  une extinction de la première vague épidémique courant mai. Cette projection s’inscrit dans un
  contexte de politique sanitaire toujours très strict.

  L’analyse proposée dans cet article repose sur l’exploitation des données ouvertes, fournies par
  l’agence Santé Publique France et l’agence européenne ECDEC. De nombreuses autres données sur
  l’hospitalisation ou sur la mortalité, par exemple, sont disponibles provenant de l’agence Santé Publique
  France et de l’INSEE. Cette transparence de l’information est essentielle dans la gestion de la crise
  et permet aux analystes, statisticiens, data scientists et journalistes de démultiplier les usages pour
  contribuer pédagogiquement à décrypter la crise.

N OT R E M I S S I O N
Devenir le master partner des entreprises dans la constitution d’un patrimoine data, sa réconciliation, son
enrichissement et son exploitation marketing afin de les propulser au plus vite dans l’ère de la mass personnalisation.

                                   S U I V E Z- N O US                         CO N TAC T E Z- N O US
                                        EPSILON France                         contact@epsilon-france.com
                                        @epsilondatamktg                       www.epsilon-france.com
INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
Vous pouvez aussi lire