INSIGHT DÉCRYPTAGE STATISTIQUE DE L'ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE - Epsilon
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
INSIGHT DÉCRYPTAGE STATISTIQUE DE L’ÉVOLUTION ÉPIDÉMIQUE EN FRANCE ET EN ITALIE Par Damien Garrouste EPSILON France Il n’aura échappé à personne que la crise sanitaire due au COVID-19 est fortement décrite et pilotée par la data, la manifestation la plus éclatante en ayant été la prise en compte dans la décision française de confinement des projections établies par modélisation, par une équipe anglaise de « l’Imperial College ». Souhaitant comprendre et m’approprier les ressorts de l’épidémie, j’ai analysé les données relatives à la dynamique de l’épidémie et cherché comment établir des projections sur sa fin. L’analyse porte sur les cas confirmés de COVID-19 consolidés par l’agence européenne ECDC, les données françaises provenant de l’agence publique Santé Publique France. Précisons que n’étant pas spécialiste en modélisation épidémiologique, les analyses présentées ci-dessous sont purement fondées sur les données, pour lesquelles le nombre nous semble suffisant aujourd’hui pour procéder à un ajustement statistique. L’analyse n’intègre donc pas d’hypothèses, de connaissances et de modèles de propagation tels que dans celles réalisées par les épidémiologistes. À noter également que les volumes de cas présentés ci-dessous sont un minorant du phénomène réel. Nous savons en effet qu’il y a plus de cas que ceux remontés, mais ce qui prime dans l'analyse statistique n'est pas tant le volume de cas en valeur absolue que la capacité de ces données à décrire la forme de la courbe épidémique. Or, si nous faisons l’hypothèse que les données de cas observés suivent une définition stable dans le temps alors nous pouvons analyser voir modéliser pour établir des projections. Le graphique ci-dessous montre la courbe épidémique en cas cumulés puis en nouveaux cas quotidiens en Chine. S'appuyer sur le cas de la Chine, point de départ de l'épidémie et où la première vague est terminée, permet d'observer des données qui décrivent complément la courbe épidémique. Aux données observées, nous avons ajouté un ajustement statistique basé sur une forme. La forme sigmoïde est communément admise comme la forme décrivant le mieux la croissance d’une population, ici les cas testés positifs au COVID-19. L’ajustement ne suit pas complètement la courbe observée, cependant il restitue bien la forte hausse et forte baisse de l’épidémie. À noter que le pic élevé de mi-février est un point extrême dû à une reprise d’historique dans le Hubei suite à un changement de définition dans la notion de cas confirmés.
Figure 1 : courbe observée et estimée épidémie COVID-19 en Chine, données observées et arrêtées au 10/04/2020 source ECDC Nous cherchons à appliquer ce même type d’ajustement au cas européen et nous observons le même type de phénomène. Cependant l’observation des données est partielle puisque nous venons tout juste de dépasser le pic épidémique, un palier semble se former. La redescente parait plus lente et les différences de politiques sanitaires y contribuent certainement. Cette incertitude nous a amené à postuler un second modèle en concurrence, basé sur une formulation de fonction dite de Gompertz. Cette dernière, contrairement à la fonction logistique, a la propriété de redescendre plus lentement qu’elle n’a crû, cela peut donc être un modèle qui pourrait correspondre à l’observation de l’épidémie en Europe. Nous constatons à date une forte volatilité sur les cas observés qui nous impose une certaine prudence. L’examen graphique montre qu’il est difficile de trancher définitivement entre les deux modèles. Figure 2 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 13/04/2020 source ECDC Le graphique ci-dessus montre l’ajustement en prenant en compte les données jusqu’au 13 avril inclus. Si nous prenons en compte une semaine de plus jusqu’au 20 avril , nous observons un ajustement très proche, où le modèle logistique se revèle plus adapté à la chute des nouveaux cas ces derniers jours.
Figure 3 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 20/04/2020 source ECDC En revanche en Italie, le modèle de Gompertz est plus adapté. Il suit mieux la décroissance lente qui est observée dans les chiffres, alors que le modèle logistique anticipe une décroissance plus marquée qui ne se vérifie pas. Figure 4 : courbe observée et estimée de l’épidémie COVID-19 en Italie, données observées et arrêtées au 20/04/2020 source ECDC Pour aller plus loin et déterminer une estimation de fin de vague épidémique, nous avons projeté les modèles sur les prochaines semaines. Figure 5 : courbe observée et estimée de l’épidémie COVID-19 en Italie, données observées et arrêtées au 20/04/2020 source ECDC
Si nous optons pour le modèle de Gompertz en Italie à mesures sanitaires identiques, l'épidémie prendrait fin courant juin, du moins pour la première vague (environ 210k cas confirmés seraient comptabilisés). Notons que nous n’avons pas établi d’intervalle de confiance sur cette estimation. Pour la France, le modèle pessimiste (courbe verte) nous indique alors, à mesures sanitaires identiques, que la première vague épidémique se terminerait mi-juin (pour environ 140k confirmés). Le modèle en bleu, plus optimiste, montre une extinction début mai, avec un plafonnement à 120k cas confirmés. Figure 6 : courbe observée et estimée de l’épidémie COVID-19 en France, données observées et arrêtées au 20/04/2020 source ECDC Rappelons que les volumes de cas cités ici sont exprimés selon la définition des cas sévères recensés par les statistiques publiques des différents pays. Bien entendu, l’ajustement dépend des données et il n’est pas du tout certain que la courbe épidémique en Italie et en France suive la redescente proposée par ces modèles basés uniquement sur de seules fonctions mathématiques. Cette première approche repose sur un postulat de forme sigmoïde de la courbe épidémique. Une alternative statistique est d’aborder la courbe par une modélisation « ARIMA », approche utilisée couramment en prévision de séries temporelles. Pour ce faire, uniquement l'Italie a été prise en compte car le recul en nombre de points est plus grand, le confinement ayant débuté avant et l’observation des données récentes de la série montre une série moins volatile que la série française. Cette modélisation suppose que les données sont observées à mesures sanitaires égales. Le modèle postulé est basé sur les techniques de régression ARIMAX, il est estimé sur les observations post confinement après redescente du rythme épidémique, soit 26 points jours - du 19 mars au 13 avril inclus. Les 7 points du 14 au 20 avril sont observés et prédits (courbes en pointillés) et constituent « une première validation », les points au-delà sont des prévisions.
Figure 7 : Modélisation et prévision des nouveaux cas positifs en Italie, données observées et arrêtées au 20/04/2020 source ECDC Ce modèle repose sur peu de points de mesure, presque 4 semaines d’observation. Lorsque nous changeons des hypothèses ou modifions le nombre de points d’entraînement, les prévisions varient fortement. Les points « de validation » montrent d’ailleurs que le modèle surestime plusieurs journées consécutives ce qui est le signe d’un changement potentiel de structure. Malgré ses faiblesses, ce modèle permet d’établir une seconde projection sur l’évolution de l’épidémie : en Italie le nombre de nouveaux cas se situerait entre 1500 et 3100 le 30 avril 2020 avec une confiance de 80%. Le modèle sigmoïde, le plus pessimiste, prévoit une estimation ponctuelle proche de 1000 cas fin avril. Nos deux modèles aboutissent à des conclusions différentes car le modèle sigmoïde trace une décroissance plus forte. Les projections établies dans notre analyse montrent que si la fin de l’épidémie est esquissée, la forme de la décroissance est encore incertaine et les projections les plus optimistes sur la France montrent une extinction de la première vague épidémique courant mai. Cette projection s’inscrit dans un contexte de politique sanitaire toujours très strict. L’analyse proposée dans cet article repose sur l’exploitation des données ouvertes, fournies par l’agence Santé Publique France et l’agence européenne ECDEC. De nombreuses autres données sur l’hospitalisation ou sur la mortalité, par exemple, sont disponibles provenant de l’agence Santé Publique France et de l’INSEE. Cette transparence de l’information est essentielle dans la gestion de la crise et permet aux analystes, statisticiens, data scientists et journalistes de démultiplier les usages pour contribuer pédagogiquement à décrypter la crise. N OT R E M I S S I O N Devenir le master partner des entreprises dans la constitution d’un patrimoine data, sa réconciliation, son enrichissement et son exploitation marketing afin de les propulser au plus vite dans l’ère de la mass personnalisation. S U I V E Z- N O US CO N TAC T E Z- N O US EPSILON France contact@epsilon-france.com @epsilondatamktg www.epsilon-france.com
Vous pouvez aussi lire