1ère École d'été en Statistique et Science des Données pour les jeunes chercheurs d'Afrique francophone - M'Bour, Sénégal 1-5 juillet 2019
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
1ère École d’été en Statistique et Science
des Données pour les jeunes chercheurs
d’Afrique francophone
M’Bour, Sénégal
1–5 juillet 2019Bienvenue !
Le comité d’organisation de la première école d’été en Statistique et science des
données est ravi de vous accueillir au centre AIMS (African Institute for Mathema-
tical Sciences) Sénégal de M’bour. Cette manifestation scientifique a été initiée par
les membres de la cellule internationale du groupe Jeunes Statisticiens de la Société
Française de Statistique (SFdS) de concert avec la Présidence de AIMS-Sénégal.
AIMS est un réseau panafricain de centres d’excellence pour la formation post-
universitaire, la recherche et l’engagement public en Sciences mathématiques et ses
applications. AIMS-Sénégal abrite par ailleurs un centre de recherche qui supervise
et finance la recherche doctorale et post-doctorale des africains sous la tutelle d’une
prestigieuse Chaire de Recherche en Mathématiques et ses Applications.
Le groupe Jeunes Statisticiens est une sous structure de la SFdS qui se donne pour
missions, d’une part, d’encourager les échanges scientifiques entre les jeunes sta-
tisticiens et experts en sciences des données que ce soit à l’échelle nationale ou
internationale et, d’autre part, de les aider à mettre en place un réseau profes-
sionnel. Ces missions s’intègrent quant à elles dans les missions plus globales de la
SFdS : promouvoir l’utilisation et la compréhension des statistiques et encourager
ses développements méthodologiques.
Dans le cadre de leurs missions respectives, la SFdS à travers sa cellule interna-
tionale du groupe jeunes statisticiens et AIMS-Sénégal en partenariat avec la Chaire
de Mathématiques et ses Applications co-organisent cette école d’été pour les jeunes
chercheurs d’Afrique francophone. Leur volonté est de donner aux jeunes chercheurs
africains évoluant dans le domaine des sciences de données un cadre d’échange au-
tour des travaux de recherche innovants. Au cours de la semaine, trois cours de
science des données seront proposés, ainsi que des présentations de conférenciers
invités et enfin des exposés d’une partie des participants eux-mêmes.
Ce livret contient les résumés des cours, conférences et communications sélec-
tionnées par le comité scientifique. Nous remercions tous les participants pour avoir
soumis leurs résumés de travaux de recherche ainsi que les membres du comité scien-
tifique pour son travail de sélection. Nous sommes également reconnaissants envers
tous les professeurs et conférenciers invités qui ont accepté notre invitation et pré-
paré des cours et conférences riches et de haut niveau sur des thèmes porteurs en
Afrique et suscitant un engouement dans nos communautés de recherche.
La préparation de cette école s’est en partie déroulée à AIMS Sénégal, institut
de rattachement de la moitié des membres du comité d’organisation. Elle a aussi
bénéficié du soutien humain et logistique des membres du groupe Jeunes Statis-
3ticiens de la SFdS auquel est rattachée la seconde moitié des membres du comité
d’organisation. Par ailleurs, l’événement n’aurait pu avoir lieu sans le soutien de
tous nos partenaires et sponsors sans oublier les conseils bienveillants de chercheurs
expérimentés de la SFdS. Nous adressons à tous nos chaleureux remerciements.
Nous vous souhaitons une semaine très enrichissante sur le plan scientifique et
un séjour agréable à M’Bour au Sénégal.
L’ensemble des membres du comité d’organisation.
4Comités d’organisation
Le comité scientifique et d’organisation de la première école d’été en statistique et
science des données est constitué de membres suivants :
— Mouhamad M. Allaya (Docteur en Mathématiques appliquées à l’Université
de Paris 1 Pantheon-Sorbonne et Tuteur à l’African Institute for Mathema-
tical Sciences (AIMS) du Sénégal)
— Aurore Archimbaud (Docteure en Statistique, Data Scientist - Statisticienne
chez ippon innovation, membre du groupe Jeunes Statisticiens de la Société
Française de Statistique (SFdS))
— Emilie Devijver (Docteure en Statistique, chargée de Recherche CNRS au
Laboratoire d’Informatique de Grenoble et à l’Université Grenoble Alpes,
membre du groupe Jeunes Statisticiens de la Société Française de Statistique
(SFdS))
— Modibo Diabaté (Doctorant au Laboratoire Jean Kuntzmann et à l’Univer-
sité Grenoble Alpes, membre du groupe Jeunes Statisticiens de la Société
Française de Statistique (SFdS))
— Charlotte Dion (Maître de conférences au laboratoire de Probabilités, Statis-
tique et Modélisation et à Sorbonne Université, membre du groupe Jeunes
Statisticiens de la Société Française de Statistique (SFdS))
— Mame Diarra Fall (Maître de conférences à l’Institut Denis Poisson et à l’Uni-
versité d’Orléans)
— Mouhamed Moustapha Fall (Professeur de Mathématiques et Chaire en Ma-
thématiques et ses applications à l’African Institute for Mathematical Sciences
(AIMS) du Sénégal)
— Franck Kalala Mutombo (Professeur associé à l’Universite de Lubumbashi
(DRC) et Directeur Académique de l’African Institute for Mathematical Sciences
(AIMS) du Sénégal)
— Oumy Niass (Docteure en Statistique appliquée à l’Université Gaston Ber-
ger de Saint-Louis et Tutrice à l’African Institute for Mathematical Sciences
(AIMS) du Sénégal)
— Myriam Tami (Enseignante chercheuse à CentraleSupélec, membre du groupe
Jeunes Statisticiens de la Société Française de Statistique (SFdS))
— Amidou Traoré (Etudiant en Master 2 aux méthodes statistiques et écono-
métriques à l’Université Cheikh Anta Diop (UCAD) de Dakar)
56
Table des matières
Bienvenue ! 3
Résumés des cours 1
Cours 1 - Introduction au Deep Learning (Pr. Thierry Artières) . . . . . . 1
Cours 2 - Analyse de données spatiales massives. Applications à la santé,
à l’hydro-météorologie et à l’océanologie. (Pr. Sophie Dabo-Niang) . . 1
Cours 3 - Introduction à l’apprentissage ciblé (Pr. Antoine Chambaz ) . . . 2
Résumés des présentations des invités 3
Inférence statistique des mesures de risques extrêmes et Applications (Dr.
El Hadji Deme) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Prévision des séries temporelles multivariées par des réseaux de neurones
quasi-aléatoires (Dr. Thierry Moudiki) . . . . . . . . . . . . . . . . . 4
Statistique bayésienne en imagerie (Dr. Mame-Diarra Fall ) . . . . . . . . . 4
Session spéciale structures invitées () . . . . . . . . . . . . . . . . . . . . . 5
Table ronde : “Que faire après des études en Statistique au Sénégal ?" () . . 5
Résumés des présentations des participants 7
Normalité asymptotique des statistiques de tests des indices relatifs de
dispersion et de variation (Toure Aboubacar Yacouba, Dossou-Gbété
Simplice, Kokonendji Célestin C.) . . . . . . . . . . . . . . . . . . . . 7
Robust estimation in multivariate nonlinear regression with multilayer per-
ceptron neural networks (Hounmenou Gbememali Castro, Gneyou E.
Kossi and Glele KakaÏ L. Romain) . . . . . . . . . . . . . . . . . . . 7
Longitudinal data analysis : fitting an optimal variance-covariance struc-
ture under linear mixed effects models framework. (Amagnide Aubin
Guénolé, Gbeha Micheline, Glèlè Kakaï Romain) . . . . . . . . . . . 8
Block clustering of Binary Data with Gaussian Co-variables (Sylla Seydou
Nourou, Iovleff Serge, Loucoubar Cheikh) . . . . . . . . . . . . . . . . 9
Kernel based method for the k-sample problem (Balogoun Armando Sos-
thène Kali, Nkiet Guy Martial, Ogouyandjou Carlos) . . . . . . . . . 9
Essai sur les modèles financiers appliqués à la BRVM : cas de Fama et
French (Alhassane Garba Abdoulaziz ) . . . . . . . . . . . . . . . . . . 9
Inference in a Marginalized zero-inflated binomial regression model (Ali Es-
soham, Aliou Diop and Jean-Franc[Pleaseinsertintopreamble]ois Du-
puy) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
7Modélisation des effets spatiaux du divorce au Sénégal à travers le modèle
de Durbin spatial : une approche par maximum de vraisemblance.
(Aw Alassane) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Improving Value at Risk and expected shortfall estimation with time va-
rying unconditional variance models (Ben Hajria Raja) . . . . . . . . 11
Estimation récursive de l’indice des valeurs extrêmes (Ben Khadher Fatma,
Yousri Slaoui) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Statistical comparison between the distributions of some jumps models and
the dynamic of the market stock index price S&P 500 (Frihi Zahrate
El Oula) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Construction de surface de volatilités implicites en utilisant une méthode
de la statistique spatiale : le krigeage. (Gueye Djibril ) . . . . . . . . . 13
Consistent model selection criteria for affine causal processes and goodness-
of-fit test (Kamila Karé) . . . . . . . . . . . . . . . . . . . . . . . . . 13
On change-point detection in volatile series using GARCH models (Kat-
chekpele Edoh, Kossi Gneyou and Abdou Kâ Diongue) . . . . . . . . 14
Les méthodes duales d’analyse factorielle d’un multi-tableau horizontal
(Moulogho Issayaba Lavie Phanie) . . . . . . . . . . . . . . . . . . . . 14
Improved Laplace Approximation EM algorithm for fitting nonlinear mixed
effects models : empirical performance (Honfo Sewanou Hermann,
Tovissode Chénangnon, Glèlè Kakaï Romain ) . . . . . . . . . . . . . 15
Nonparametric estimation of the failure rate in a model of lifetimes (Agbo-
kou Komi, Gneyou Kossi) . . . . . . . . . . . . . . . . . . . . . . . . 16
Logos des sponsors et soutiens 17
Index des auteurs 19
8Résumés des cours
Cours 1 - Introduction au Deep Learning
Pr. Thierry Artières1
1 Ecole Centrale Marseille et Université d’Aix-Marseille - Laboratoire d’Informatique et
Systèmes (LIS)
Ce cours est un cours d’introduction au Deep Learning. Le Deep Learning est un
domaine du Machine Learning qui s’intéresse à l’apprentissage de représentations et
à l’apprentissage de modèles de type réseaux de neurones. Ces modèles ont permis
des avancées spectaculaires pour des données structurées variées de type images,
vidéos, sons, textes et séquences.
Le cours introduira tout d’abord les architectures neuronales classiques, percep-
trons multicouches, réseaux conventionnels et réseaux récurrents, et illustrera le
fonctionnement de ces modèles sur des jeux de données classiques en empruntant
des exemples aux architectures classiques publiées ces dernières années. Il s’atta-
chera à montrer le rôle de la profondeur dans les architectures neuronales profondes
et passera en revue les stratégies algorithmiques et structurelles employées pour
dépasser les problèmes d’optimisation posés par ces modèles. Le cours abordera es-
sentiellement l’apprentissage supervisé, à travers des tâches de classification, et l’ap-
prentissage non supervisé, via des stratégies d’adversarial learning. Enfin le cours
évoquera des thématiques récentes explorées dans le domaine de l’apprentissage pro-
fond, notamment l’explicabilité, l’adaptation de domaine et l’apprentissage à partir
de peu de données.
Cours 2 - Analyse de données spatiales massives.
Applications à la santé, à l’hydro-météorologie et à
l’océanologie.
Pr. Sophie Dabo-Niang1
1 Université Charles de Gaulle (Lille 3) - Laboratoire Lille Economie Management (LEM),
(France)
La statistique spatiale regroupe des techniques statistiques qui étudient des phéno-
mènes observés sur des ensembles spatiaux. Ces phénomènes se manifestent dans
de nombreux domaines tels que l’épidémiologie, les sciences de l’environnement et
bien d’autres. La modélisation de ce type de données figure parmi les sujets de re-
cherche les plus intéressants en analyse de données dépendantes. Ceci est motivé par
1le nombre croissant de situations provenant de différents domaines où les données
sont de nature spatiale.
Nous nous intéressons dans ce cours à introduire la méthodologie et l’application de
modèles statistiques spatiaux à de jeunes chercheurs et étudiants en doctorat. Plus
précisément, l’objectif de ce cours est de fournir une introduction à la statistique
spatiale, d’apprendre à modéliser et à intégrer les dépendances spatiales dans les
analyses de données spatiales. Le cours couvrira des sujets tels que :
— L’analyse exploratoire des données spatiales
— Les modèles de régression et prédiction spatiales
— Les méthodes d’estimation
— Les choix et spécification des modèles
Certains des modèles et méthodes spatiaux vus dans le cours seront appliqués en
hydro-météorologie, océanologie et santé. Cette partie pratique se fera avec le logiciel
R.
Références :
1. Anselin L. (1988), Spatial econometrics : Methods and models. Kluwer Academic-
Publishers.
2. Chilés J-P et Delfiner, P. (2012), Geostatistics : Modeling Spatial Uncertainty,
2nd Edition, Wiley.
3. Cressie, N et Wikle, C-K. (2011), Statistics for spatio-temporal data. Wiley.
4. Cressie, N. (2015), Statistics for spatial data. Revised Edition. Wiley.
Cours 3 - Introduction à l’apprentissage ciblé
Pr. Antoine Chambaz1
1 Université Paris Descartes, Laboratoire Mathématiques Appliquées Paris 5 (France)
Ce cours introduit les rudiments de l’apprentissage ciblé, au croisement du "ma-
chine learning" et de la statistique semi-paramétrique. Un package R dédié permet
d’illustrer et d’étayer la théorie, et facilite le développement d’une intuition. Des
rudiments de programmation R sont donc bienvenus, quoique non indispensables.
Le plan est le suivant :
1. Introduction
2. Le paramètre d’intérêt
3. Régularité
4. Double-robustesse
5. Inférence
6. Une stratégie inférentielle simple
7. Paramètres de nuisance
8. Analyse d’estimateurs de substitution
9. Corrections à un pas
10. Inférence par minimisation ciblée de pertes
2Résumés des présentations des
invités
Inférence statistique des mesures de risques extrêmes et
Applications Mardi
2 Juillet
Dr. El Hadji Deme1 14h30-15h30
1 UFR des Sciences Appliquées et Technologie de l’Université Gaston Berger de Saint
Louis
Les compagnies de réassurance assurent un rôle économique essentiel par la four-
niture d’une couverture de risques assumés pour leurs clients. Les risques extrêmes
se définissent comme des risques dont on ne sait pas si le système d’assurance sera
capable de les supporter, par exemple les ouragans, les incendies, les tremblements
de terre, les attentats terroristes etc. et sont généralement responsables de la grande
partie des indemnités versées par les compagnies de réassurance. Ainsi, l’attention
des actuaires se porte en priorité sur ces risques qualifiés de majeurs et caractérisés
par une faible fréquence et une extrême gravité sur les dommages qu’ils provoquent.
Ceux pour lesquels la survenance d’un sinistre, que l’on peut qualifier d’exception-
nel, aurait une incidence sur le taux de prime pure moyen des sous portefeuilles et
mettrait à mal les résultats de la société d’assurance. On pourra se référer à Griselda
et Guillaume (2006) et Centeno et Guerra (2010). Un exemple de tel problème a été
discuté dans Ceberián et al. (2003) sur les montants de revendications d’assurance
médicale.
Pour cela, les statistiques traditionnelles notamment le théorème central limite,
la loi des grands nombres qui étudient un phénomène à travers son comportement
moyen, caractérisent mal ces extrêmes. Elles fournissent uniquement des indications
sur la distribution générale d’un phénomène, et donc elles ne donnent que très peu
d’informations sur la queue de distribution. Cette méthode peut ne pas fonctionner
correctement si le portefeuille contient des risques hétérogènes. C’est ainsi que les
actuaires trouvent que le secteur entier de la réassurance est une application très
importante de la théorie des valeurs extrêmes, puisqu’on doit toujours sauvegarder
une compagnie d’assurance contre les revendications excessives qui peuvent mettre
en danger la solvabilité du portefeuille (voir par exemple Ceberián et al. (2003)).
McNeil (1997) et Rootzen et Tajvidin (1997) montrent que l’application de la théorie
des valeurs extrêmes donne un cadre plus systématique, rigoureux et cohérent que
les méthodes classiques. En effet, cette méthode permet de déduire la distribution
des extrêmes à partir de la distribution totale, sans traiter séparément les extrêmes
des risques récurrents. Ces événements appartiennent à ce que l’on appelle la « queue
3de distribution », ce qui veut dire que l’on dispose de très peu d’observations pour
caractériser les distributions de probabilité. Donc, il est important de bien modéliser
les queues de distributions pour éviter les erreurs grossières de tarification. La modé-
lisation de ces observations par la distribution normale a été longtemps utilisée dans
la gestion du risque. Cependant, les études empiriques concluent que les données
financières et actuarielles présentent des déviations systématiques de la normalité
et leurs distributions ont généralement une queue plus lourde que celle du modèle
Gaussien.
Prévision des séries temporelles multivariées par des réseaux
Jeudi de neurones quasi-aléatoires
4 Juillet
14h30-15h30 Dr. Thierry Moudiki1
1 Laboratoire de sciences actuarielles et financières (LSAF) de l’université Lyon 1 (France)
Nous nous intéressons à des modèles hybrides entre régression linéaire pénalisée, et
réseaux de neurones à une couche cachée. Ces types de modèles, en plus de leur
capacité à produire des prévisions non-linéaires, ont pour avantages d’être rapides
à entraîner et relativement simples à interpréter. Une application à la prévision de
séries temporelles multivariées est présentée.
Vendredi Statistique bayésienne en imagerie
5 Juillet
14h30-15h30 Dr. Mame-Diarra Fall1
1 Université d’Orléans (France)
On s’intéresse à divers problèmes de traitement et de reconstruction d’images dans
un cadre statistique dit bayésien. L’approche bayésienne permet de prendre en
compte la connaissance a priori sur les paramètres du modèle et d’inférer sur leurs
lois a posteriori. À travers divers exemples, on montrera comment la statistique
bayésienne est incontournable en imagerie.
4Session spéciale structures invitées Jeudi
4 Juillet
15h30-17h30
Dans la session spéciale, nous aurons le plaisir d’accueillir les structures suivantes :
— ANSD : http://www.ansd.sn/ de 15h30 à 16h
— ENSAE : http://www.ensae.sn/ de 16h à 16h30
— IREMPT : https://irempt.ucad.sn/ de 16h30 à 17h
— Senegal FlyingLab : https://flyinglabs.org/senegal/ de 17h à 17h30
Chacune de ces structures fera une présentation sur l’usage des sciences des don-
nées dans leurs activités et éventuellement l’insertion de futur diplômés en statistique
dans le marché de l’emploi. Il sera également le lieu d’échanger avec les participants
dans leur domaine respectif de recherche afin de susciter d’éventuelles perspectives
de collaboration ou d’embauche.
Table ronde : “Que faire après des études en Statistique au
Sénégal ?" Jeudi
4 Juillet
17h30-18h30
L’objectif de cette table ronde est de permettre un échange autour des perspectives
professionnelles au Sénégal suite à l’obtention de diplômes en Statistique.
56
Résumés des présentations des
participants
Normalité asymptotique des statistiques de tests des indices
relatifs de dispersion et de variation Lundi
1 Juillet
Toure Aboubacar Yacouba1 , Dossou-Gbété Simplice2 , Kokonendji Célestin C.3 12h00-12h30
1 Université Bourgogne Franche-Comté (France), 2 Université Bourgogne Franche-Comté
(France), 3 Université de Pau et des Pays de l’Adour (France)
A partir des indices de dispersion relatives aux lois de Poisson et binomiale pour les
données de comptage et, récemment, de l’indice de variation exponentielle pour les
données continues positives, nous introduisons d’abord la définition unifiée à l’in-
dice de variabilité relative à une famille exponentielle naturelle positive à travers
sa fonction variance. Ensuite, nous montrons la normalité asymptotique des statis-
tiques de tests correspondantes et donnons des exemples applicables. Des études de
simulations ont mis en évidence de bons comportements de ces statistiques de tests
asymptotiques. Des remarques finales sont faites avec de possibles extensions.
Mots Clés. Loi continue, loi de comptage, famille exponentielle, fonction variance.
Robust estimation in multivariate nonlinear regression with
multilayer perceptron neural networks Lundi
1 Juillet
Hounmenou Gbememali Castro1 , Gneyou E. Kossi2 and Glele KakaÏ L. Romain3 12h30-13h
1Laboratoire de Biomathématiques et d’Estimations Forestières, 2 Institut des
Mathématiques et des Sciences Physiques, Université d’Abomey-Calavi, (Bénin), Faculté
des Sciences (FDS), Université de Lomé (Togo), 3 Laboratoire de Biomathématiques et
d’Estimations Forestières, Université d’Abomey-Calavi (Bénin)
Multilayer perceptron neural networks (MLP) are a very rich family of nonlinear
functions whose main characteristic is to allow a great modeling flexibility among
the nonlinear regression functions. For empirical data involving a high proportion
of contaminated observations with errors whose magnitude and structure may be
arbitrary, robust estimators in the breaking point sense are generally defined as
the overall minimum of some non-convex measure of errors. Thus, the problem of
global optimization of learning algorithms used in MLP arises. The taking into
account of noises in the learning process, most of the time is supposed to have a
7standard normal distribution as considered by Badran et al. (2002) in their work,
using Bayesian approach. This hypothesis is arbitrary if not false due to the nature of
some data or certain field applications. In this paper, we give an extension their work
based on a multivariate distribution as hypothesis, which allowing for a multiple
continuous variation from normality to non-normality. The main goal of this work
to build a determinist model in order to find the "real" relationship which binds
inputs to outputs variables ; to defined a new algorithm based on back propagation of
gradient of errors for learning of these types of dataset and to showed the asymptotic
behavior of parameters estimated of the non-linear regression function. At the last,
we presented an application case.
Mots Clés. Nonlinear regression., learning algorithm, imprecise data, Multilayer
perceptron.
Longitudinal data analysis : fitting an optimal
variance-covariance structure under linear mixed effects
Lundi models framework.
1 Juillet
16h00-16h30 Amagnide Aubin Guénolé1 , Gbeha Micheline2 , Glèlè Kakaï Romain3
1 Laboratoire
de Biomathématiques et d’Estimations Forestières (LABEF) (Bénin),
2 Départementde Mathématiques, Faculté des Sciences et Techniques, Université
d’Abomey-Calavi, République du Bénin (Bénin), 3 Laboratoire de Biomathématiques et
d’Estimations Forestières (LABEF) (Bénin)
In this study, we (i) assessed the performance of 5 fit statistics (AIC, BIC, HQIC,
CAIC and AICC) to determine the correct within-subject covariance structure (WSCS)
in longitudinal data analysis and (ii) investigated the consequence of misspecifica-
tion of WSCS. Firstly, a simulation study was achieved in 192 cases taking into
account six characteristics of the data sample (sample size, measurement periods,
magnitude of growth parameter, size of G matrices, covariance structure and distri-
bution of the within-subject error). For each combination of these parameters, 500
replications were generated using Monte Carlo procedure and the hit rate of each
of the 5 search statistics is computed and help to compare their performance. At a
second step, based on 32 restricted simulation conditions, the effect of misspecifica-
tion in WSCS was assessed by computing the mean relative bias and mean relative
errors of the coefficients of fixed effects and random components. Results showed an
overall best performance of the HQIC, BIC and CAIC for searching first order auto-
regressive [AR(1)] and first order moving average [MA(1)] covariance structures.
Mots Clés. Fit statistics, subject covariance structure, within, Repeated measure-
ments, misspecification, Monte Carlo experiments.
8Block clustering of Binary Data with Gaussian Co-variables Lundi
1 Juillet
Sylla Seydou Nourou1 , Iovleff Serge2 , Loucoubar Cheikh3 18h-18h30
1 Institut Pasteur, Dakar (Sénégal), 2 UMR 8524 - INRIA, Univerité Lille 1 (France),
3 Institut Pasteur (Sénégal)
The simultaneous grouping of rows and columns is an important technique that
is increasingly used in large-scale data analysis. In this paper, we present a novel
co-clustering method using co-variables in its construction. It is based on a latent
block model taking into account the problem of grouping variables and clustering
individuals by integratin information given by sets of co-variables. Numerical expe-
riments on simulated data sets and an application on real genetic data highlight the
interest of this approach.
Mots Clés. Model based, coclustering, block mixture model, BEM, coclustering
with covariables.
Kernel based method for the k-sample problem Mardi
2 Juillet
Balogoun Armando Sosthène Kali1 , Nkiet Guy Martial2 , Ogouyandjou Carlos3 10h-10h30
1 Institut
de Mathématiques et de Sciences Physique (IMSP) de Dangbo (Bénin) (Bénin),
2 Université
des Sciences et Techniques de Masuku, Franceville, Gabon (Gabon), 3 Institut
de Mathématiques et de Sciences Physiques (IMSP) de Dangbo (Bénin) (Bénin)
In this presentation we deal with the problem of testing for the equality of k pro-
bability distributions dened on (X ; B), where X is a metric space and B is the
corresponding Borel -eld. We introduce a test statistic based on reproducing ker-
nel Hilbert space embeddings and derive its asymptotic distribution under the null
hypothesis. Simulations show that the introduced procedure outperforms known me-
thods.
Mots Clés. Hypothesis testing, k sample problem, Reproducing kernel Hilbert
space, Asymptotic distribution.
Essai sur les modèles financiers appliqués à la BRVM : cas de
Fama et French Mardi
2 Juillet
Alhassane Garba Abdoulaziz1 10h30-11h
1 Laboratoire de Mathématique de la Décision et d’Analyse Numérique (Sénégal)
Dans le présent papier, il est question d’étudier les rendements des actions en s’inté-
ressant particulièrement à la catégorisation des actions. En effet, nous nous sommes
intéressées à l’application de cinq modèles, à savoir le MEDAF1, le modèle de Born-
holt, le Downside Risk MEDAF (2002), les deux modèles de Fama et French de 1993
et 2015, pour évaluer les actions de la BRVM. On a utilisé aussi, une technique d’es-
timation, le Quantile Régression (QR) vu que les données ne sont pas gaussiennes.
Ainsi, il ressort de ces estimations que globalement toutes les régressions débouchent
9sur des meilleurs modèles. Mais, lorsqu’on considère uniquement la statistique de R-
deux, manifestement, les deux modèles de Fama-French (93, 2015) se démarquent du
lot. Et, s’il faut choisir entre les cinq modèles, le modèle à trois facteurs de Fama et
French semble être le meilleur modèle optimal pour le cas des actions de la BRVM,
dans lequel le facteur bêta de marché est considéré comme un facteur de rentabilité,
de même que SMB pour les portefeuilles SL, SM et SH. Toutefois, on constaté que
selon les résultats du modèle de Fama-French (93 et 2015), les portefeuilles à petite
capitalisation boursières (Small) sont plus rentables que les grandes capitalisation
(Big).
Mots Clés. Fama, French, Bornholt, Downside Risk MEDAF, MEDAF, QR et
BRVM.
Inference in a Marginalized zero-inflated binomial regression
Mardi model
2 Juillet
15h30-16h Ali Essoham1 , Aliou Diop1 and Jean-Franc¸ois Dupuy2
1 Universityof Gaston Berger, Saint-Louis, LERSTAD, Senegal
2 University of Rennes, INSA Rennes ,CNRS, IRMAR - UMR 6625, France
Data sets with excess zeroes are frequently analyzed in many disciplines. A com-
mon framework used to analyze such data is the zero-inflated (ZI) regression model.
Marginal zero-inflated binomial regression (MZIB) model was recently proposed to
directly model the mean of the reponse variable. The details of maximum likelihood
estimation via the EM algorithm are presented and simulations suggest that the re-
sulting estimates behave well. However, theoritical properties of the MLE in MZIB
regression have not yet been rigorously established. Such results are however essential
for ensuring reliable statistical inference and decision-making. This paper presents
a marginalized ZIB model to directly model the mean of the mixture distribution
consisting of "susceptible" individuals and excess zeroes, providing straightforward
inference for overall exposure effects.. Consistency and asymptotic normality of the
MLE in MZIB regression are proved. A simulation study is conducted to assess
finite-sample behaviour of the estimator. Finally, an analysis of a data set in the
field of health economics illustrates the paper.
Mots Clés. Marginalized Models, Count data, large-sample properties, Zero-inflation,
simulations.
10Modélisation des effets spatiaux du divorce au Sénégal à
travers le modèle de Durbin spatial : une approche par
maximum de vraisemblance. Mardi
2 Juillet
Aw Alassane1 16h-16h30
1 Laboratoire de Mathématiques et Applications et Agence Nationale de la Statistique et
de la Démographie du Sénégal (Sénégal)
Le modèle de Durbin spatial (SDM) fait partie de la famille des modèles autoré-
gressifs spatiaux. Dans cette communication, nous utilisons le modèle SDM pour
mesurer les effets spatiaux du divorce au Sénégal. La variable d’intérêt est le taux
de divorce et les variables explicatives sont le taux d’analphabétisme et l’âge moyen
au mariage. Les paramètres du modèle sont estimés par la technique du maximum de
vraisemblance. L’estimation du paramètre autorégressif spatial est réalisée à l’aide
de l’optimisation numérique de la log-vraisemblance concentrée du modèle SDM. Les
résultats obtenus ont montré que le taux d’analphabétisme et l’âge moyen au ma-
riage ont un impact réel sur le taux de divorce au Sénégal. Nous notons également
que les départements du pays qui sont géographiquement proches sont plus sem-
blables que les départements qui sont éloignés par rapport aux données de divorce.
Les effets directs et indirects ont été utilisés pour mesurer les changements dans le
divorce induits par les variations du taux d’analphabétisme et de l’âge moyen au
mariage.
Mots Clés. Modèle de Durbin spatial, Estimation par maximum de vraisemblance,
Mesures d’impact.
Improving Value at Risk and expected shortfall estimation
with time varying unconditional variance models Mardi
2 Juillet
Ben Hajria Raja1 18h-18h30
1 LGM-ENIM, Faculty of Sciences, University of Monastir (Tunisie)
This paper studies two advanced models in Value at Risk and expected shortfall
estimation with time-varying unconditional variance. In particular, we compare the
modeling performance of a time-varying autoregressive conditional heteroscedastic
(tv-ARCH) model having non-constant unconditional variance, with a fully deter-
ministic specification of the non-constant variance model. Simulation experiments
highlight the importance of applying a pre-test for ARCH effects, before fitting an
ARCH model to the data, to obtain an accurate estimation of the Value at Risk and
the expected shortfall. Applications to financial returns data are included.
Mots Clés. Unconditionally heteroscedastic errors, ARCH models, Value at Risk,
Expected shortfall.
11Mercredi Estimation récursive de l’indice des valeurs extrêmes
3 Juillet
10h-10h30 Ben Khadher Fatma1 , Yousri Slaoui2
1 Laboratoired’analyse, géométrie et Applications, Faculté des sciences de Monastir,
Université de Monastir (Tunisie), 2 Laboratoire de Mathématiques et Applications,
Université de Poitiers, Centre National de la Recherche Scientifique : UMR7348 (France)
L’objectif de ce travail est d’appliquer les méthodes d’approximations stochastiques
à l’estimation de la fonction d’indice des valeurs extrêmes. Cette méthode nous
permet de construire toute une classe d’estimateurs récursifs à noyau de la fonc-
tion d’indice des valeurs extrêmes. Ensuite, nous étudions les différentes propriétés
asymptotiques de ces estimateurs afin de comparer la performance de notre estima-
teur récursive avec celle non-récursive de Goegebeur. Nous montrons que, avec un
choix optimal de paramètres, l’estimateur récursif proposé par la méthode d’approxi-
mation stochastique est très efficace en termes de gain de temps de calcul. Enfin,
nous confirmons ces résultats théoriques à l’aide des simulations.
Mots Clés. Indice des valeurs extrêmes, paramétrique, estimation non, Algorithme
d’approximation stochastique, distribution de type Pareto.
Statistical comparison between the distributions of some
jumps models and the dynamic of the market stock index
Mercredi price S&P 500
3 Juillet
10h30-11h Frihi Zahrate El Oula1
1 Université Badji Mokhtar - Annaba (Algérie)
In order to see which of the two jumps diffusion models (Merton and Kou) is the
best fit for the S&P 500. We will analyze the index real data distribution. After
that, we use the maximum likelihood estimation to determined the parameters of
the previous models. Finally, we use Matlab to compare the densities of the S&P
500 log-returns to the densities of the simulated data from both models.
Mots Clés. Jumps diffusion models, S&P 500 index, Normality test, maximum
likelihood estimation, goodness of fit.
12Construction de surface de volatilités implicites en utilisant
une méthode de la statistique spatiale : le krigeage. Jeudi
4 Juillet
Gueye Djibril1 10h-10h30
1 Institut de Recherche Mathématique Avancée (France)
Nous présentons un premier travail qui porte sur la construction de surfaces de vo-
latilité implicite respectant une condition de non-arbitrage. Ces surfaces permettent
par exemple d’estimer à partir du prix d’options liquides, la valeur des produits
financiers dont les caractéristiques sont non-standards et dont le prix n’est pas ob-
servé sur le marché. La construction de telles surfaces est une étape importante
dans certains processus de gestion des risques. Elle permet également de tarifier des
actifs non-liquides. Nous adaptons une technique de krigeage contraint utilisée par
Cousin, Maatouk et Rullière (2016) au contexte de la construction de surface de vo-
latilité. Cette technique se base sur l’approximation fini-dimensionnelle développée
par Maatouk (2017). Une attention particulière porte sur la simulation des coeffi-
cients aléatoires gaussiens quand les contraintes sont saturées. En effet, la saturation
des contraintes réduit l’efficacité des simulations, à la fois pour l’algorithme de rejet
autour du mode de Maatouk et Bay(2016) et l’algorithme de Monte Carlo Hamilto-
nien utilisé par Lopez et al. (2017). Cependant, nous proposons une approche basée
sur une grille adaptée aux observations et aux contraintes de marché afin d’améliorer
ces algorithmes. Nous montrons la robustesse de cette approche en construisant une
surface de volatilité implicite répondant aux conditions de non arbitrage du marché.
La construction des surfaces intègre également l’incertitude associé au prix des op-
tions observées.
Mots Clés. Conditions d’arbitrage du marché., volatilités implicites, krigeage.
Consistent model selection criteria for affine causal processes
and goodness-of-fit test Jeudi
4 Juillet
Kamila Karé1 10h30-11h
1 Statistique, Analyse et Modélisation Multidisciplinaire (SAmos-Marin Mersenne)
(France)
Time series analysis is a very active research subject in statistics, probability, finance
etc and it is widely used in engineering, meteorology, and in many other fields.
Model selection, which is also another relevant research topic, particularly in time
series analysis, plays a very important role. The Bayesian Information Criterion well-
known as BIC has long been used as a panacea for consistent model selection issue.
In this paper, we study the model selection problem in a general framework which
includes both the ARMA or AR(∞) processes, as well as the GARCH or ARCH(∞)
processes, APARCH processes, ARMA-GARCH processes, . . .. We provide sufficient
conditions depending on the Lipschitzian coefficients to ensure that the procedure
selection will lead to the choice of the "true" model with probability approaching
one. These conditions clearly show that the penalty log n does not always guarantee
the consistency. We also propose a tool for diagnosing the adequacy of the chosen
13model based on the Portmanteau Test. Numerical simulations and an illustrative
example on the FTSE index are performed to highlight the obtained asymptotic
results including an example of order selection of an AR(p) processes with ARCH(∞)
white noise such as the BIC does not lead to the consistency.
Mots Clés. Consistency, model selection, BIC, affine causal processes, Portmanteau
Test.
On change-point detection in volatile series using GARCH
Vendredi models
5 Juillet
10h-10h30 Katchekpele Edoh1 , Kossi Gneyou1 and Abdou Kâ Diongue2
1 Université de Lomé (Togo), 2 Université Gaston Berger de Saint-Louis Sénégal (Sénégal)
We study a Cumulative Sum (CUSUM)-type test to detect a change in the un-
conditional variance of GARCH models. We show that, under the null hypothesis
(no change), the CUSUM test statistic converges to the supremum of a standard
Brownian bridge. Using Monte Carlo simulation, we demonstrate that the asymp-
totic power of the test is almost the unity and compare the test result with existing
results in the literature. Finally, the test procedure is applied to real-world situa-
tion namely the Standard and Poor (S&P) 500 stock market returns (09/16/1980
to 01/31/2008) where we are able to detect a change in the unconditional variance
at a very early stage of the financial crisis in comparison to other previous analyses
of the same dataset.
Mots Clés. Brownian bridge, Squared cusum test, point, Change, GARCH model,
Weak convergence.
Les méthodes duales d’analyse factorielle d’un multi-tableau
Vendredi horizontal
5 Juillet
10h30-11h Moulogho Issayaba Lavie Phanie1
1 Laboratoire de Statistique et Analyse des Données (LABSAD) (Congo-Brazzaville)
Les méthodes de liens entre deux tableaux et leurs extensions à plusieurs couples de
tableaux appariés en lignes ont fait l’objet de nombreuses applications en analyse des
données. En revanche, la question sur les méthodes dont les tableaux sont appariés
en colonnes a été moins abordée. Uniquement quelques méthodes ont été proposées
(STATISD, AFMD ... ). Dans cette optique, nous proposons des nouvelles méthodes
duales d’analyse factorielle basées sur la matrice des inter-produits scalaires qui
permet de décrire les proximités entre individus des tableaux deux à deux. Elles ont
pour principe l’optimisation des critères sous contraintes, en construisant des bases
orthonormées des espaces vectoriels afin de représenter graphiquement les données
(individus et variables) . Etant donné que le développement de nouvelles méthodes
en analyse des données n’a de l’intérêt que si elles sont appliquées aux données réelles,
nous avons appliqué ces méthodes pour montrer leur intérêt pratique et servir de
base de comparaison.
Mots Clés. Méthodes duales, STATIS duale, AFM duale, multi, tableau vertical,
analyse de co, inertie duale.
14Improved Laplace Approximation EM algorithm for fitting
nonlinear mixed effects models : empirical performance Vendredi
5 Juillet
Honfo Sewanou Hermann1 , Tovissode Chénangnon1 , Glèlè Kakaï Romain 2
15h30-16h
1 Laboratoire de Biomathématiques et d’Estimations Forestières (Bénin), 2 Laboratory of
Biomathematics and Forest Estimations (Bénin)
Background : Nonlinear mixed effects models have gained interests in recent de-
cades for modeling applied sciences’ phenomena. The good performance of these
models rely on the accuracy of maximum likelihood estimation methods of parame-
ters. Available algorithms such as EM algorithm still need improvement for providing
more accurate estimations. The present study has proposed an extension of the EM
algorithm using the Improved Laplace Approximation for obtaining restricted maxi-
mum likelihood estimates in nonlinear mixed effects models.
Methods : Four simulation studies have been conducted to assess the accuracy of
the proposed EM algorithm and to compare it with regard to the standard Laplace
approximation and the fully exponential Laplace approximation algorithms. The
orange tree data has been used to assess the performance of the algorithm on real
data.
Results : The proposed EM algorithm provided significantly unbiased estimates
for all fixed effects and variance-covariance components. The 95% confidence inter-
vals often covered the true parameters’ values. Though, it reached convergence after
considerable iterations. Concluding remarks Using the Improved Laplace approxi-
mation in the E-step for approximating conditional expectations of the complete
data sufficient statistics, has improved the estimation accuracy of both fixed and
random effects of a nonlinear mixed effects models. Though, the proposed algorithm
main drawback that needs to be fixed by upcoming studies was the time it takes
before convergence.
Mots Clés. Nonlinear mixed effects models, EM algorithm, Improved Laplace Ap-
proximation, Maximum Likelihood Estimation.
References :
- Dempster AP, Laird NM, Rubin DB (1977) Maximum likelihood from incomplete
data via the em algorithm. Journal of the royal statistical society Series B (metho-
dological) pp 1-38
- Fu L, Wang M, Lei Y, Tang S (2014) Parameter estimation of two-level non-linear
mixed effects models using first order conditional linearization and the em algorithm.
Computational Statistics & Data Analysis 69 :173-183
- Kuhn E, Lavielle M (2005) Maximum likelihood estimation in nonlinear mixed
effects models. Computational Statistics & Data Analysis 49(4) :1020-1038
- Lindstrom MJ, Bates DM (1990) Nonlinear mixed effects models for repeated mea-
sures data. Biometrics pp 673-687
- Pinheiro JC, Bates DM (1995) Approximations to the log-likelihood function in
the nonlinear mixed-effects model. Journal of computational and Graphical Statis-
tics 4(1) :12-35
- Ruli E, Sartori N, Ventura L, et al (2016) Improved laplace approximation for
marginal likelihoods. Electronic Journal of Statistics 10(2) :3986-4009
- Wang J (2007) Em algorithms for nonlinear mixed effects models. Computational
15statistics & data analysis 51(6) :3244-3256
- Wolfinger R (1993) Laplace’s approximation for nonlinear mixed models. Biome-
trika 80(4) :791-795
- Zhou M (2009) Fully exponential laplace approximation em algorithm for nonlinear
mixed effects models
Nonparametric estimation of the failure rate in a model of
Vendredi lifetimes
5 Juillet
16h-16h30 Agbokou Komi1 , Gneyou Kossi1
1 Université de Lomé (Togo)
In survival analysis, it is often necessary to model the link between the survival func-
tion and a number of factors called explanatory variables or covariates. In the context
of the analysis of a clinical trial, for example, it may be necessary to study data called
"censored". Mathematically, a lifetime is nothing more than a non-negative random
variable. This type of variable is common, particularly in medicine, epidemiology,
finance, actuarial science and reliability. Our presentation is devoted to the intro-
duction to survival analysis with a reminder of some basic notions about incomplete
data and non-parametric estimation as well as the main estimators of the“failure
rate" (again called “hazard rate" or “instant risk ") based on censored and / or trun-
cated data in the presence of covariates. Then it deals with the strong representation
of the kernel estimator of the conditional hazard rate for right-censored and / or
left-truncated data with simulations
Mots Clés. Nonparametric estimation, maximum conditional failure rate, censored
data, truncated data, functional variable, strong representation.
16Logos des sponsors et soutiens
Nous remercions aussi très chaleureu-
sement Pr. Ismael Castillo de l’Institut
Universitaire de France pour son soutien
à cette manifestation scientifique.
1718
Index des auteurs
Alhassane Garba Abdoulaziz, 9 Frihi Zahrate El Oula, 12
Ali , 10
Amagnide Aubin Guénolé, 8 Gueye Djibril, 13
Artières Thierry, 1 Hounmenou Gbêmêmali Castro, 7
Aw Alassane, 11
Kamila Karé, 13
Balogoun Armando, 9
Katchekpele Edoh, 14
Ben Hajria Raja, 11
Komi Agboko, 16
Ben Khadher Fatma, 12
Moudiki Thierry, 4
Chambaz Antoine, 2
Moulogho Issayaba Lavie Phanie, 14
Dabo-Niang Sophie, 1
Sewanou Hermann Honfo, 15
El Hadji Deme, 3 Sylla Seydou Nourou, 9
Fall Mame-Diarra, 4 Toure Aboubacar Yacouba, 7
19Vous pouvez aussi lire