1ère École d'été en Statistique et Science des Données pour les jeunes chercheurs d'Afrique francophone - M'Bour, Sénégal 1-5 juillet 2019
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
1ère École d’été en Statistique et Science des Données pour les jeunes chercheurs d’Afrique francophone M’Bour, Sénégal 1–5 juillet 2019
Bienvenue ! Le comité d’organisation de la première école d’été en Statistique et science des données est ravi de vous accueillir au centre AIMS (African Institute for Mathema- tical Sciences) Sénégal de M’bour. Cette manifestation scientifique a été initiée par les membres de la cellule internationale du groupe Jeunes Statisticiens de la Société Française de Statistique (SFdS) de concert avec la Présidence de AIMS-Sénégal. AIMS est un réseau panafricain de centres d’excellence pour la formation post- universitaire, la recherche et l’engagement public en Sciences mathématiques et ses applications. AIMS-Sénégal abrite par ailleurs un centre de recherche qui supervise et finance la recherche doctorale et post-doctorale des africains sous la tutelle d’une prestigieuse Chaire de Recherche en Mathématiques et ses Applications. Le groupe Jeunes Statisticiens est une sous structure de la SFdS qui se donne pour missions, d’une part, d’encourager les échanges scientifiques entre les jeunes sta- tisticiens et experts en sciences des données que ce soit à l’échelle nationale ou internationale et, d’autre part, de les aider à mettre en place un réseau profes- sionnel. Ces missions s’intègrent quant à elles dans les missions plus globales de la SFdS : promouvoir l’utilisation et la compréhension des statistiques et encourager ses développements méthodologiques. Dans le cadre de leurs missions respectives, la SFdS à travers sa cellule interna- tionale du groupe jeunes statisticiens et AIMS-Sénégal en partenariat avec la Chaire de Mathématiques et ses Applications co-organisent cette école d’été pour les jeunes chercheurs d’Afrique francophone. Leur volonté est de donner aux jeunes chercheurs africains évoluant dans le domaine des sciences de données un cadre d’échange au- tour des travaux de recherche innovants. Au cours de la semaine, trois cours de science des données seront proposés, ainsi que des présentations de conférenciers invités et enfin des exposés d’une partie des participants eux-mêmes. Ce livret contient les résumés des cours, conférences et communications sélec- tionnées par le comité scientifique. Nous remercions tous les participants pour avoir soumis leurs résumés de travaux de recherche ainsi que les membres du comité scien- tifique pour son travail de sélection. Nous sommes également reconnaissants envers tous les professeurs et conférenciers invités qui ont accepté notre invitation et pré- paré des cours et conférences riches et de haut niveau sur des thèmes porteurs en Afrique et suscitant un engouement dans nos communautés de recherche. La préparation de cette école s’est en partie déroulée à AIMS Sénégal, institut de rattachement de la moitié des membres du comité d’organisation. Elle a aussi bénéficié du soutien humain et logistique des membres du groupe Jeunes Statis- 3
ticiens de la SFdS auquel est rattachée la seconde moitié des membres du comité d’organisation. Par ailleurs, l’événement n’aurait pu avoir lieu sans le soutien de tous nos partenaires et sponsors sans oublier les conseils bienveillants de chercheurs expérimentés de la SFdS. Nous adressons à tous nos chaleureux remerciements. Nous vous souhaitons une semaine très enrichissante sur le plan scientifique et un séjour agréable à M’Bour au Sénégal. L’ensemble des membres du comité d’organisation. 4
Comités d’organisation Le comité scientifique et d’organisation de la première école d’été en statistique et science des données est constitué de membres suivants : — Mouhamad M. Allaya (Docteur en Mathématiques appliquées à l’Université de Paris 1 Pantheon-Sorbonne et Tuteur à l’African Institute for Mathema- tical Sciences (AIMS) du Sénégal) — Aurore Archimbaud (Docteure en Statistique, Data Scientist - Statisticienne chez ippon innovation, membre du groupe Jeunes Statisticiens de la Société Française de Statistique (SFdS)) — Emilie Devijver (Docteure en Statistique, chargée de Recherche CNRS au Laboratoire d’Informatique de Grenoble et à l’Université Grenoble Alpes, membre du groupe Jeunes Statisticiens de la Société Française de Statistique (SFdS)) — Modibo Diabaté (Doctorant au Laboratoire Jean Kuntzmann et à l’Univer- sité Grenoble Alpes, membre du groupe Jeunes Statisticiens de la Société Française de Statistique (SFdS)) — Charlotte Dion (Maître de conférences au laboratoire de Probabilités, Statis- tique et Modélisation et à Sorbonne Université, membre du groupe Jeunes Statisticiens de la Société Française de Statistique (SFdS)) — Mame Diarra Fall (Maître de conférences à l’Institut Denis Poisson et à l’Uni- versité d’Orléans) — Mouhamed Moustapha Fall (Professeur de Mathématiques et Chaire en Ma- thématiques et ses applications à l’African Institute for Mathematical Sciences (AIMS) du Sénégal) — Franck Kalala Mutombo (Professeur associé à l’Universite de Lubumbashi (DRC) et Directeur Académique de l’African Institute for Mathematical Sciences (AIMS) du Sénégal) — Oumy Niass (Docteure en Statistique appliquée à l’Université Gaston Ber- ger de Saint-Louis et Tutrice à l’African Institute for Mathematical Sciences (AIMS) du Sénégal) — Myriam Tami (Enseignante chercheuse à CentraleSupélec, membre du groupe Jeunes Statisticiens de la Société Française de Statistique (SFdS)) — Amidou Traoré (Etudiant en Master 2 aux méthodes statistiques et écono- métriques à l’Université Cheikh Anta Diop (UCAD) de Dakar) 5
6
Table des matières Bienvenue ! 3 Résumés des cours 1 Cours 1 - Introduction au Deep Learning (Pr. Thierry Artières) . . . . . . 1 Cours 2 - Analyse de données spatiales massives. Applications à la santé, à l’hydro-météorologie et à l’océanologie. (Pr. Sophie Dabo-Niang) . . 1 Cours 3 - Introduction à l’apprentissage ciblé (Pr. Antoine Chambaz ) . . . 2 Résumés des présentations des invités 3 Inférence statistique des mesures de risques extrêmes et Applications (Dr. El Hadji Deme) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Prévision des séries temporelles multivariées par des réseaux de neurones quasi-aléatoires (Dr. Thierry Moudiki) . . . . . . . . . . . . . . . . . 4 Statistique bayésienne en imagerie (Dr. Mame-Diarra Fall ) . . . . . . . . . 4 Session spéciale structures invitées () . . . . . . . . . . . . . . . . . . . . . 5 Table ronde : “Que faire après des études en Statistique au Sénégal ?" () . . 5 Résumés des présentations des participants 7 Normalité asymptotique des statistiques de tests des indices relatifs de dispersion et de variation (Toure Aboubacar Yacouba, Dossou-Gbété Simplice, Kokonendji Célestin C.) . . . . . . . . . . . . . . . . . . . . 7 Robust estimation in multivariate nonlinear regression with multilayer per- ceptron neural networks (Hounmenou Gbememali Castro, Gneyou E. Kossi and Glele KakaÏ L. Romain) . . . . . . . . . . . . . . . . . . . 7 Longitudinal data analysis : fitting an optimal variance-covariance struc- ture under linear mixed effects models framework. (Amagnide Aubin Guénolé, Gbeha Micheline, Glèlè Kakaï Romain) . . . . . . . . . . . 8 Block clustering of Binary Data with Gaussian Co-variables (Sylla Seydou Nourou, Iovleff Serge, Loucoubar Cheikh) . . . . . . . . . . . . . . . . 9 Kernel based method for the k-sample problem (Balogoun Armando Sos- thène Kali, Nkiet Guy Martial, Ogouyandjou Carlos) . . . . . . . . . 9 Essai sur les modèles financiers appliqués à la BRVM : cas de Fama et French (Alhassane Garba Abdoulaziz ) . . . . . . . . . . . . . . . . . . 9 Inference in a Marginalized zero-inflated binomial regression model (Ali Es- soham, Aliou Diop and Jean-Franc[Pleaseinsertintopreamble]ois Du- puy) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 7
Modélisation des effets spatiaux du divorce au Sénégal à travers le modèle de Durbin spatial : une approche par maximum de vraisemblance. (Aw Alassane) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Improving Value at Risk and expected shortfall estimation with time va- rying unconditional variance models (Ben Hajria Raja) . . . . . . . . 11 Estimation récursive de l’indice des valeurs extrêmes (Ben Khadher Fatma, Yousri Slaoui) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Statistical comparison between the distributions of some jumps models and the dynamic of the market stock index price S&P 500 (Frihi Zahrate El Oula) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Construction de surface de volatilités implicites en utilisant une méthode de la statistique spatiale : le krigeage. (Gueye Djibril ) . . . . . . . . . 13 Consistent model selection criteria for affine causal processes and goodness- of-fit test (Kamila Karé) . . . . . . . . . . . . . . . . . . . . . . . . . 13 On change-point detection in volatile series using GARCH models (Kat- chekpele Edoh, Kossi Gneyou and Abdou Kâ Diongue) . . . . . . . . 14 Les méthodes duales d’analyse factorielle d’un multi-tableau horizontal (Moulogho Issayaba Lavie Phanie) . . . . . . . . . . . . . . . . . . . . 14 Improved Laplace Approximation EM algorithm for fitting nonlinear mixed effects models : empirical performance (Honfo Sewanou Hermann, Tovissode Chénangnon, Glèlè Kakaï Romain ) . . . . . . . . . . . . . 15 Nonparametric estimation of the failure rate in a model of lifetimes (Agbo- kou Komi, Gneyou Kossi) . . . . . . . . . . . . . . . . . . . . . . . . 16 Logos des sponsors et soutiens 17 Index des auteurs 19 8
Résumés des cours Cours 1 - Introduction au Deep Learning Pr. Thierry Artières1 1 Ecole Centrale Marseille et Université d’Aix-Marseille - Laboratoire d’Informatique et Systèmes (LIS) Ce cours est un cours d’introduction au Deep Learning. Le Deep Learning est un domaine du Machine Learning qui s’intéresse à l’apprentissage de représentations et à l’apprentissage de modèles de type réseaux de neurones. Ces modèles ont permis des avancées spectaculaires pour des données structurées variées de type images, vidéos, sons, textes et séquences. Le cours introduira tout d’abord les architectures neuronales classiques, percep- trons multicouches, réseaux conventionnels et réseaux récurrents, et illustrera le fonctionnement de ces modèles sur des jeux de données classiques en empruntant des exemples aux architectures classiques publiées ces dernières années. Il s’atta- chera à montrer le rôle de la profondeur dans les architectures neuronales profondes et passera en revue les stratégies algorithmiques et structurelles employées pour dépasser les problèmes d’optimisation posés par ces modèles. Le cours abordera es- sentiellement l’apprentissage supervisé, à travers des tâches de classification, et l’ap- prentissage non supervisé, via des stratégies d’adversarial learning. Enfin le cours évoquera des thématiques récentes explorées dans le domaine de l’apprentissage pro- fond, notamment l’explicabilité, l’adaptation de domaine et l’apprentissage à partir de peu de données. Cours 2 - Analyse de données spatiales massives. Applications à la santé, à l’hydro-météorologie et à l’océanologie. Pr. Sophie Dabo-Niang1 1 Université Charles de Gaulle (Lille 3) - Laboratoire Lille Economie Management (LEM), (France) La statistique spatiale regroupe des techniques statistiques qui étudient des phéno- mènes observés sur des ensembles spatiaux. Ces phénomènes se manifestent dans de nombreux domaines tels que l’épidémiologie, les sciences de l’environnement et bien d’autres. La modélisation de ce type de données figure parmi les sujets de re- cherche les plus intéressants en analyse de données dépendantes. Ceci est motivé par 1
le nombre croissant de situations provenant de différents domaines où les données sont de nature spatiale. Nous nous intéressons dans ce cours à introduire la méthodologie et l’application de modèles statistiques spatiaux à de jeunes chercheurs et étudiants en doctorat. Plus précisément, l’objectif de ce cours est de fournir une introduction à la statistique spatiale, d’apprendre à modéliser et à intégrer les dépendances spatiales dans les analyses de données spatiales. Le cours couvrira des sujets tels que : — L’analyse exploratoire des données spatiales — Les modèles de régression et prédiction spatiales — Les méthodes d’estimation — Les choix et spécification des modèles Certains des modèles et méthodes spatiaux vus dans le cours seront appliqués en hydro-météorologie, océanologie et santé. Cette partie pratique se fera avec le logiciel R. Références : 1. Anselin L. (1988), Spatial econometrics : Methods and models. Kluwer Academic- Publishers. 2. Chilés J-P et Delfiner, P. (2012), Geostatistics : Modeling Spatial Uncertainty, 2nd Edition, Wiley. 3. Cressie, N et Wikle, C-K. (2011), Statistics for spatio-temporal data. Wiley. 4. Cressie, N. (2015), Statistics for spatial data. Revised Edition. Wiley. Cours 3 - Introduction à l’apprentissage ciblé Pr. Antoine Chambaz1 1 Université Paris Descartes, Laboratoire Mathématiques Appliquées Paris 5 (France) Ce cours introduit les rudiments de l’apprentissage ciblé, au croisement du "ma- chine learning" et de la statistique semi-paramétrique. Un package R dédié permet d’illustrer et d’étayer la théorie, et facilite le développement d’une intuition. Des rudiments de programmation R sont donc bienvenus, quoique non indispensables. Le plan est le suivant : 1. Introduction 2. Le paramètre d’intérêt 3. Régularité 4. Double-robustesse 5. Inférence 6. Une stratégie inférentielle simple 7. Paramètres de nuisance 8. Analyse d’estimateurs de substitution 9. Corrections à un pas 10. Inférence par minimisation ciblée de pertes 2
Résumés des présentations des invités Inférence statistique des mesures de risques extrêmes et Applications Mardi 2 Juillet Dr. El Hadji Deme1 14h30-15h30 1 UFR des Sciences Appliquées et Technologie de l’Université Gaston Berger de Saint Louis Les compagnies de réassurance assurent un rôle économique essentiel par la four- niture d’une couverture de risques assumés pour leurs clients. Les risques extrêmes se définissent comme des risques dont on ne sait pas si le système d’assurance sera capable de les supporter, par exemple les ouragans, les incendies, les tremblements de terre, les attentats terroristes etc. et sont généralement responsables de la grande partie des indemnités versées par les compagnies de réassurance. Ainsi, l’attention des actuaires se porte en priorité sur ces risques qualifiés de majeurs et caractérisés par une faible fréquence et une extrême gravité sur les dommages qu’ils provoquent. Ceux pour lesquels la survenance d’un sinistre, que l’on peut qualifier d’exception- nel, aurait une incidence sur le taux de prime pure moyen des sous portefeuilles et mettrait à mal les résultats de la société d’assurance. On pourra se référer à Griselda et Guillaume (2006) et Centeno et Guerra (2010). Un exemple de tel problème a été discuté dans Ceberián et al. (2003) sur les montants de revendications d’assurance médicale. Pour cela, les statistiques traditionnelles notamment le théorème central limite, la loi des grands nombres qui étudient un phénomène à travers son comportement moyen, caractérisent mal ces extrêmes. Elles fournissent uniquement des indications sur la distribution générale d’un phénomène, et donc elles ne donnent que très peu d’informations sur la queue de distribution. Cette méthode peut ne pas fonctionner correctement si le portefeuille contient des risques hétérogènes. C’est ainsi que les actuaires trouvent que le secteur entier de la réassurance est une application très importante de la théorie des valeurs extrêmes, puisqu’on doit toujours sauvegarder une compagnie d’assurance contre les revendications excessives qui peuvent mettre en danger la solvabilité du portefeuille (voir par exemple Ceberián et al. (2003)). McNeil (1997) et Rootzen et Tajvidin (1997) montrent que l’application de la théorie des valeurs extrêmes donne un cadre plus systématique, rigoureux et cohérent que les méthodes classiques. En effet, cette méthode permet de déduire la distribution des extrêmes à partir de la distribution totale, sans traiter séparément les extrêmes des risques récurrents. Ces événements appartiennent à ce que l’on appelle la « queue 3
de distribution », ce qui veut dire que l’on dispose de très peu d’observations pour caractériser les distributions de probabilité. Donc, il est important de bien modéliser les queues de distributions pour éviter les erreurs grossières de tarification. La modé- lisation de ces observations par la distribution normale a été longtemps utilisée dans la gestion du risque. Cependant, les études empiriques concluent que les données financières et actuarielles présentent des déviations systématiques de la normalité et leurs distributions ont généralement une queue plus lourde que celle du modèle Gaussien. Prévision des séries temporelles multivariées par des réseaux Jeudi de neurones quasi-aléatoires 4 Juillet 14h30-15h30 Dr. Thierry Moudiki1 1 Laboratoire de sciences actuarielles et financières (LSAF) de l’université Lyon 1 (France) Nous nous intéressons à des modèles hybrides entre régression linéaire pénalisée, et réseaux de neurones à une couche cachée. Ces types de modèles, en plus de leur capacité à produire des prévisions non-linéaires, ont pour avantages d’être rapides à entraîner et relativement simples à interpréter. Une application à la prévision de séries temporelles multivariées est présentée. Vendredi Statistique bayésienne en imagerie 5 Juillet 14h30-15h30 Dr. Mame-Diarra Fall1 1 Université d’Orléans (France) On s’intéresse à divers problèmes de traitement et de reconstruction d’images dans un cadre statistique dit bayésien. L’approche bayésienne permet de prendre en compte la connaissance a priori sur les paramètres du modèle et d’inférer sur leurs lois a posteriori. À travers divers exemples, on montrera comment la statistique bayésienne est incontournable en imagerie. 4
Session spéciale structures invitées Jeudi 4 Juillet 15h30-17h30 Dans la session spéciale, nous aurons le plaisir d’accueillir les structures suivantes : — ANSD : http://www.ansd.sn/ de 15h30 à 16h — ENSAE : http://www.ensae.sn/ de 16h à 16h30 — IREMPT : https://irempt.ucad.sn/ de 16h30 à 17h — Senegal FlyingLab : https://flyinglabs.org/senegal/ de 17h à 17h30 Chacune de ces structures fera une présentation sur l’usage des sciences des don- nées dans leurs activités et éventuellement l’insertion de futur diplômés en statistique dans le marché de l’emploi. Il sera également le lieu d’échanger avec les participants dans leur domaine respectif de recherche afin de susciter d’éventuelles perspectives de collaboration ou d’embauche. Table ronde : “Que faire après des études en Statistique au Sénégal ?" Jeudi 4 Juillet 17h30-18h30 L’objectif de cette table ronde est de permettre un échange autour des perspectives professionnelles au Sénégal suite à l’obtention de diplômes en Statistique. 5
6
Résumés des présentations des participants Normalité asymptotique des statistiques de tests des indices relatifs de dispersion et de variation Lundi 1 Juillet Toure Aboubacar Yacouba1 , Dossou-Gbété Simplice2 , Kokonendji Célestin C.3 12h00-12h30 1 Université Bourgogne Franche-Comté (France), 2 Université Bourgogne Franche-Comté (France), 3 Université de Pau et des Pays de l’Adour (France) A partir des indices de dispersion relatives aux lois de Poisson et binomiale pour les données de comptage et, récemment, de l’indice de variation exponentielle pour les données continues positives, nous introduisons d’abord la définition unifiée à l’in- dice de variabilité relative à une famille exponentielle naturelle positive à travers sa fonction variance. Ensuite, nous montrons la normalité asymptotique des statis- tiques de tests correspondantes et donnons des exemples applicables. Des études de simulations ont mis en évidence de bons comportements de ces statistiques de tests asymptotiques. Des remarques finales sont faites avec de possibles extensions. Mots Clés. Loi continue, loi de comptage, famille exponentielle, fonction variance. Robust estimation in multivariate nonlinear regression with multilayer perceptron neural networks Lundi 1 Juillet Hounmenou Gbememali Castro1 , Gneyou E. Kossi2 and Glele KakaÏ L. Romain3 12h30-13h 1Laboratoire de Biomathématiques et d’Estimations Forestières, 2 Institut des Mathématiques et des Sciences Physiques, Université d’Abomey-Calavi, (Bénin), Faculté des Sciences (FDS), Université de Lomé (Togo), 3 Laboratoire de Biomathématiques et d’Estimations Forestières, Université d’Abomey-Calavi (Bénin) Multilayer perceptron neural networks (MLP) are a very rich family of nonlinear functions whose main characteristic is to allow a great modeling flexibility among the nonlinear regression functions. For empirical data involving a high proportion of contaminated observations with errors whose magnitude and structure may be arbitrary, robust estimators in the breaking point sense are generally defined as the overall minimum of some non-convex measure of errors. Thus, the problem of global optimization of learning algorithms used in MLP arises. The taking into account of noises in the learning process, most of the time is supposed to have a 7
standard normal distribution as considered by Badran et al. (2002) in their work, using Bayesian approach. This hypothesis is arbitrary if not false due to the nature of some data or certain field applications. In this paper, we give an extension their work based on a multivariate distribution as hypothesis, which allowing for a multiple continuous variation from normality to non-normality. The main goal of this work to build a determinist model in order to find the "real" relationship which binds inputs to outputs variables ; to defined a new algorithm based on back propagation of gradient of errors for learning of these types of dataset and to showed the asymptotic behavior of parameters estimated of the non-linear regression function. At the last, we presented an application case. Mots Clés. Nonlinear regression., learning algorithm, imprecise data, Multilayer perceptron. Longitudinal data analysis : fitting an optimal variance-covariance structure under linear mixed effects Lundi models framework. 1 Juillet 16h00-16h30 Amagnide Aubin Guénolé1 , Gbeha Micheline2 , Glèlè Kakaï Romain3 1 Laboratoire de Biomathématiques et d’Estimations Forestières (LABEF) (Bénin), 2 Départementde Mathématiques, Faculté des Sciences et Techniques, Université d’Abomey-Calavi, République du Bénin (Bénin), 3 Laboratoire de Biomathématiques et d’Estimations Forestières (LABEF) (Bénin) In this study, we (i) assessed the performance of 5 fit statistics (AIC, BIC, HQIC, CAIC and AICC) to determine the correct within-subject covariance structure (WSCS) in longitudinal data analysis and (ii) investigated the consequence of misspecifica- tion of WSCS. Firstly, a simulation study was achieved in 192 cases taking into account six characteristics of the data sample (sample size, measurement periods, magnitude of growth parameter, size of G matrices, covariance structure and distri- bution of the within-subject error). For each combination of these parameters, 500 replications were generated using Monte Carlo procedure and the hit rate of each of the 5 search statistics is computed and help to compare their performance. At a second step, based on 32 restricted simulation conditions, the effect of misspecifica- tion in WSCS was assessed by computing the mean relative bias and mean relative errors of the coefficients of fixed effects and random components. Results showed an overall best performance of the HQIC, BIC and CAIC for searching first order auto- regressive [AR(1)] and first order moving average [MA(1)] covariance structures. Mots Clés. Fit statistics, subject covariance structure, within, Repeated measure- ments, misspecification, Monte Carlo experiments. 8
Block clustering of Binary Data with Gaussian Co-variables Lundi 1 Juillet Sylla Seydou Nourou1 , Iovleff Serge2 , Loucoubar Cheikh3 18h-18h30 1 Institut Pasteur, Dakar (Sénégal), 2 UMR 8524 - INRIA, Univerité Lille 1 (France), 3 Institut Pasteur (Sénégal) The simultaneous grouping of rows and columns is an important technique that is increasingly used in large-scale data analysis. In this paper, we present a novel co-clustering method using co-variables in its construction. It is based on a latent block model taking into account the problem of grouping variables and clustering individuals by integratin information given by sets of co-variables. Numerical expe- riments on simulated data sets and an application on real genetic data highlight the interest of this approach. Mots Clés. Model based, coclustering, block mixture model, BEM, coclustering with covariables. Kernel based method for the k-sample problem Mardi 2 Juillet Balogoun Armando Sosthène Kali1 , Nkiet Guy Martial2 , Ogouyandjou Carlos3 10h-10h30 1 Institut de Mathématiques et de Sciences Physique (IMSP) de Dangbo (Bénin) (Bénin), 2 Université des Sciences et Techniques de Masuku, Franceville, Gabon (Gabon), 3 Institut de Mathématiques et de Sciences Physiques (IMSP) de Dangbo (Bénin) (Bénin) In this presentation we deal with the problem of testing for the equality of k pro- bability distributions dened on (X ; B), where X is a metric space and B is the corresponding Borel -eld. We introduce a test statistic based on reproducing ker- nel Hilbert space embeddings and derive its asymptotic distribution under the null hypothesis. Simulations show that the introduced procedure outperforms known me- thods. Mots Clés. Hypothesis testing, k sample problem, Reproducing kernel Hilbert space, Asymptotic distribution. Essai sur les modèles financiers appliqués à la BRVM : cas de Fama et French Mardi 2 Juillet Alhassane Garba Abdoulaziz1 10h30-11h 1 Laboratoire de Mathématique de la Décision et d’Analyse Numérique (Sénégal) Dans le présent papier, il est question d’étudier les rendements des actions en s’inté- ressant particulièrement à la catégorisation des actions. En effet, nous nous sommes intéressées à l’application de cinq modèles, à savoir le MEDAF1, le modèle de Born- holt, le Downside Risk MEDAF (2002), les deux modèles de Fama et French de 1993 et 2015, pour évaluer les actions de la BRVM. On a utilisé aussi, une technique d’es- timation, le Quantile Régression (QR) vu que les données ne sont pas gaussiennes. Ainsi, il ressort de ces estimations que globalement toutes les régressions débouchent 9
sur des meilleurs modèles. Mais, lorsqu’on considère uniquement la statistique de R- deux, manifestement, les deux modèles de Fama-French (93, 2015) se démarquent du lot. Et, s’il faut choisir entre les cinq modèles, le modèle à trois facteurs de Fama et French semble être le meilleur modèle optimal pour le cas des actions de la BRVM, dans lequel le facteur bêta de marché est considéré comme un facteur de rentabilité, de même que SMB pour les portefeuilles SL, SM et SH. Toutefois, on constaté que selon les résultats du modèle de Fama-French (93 et 2015), les portefeuilles à petite capitalisation boursières (Small) sont plus rentables que les grandes capitalisation (Big). Mots Clés. Fama, French, Bornholt, Downside Risk MEDAF, MEDAF, QR et BRVM. Inference in a Marginalized zero-inflated binomial regression Mardi model 2 Juillet 15h30-16h Ali Essoham1 , Aliou Diop1 and Jean-Franc¸ois Dupuy2 1 Universityof Gaston Berger, Saint-Louis, LERSTAD, Senegal 2 University of Rennes, INSA Rennes ,CNRS, IRMAR - UMR 6625, France Data sets with excess zeroes are frequently analyzed in many disciplines. A com- mon framework used to analyze such data is the zero-inflated (ZI) regression model. Marginal zero-inflated binomial regression (MZIB) model was recently proposed to directly model the mean of the reponse variable. The details of maximum likelihood estimation via the EM algorithm are presented and simulations suggest that the re- sulting estimates behave well. However, theoritical properties of the MLE in MZIB regression have not yet been rigorously established. Such results are however essential for ensuring reliable statistical inference and decision-making. This paper presents a marginalized ZIB model to directly model the mean of the mixture distribution consisting of "susceptible" individuals and excess zeroes, providing straightforward inference for overall exposure effects.. Consistency and asymptotic normality of the MLE in MZIB regression are proved. A simulation study is conducted to assess finite-sample behaviour of the estimator. Finally, an analysis of a data set in the field of health economics illustrates the paper. Mots Clés. Marginalized Models, Count data, large-sample properties, Zero-inflation, simulations. 10
Modélisation des effets spatiaux du divorce au Sénégal à travers le modèle de Durbin spatial : une approche par maximum de vraisemblance. Mardi 2 Juillet Aw Alassane1 16h-16h30 1 Laboratoire de Mathématiques et Applications et Agence Nationale de la Statistique et de la Démographie du Sénégal (Sénégal) Le modèle de Durbin spatial (SDM) fait partie de la famille des modèles autoré- gressifs spatiaux. Dans cette communication, nous utilisons le modèle SDM pour mesurer les effets spatiaux du divorce au Sénégal. La variable d’intérêt est le taux de divorce et les variables explicatives sont le taux d’analphabétisme et l’âge moyen au mariage. Les paramètres du modèle sont estimés par la technique du maximum de vraisemblance. L’estimation du paramètre autorégressif spatial est réalisée à l’aide de l’optimisation numérique de la log-vraisemblance concentrée du modèle SDM. Les résultats obtenus ont montré que le taux d’analphabétisme et l’âge moyen au ma- riage ont un impact réel sur le taux de divorce au Sénégal. Nous notons également que les départements du pays qui sont géographiquement proches sont plus sem- blables que les départements qui sont éloignés par rapport aux données de divorce. Les effets directs et indirects ont été utilisés pour mesurer les changements dans le divorce induits par les variations du taux d’analphabétisme et de l’âge moyen au mariage. Mots Clés. Modèle de Durbin spatial, Estimation par maximum de vraisemblance, Mesures d’impact. Improving Value at Risk and expected shortfall estimation with time varying unconditional variance models Mardi 2 Juillet Ben Hajria Raja1 18h-18h30 1 LGM-ENIM, Faculty of Sciences, University of Monastir (Tunisie) This paper studies two advanced models in Value at Risk and expected shortfall estimation with time-varying unconditional variance. In particular, we compare the modeling performance of a time-varying autoregressive conditional heteroscedastic (tv-ARCH) model having non-constant unconditional variance, with a fully deter- ministic specification of the non-constant variance model. Simulation experiments highlight the importance of applying a pre-test for ARCH effects, before fitting an ARCH model to the data, to obtain an accurate estimation of the Value at Risk and the expected shortfall. Applications to financial returns data are included. Mots Clés. Unconditionally heteroscedastic errors, ARCH models, Value at Risk, Expected shortfall. 11
Mercredi Estimation récursive de l’indice des valeurs extrêmes 3 Juillet 10h-10h30 Ben Khadher Fatma1 , Yousri Slaoui2 1 Laboratoired’analyse, géométrie et Applications, Faculté des sciences de Monastir, Université de Monastir (Tunisie), 2 Laboratoire de Mathématiques et Applications, Université de Poitiers, Centre National de la Recherche Scientifique : UMR7348 (France) L’objectif de ce travail est d’appliquer les méthodes d’approximations stochastiques à l’estimation de la fonction d’indice des valeurs extrêmes. Cette méthode nous permet de construire toute une classe d’estimateurs récursifs à noyau de la fonc- tion d’indice des valeurs extrêmes. Ensuite, nous étudions les différentes propriétés asymptotiques de ces estimateurs afin de comparer la performance de notre estima- teur récursive avec celle non-récursive de Goegebeur. Nous montrons que, avec un choix optimal de paramètres, l’estimateur récursif proposé par la méthode d’approxi- mation stochastique est très efficace en termes de gain de temps de calcul. Enfin, nous confirmons ces résultats théoriques à l’aide des simulations. Mots Clés. Indice des valeurs extrêmes, paramétrique, estimation non, Algorithme d’approximation stochastique, distribution de type Pareto. Statistical comparison between the distributions of some jumps models and the dynamic of the market stock index Mercredi price S&P 500 3 Juillet 10h30-11h Frihi Zahrate El Oula1 1 Université Badji Mokhtar - Annaba (Algérie) In order to see which of the two jumps diffusion models (Merton and Kou) is the best fit for the S&P 500. We will analyze the index real data distribution. After that, we use the maximum likelihood estimation to determined the parameters of the previous models. Finally, we use Matlab to compare the densities of the S&P 500 log-returns to the densities of the simulated data from both models. Mots Clés. Jumps diffusion models, S&P 500 index, Normality test, maximum likelihood estimation, goodness of fit. 12
Construction de surface de volatilités implicites en utilisant une méthode de la statistique spatiale : le krigeage. Jeudi 4 Juillet Gueye Djibril1 10h-10h30 1 Institut de Recherche Mathématique Avancée (France) Nous présentons un premier travail qui porte sur la construction de surfaces de vo- latilité implicite respectant une condition de non-arbitrage. Ces surfaces permettent par exemple d’estimer à partir du prix d’options liquides, la valeur des produits financiers dont les caractéristiques sont non-standards et dont le prix n’est pas ob- servé sur le marché. La construction de telles surfaces est une étape importante dans certains processus de gestion des risques. Elle permet également de tarifier des actifs non-liquides. Nous adaptons une technique de krigeage contraint utilisée par Cousin, Maatouk et Rullière (2016) au contexte de la construction de surface de vo- latilité. Cette technique se base sur l’approximation fini-dimensionnelle développée par Maatouk (2017). Une attention particulière porte sur la simulation des coeffi- cients aléatoires gaussiens quand les contraintes sont saturées. En effet, la saturation des contraintes réduit l’efficacité des simulations, à la fois pour l’algorithme de rejet autour du mode de Maatouk et Bay(2016) et l’algorithme de Monte Carlo Hamilto- nien utilisé par Lopez et al. (2017). Cependant, nous proposons une approche basée sur une grille adaptée aux observations et aux contraintes de marché afin d’améliorer ces algorithmes. Nous montrons la robustesse de cette approche en construisant une surface de volatilité implicite répondant aux conditions de non arbitrage du marché. La construction des surfaces intègre également l’incertitude associé au prix des op- tions observées. Mots Clés. Conditions d’arbitrage du marché., volatilités implicites, krigeage. Consistent model selection criteria for affine causal processes and goodness-of-fit test Jeudi 4 Juillet Kamila Karé1 10h30-11h 1 Statistique, Analyse et Modélisation Multidisciplinaire (SAmos-Marin Mersenne) (France) Time series analysis is a very active research subject in statistics, probability, finance etc and it is widely used in engineering, meteorology, and in many other fields. Model selection, which is also another relevant research topic, particularly in time series analysis, plays a very important role. The Bayesian Information Criterion well- known as BIC has long been used as a panacea for consistent model selection issue. In this paper, we study the model selection problem in a general framework which includes both the ARMA or AR(∞) processes, as well as the GARCH or ARCH(∞) processes, APARCH processes, ARMA-GARCH processes, . . .. We provide sufficient conditions depending on the Lipschitzian coefficients to ensure that the procedure selection will lead to the choice of the "true" model with probability approaching one. These conditions clearly show that the penalty log n does not always guarantee the consistency. We also propose a tool for diagnosing the adequacy of the chosen 13
model based on the Portmanteau Test. Numerical simulations and an illustrative example on the FTSE index are performed to highlight the obtained asymptotic results including an example of order selection of an AR(p) processes with ARCH(∞) white noise such as the BIC does not lead to the consistency. Mots Clés. Consistency, model selection, BIC, affine causal processes, Portmanteau Test. On change-point detection in volatile series using GARCH Vendredi models 5 Juillet 10h-10h30 Katchekpele Edoh1 , Kossi Gneyou1 and Abdou Kâ Diongue2 1 Université de Lomé (Togo), 2 Université Gaston Berger de Saint-Louis Sénégal (Sénégal) We study a Cumulative Sum (CUSUM)-type test to detect a change in the un- conditional variance of GARCH models. We show that, under the null hypothesis (no change), the CUSUM test statistic converges to the supremum of a standard Brownian bridge. Using Monte Carlo simulation, we demonstrate that the asymp- totic power of the test is almost the unity and compare the test result with existing results in the literature. Finally, the test procedure is applied to real-world situa- tion namely the Standard and Poor (S&P) 500 stock market returns (09/16/1980 to 01/31/2008) where we are able to detect a change in the unconditional variance at a very early stage of the financial crisis in comparison to other previous analyses of the same dataset. Mots Clés. Brownian bridge, Squared cusum test, point, Change, GARCH model, Weak convergence. Les méthodes duales d’analyse factorielle d’un multi-tableau Vendredi horizontal 5 Juillet 10h30-11h Moulogho Issayaba Lavie Phanie1 1 Laboratoire de Statistique et Analyse des Données (LABSAD) (Congo-Brazzaville) Les méthodes de liens entre deux tableaux et leurs extensions à plusieurs couples de tableaux appariés en lignes ont fait l’objet de nombreuses applications en analyse des données. En revanche, la question sur les méthodes dont les tableaux sont appariés en colonnes a été moins abordée. Uniquement quelques méthodes ont été proposées (STATISD, AFMD ... ). Dans cette optique, nous proposons des nouvelles méthodes duales d’analyse factorielle basées sur la matrice des inter-produits scalaires qui permet de décrire les proximités entre individus des tableaux deux à deux. Elles ont pour principe l’optimisation des critères sous contraintes, en construisant des bases orthonormées des espaces vectoriels afin de représenter graphiquement les données (individus et variables) . Etant donné que le développement de nouvelles méthodes en analyse des données n’a de l’intérêt que si elles sont appliquées aux données réelles, nous avons appliqué ces méthodes pour montrer leur intérêt pratique et servir de base de comparaison. Mots Clés. Méthodes duales, STATIS duale, AFM duale, multi, tableau vertical, analyse de co, inertie duale. 14
Improved Laplace Approximation EM algorithm for fitting nonlinear mixed effects models : empirical performance Vendredi 5 Juillet Honfo Sewanou Hermann1 , Tovissode Chénangnon1 , Glèlè Kakaï Romain 2 15h30-16h 1 Laboratoire de Biomathématiques et d’Estimations Forestières (Bénin), 2 Laboratory of Biomathematics and Forest Estimations (Bénin) Background : Nonlinear mixed effects models have gained interests in recent de- cades for modeling applied sciences’ phenomena. The good performance of these models rely on the accuracy of maximum likelihood estimation methods of parame- ters. Available algorithms such as EM algorithm still need improvement for providing more accurate estimations. The present study has proposed an extension of the EM algorithm using the Improved Laplace Approximation for obtaining restricted maxi- mum likelihood estimates in nonlinear mixed effects models. Methods : Four simulation studies have been conducted to assess the accuracy of the proposed EM algorithm and to compare it with regard to the standard Laplace approximation and the fully exponential Laplace approximation algorithms. The orange tree data has been used to assess the performance of the algorithm on real data. Results : The proposed EM algorithm provided significantly unbiased estimates for all fixed effects and variance-covariance components. The 95% confidence inter- vals often covered the true parameters’ values. Though, it reached convergence after considerable iterations. Concluding remarks Using the Improved Laplace approxi- mation in the E-step for approximating conditional expectations of the complete data sufficient statistics, has improved the estimation accuracy of both fixed and random effects of a nonlinear mixed effects models. Though, the proposed algorithm main drawback that needs to be fixed by upcoming studies was the time it takes before convergence. Mots Clés. Nonlinear mixed effects models, EM algorithm, Improved Laplace Ap- proximation, Maximum Likelihood Estimation. References : - Dempster AP, Laird NM, Rubin DB (1977) Maximum likelihood from incomplete data via the em algorithm. Journal of the royal statistical society Series B (metho- dological) pp 1-38 - Fu L, Wang M, Lei Y, Tang S (2014) Parameter estimation of two-level non-linear mixed effects models using first order conditional linearization and the em algorithm. Computational Statistics & Data Analysis 69 :173-183 - Kuhn E, Lavielle M (2005) Maximum likelihood estimation in nonlinear mixed effects models. Computational Statistics & Data Analysis 49(4) :1020-1038 - Lindstrom MJ, Bates DM (1990) Nonlinear mixed effects models for repeated mea- sures data. Biometrics pp 673-687 - Pinheiro JC, Bates DM (1995) Approximations to the log-likelihood function in the nonlinear mixed-effects model. Journal of computational and Graphical Statis- tics 4(1) :12-35 - Ruli E, Sartori N, Ventura L, et al (2016) Improved laplace approximation for marginal likelihoods. Electronic Journal of Statistics 10(2) :3986-4009 - Wang J (2007) Em algorithms for nonlinear mixed effects models. Computational 15
statistics & data analysis 51(6) :3244-3256 - Wolfinger R (1993) Laplace’s approximation for nonlinear mixed models. Biome- trika 80(4) :791-795 - Zhou M (2009) Fully exponential laplace approximation em algorithm for nonlinear mixed effects models Nonparametric estimation of the failure rate in a model of Vendredi lifetimes 5 Juillet 16h-16h30 Agbokou Komi1 , Gneyou Kossi1 1 Université de Lomé (Togo) In survival analysis, it is often necessary to model the link between the survival func- tion and a number of factors called explanatory variables or covariates. In the context of the analysis of a clinical trial, for example, it may be necessary to study data called "censored". Mathematically, a lifetime is nothing more than a non-negative random variable. This type of variable is common, particularly in medicine, epidemiology, finance, actuarial science and reliability. Our presentation is devoted to the intro- duction to survival analysis with a reminder of some basic notions about incomplete data and non-parametric estimation as well as the main estimators of the“failure rate" (again called “hazard rate" or “instant risk ") based on censored and / or trun- cated data in the presence of covariates. Then it deals with the strong representation of the kernel estimator of the conditional hazard rate for right-censored and / or left-truncated data with simulations Mots Clés. Nonparametric estimation, maximum conditional failure rate, censored data, truncated data, functional variable, strong representation. 16
Logos des sponsors et soutiens Nous remercions aussi très chaleureu- sement Pr. Ismael Castillo de l’Institut Universitaire de France pour son soutien à cette manifestation scientifique. 17
18
Index des auteurs Alhassane Garba Abdoulaziz, 9 Frihi Zahrate El Oula, 12 Ali , 10 Amagnide Aubin Guénolé, 8 Gueye Djibril, 13 Artières Thierry, 1 Hounmenou Gbêmêmali Castro, 7 Aw Alassane, 11 Kamila Karé, 13 Balogoun Armando, 9 Katchekpele Edoh, 14 Ben Hajria Raja, 11 Komi Agboko, 16 Ben Khadher Fatma, 12 Moudiki Thierry, 4 Chambaz Antoine, 2 Moulogho Issayaba Lavie Phanie, 14 Dabo-Niang Sophie, 1 Sewanou Hermann Honfo, 15 El Hadji Deme, 3 Sylla Seydou Nourou, 9 Fall Mame-Diarra, 4 Toure Aboubacar Yacouba, 7 19
Vous pouvez aussi lire