CREATION D'UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE
←
→
Transcription du contenu de la page
Si votre navigateur ne rend pas la page correctement, lisez s'il vous plaît le contenu de la page ci-dessous
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE Jean-Marc AOUIZERATE1 Gras Savoye2 Résumé : Cet article propose un indicateur synthétique qui évalue le niveau des garanties de complémentaires santé pour chaque poste de dépenses. Il présente l'avantage majeur de pouvoir comparer de manière homogène des garanties exprimées sur des assiettes différentes (B.R.3, frais réels, P.M.S.S.4, euro,...). Son estimation peut être obtenue en observant uniquement la consommation médicale en évitant ainsi de recourir à la lecture directe des tableaux de garanties. L'avantage de ce procédé est de pouvoir être déployé massivement sur un large panel de contrats. Cet indice représente le taux de couverture fictif qu'aurait une garantie si elle était appliquée à la consommation médicale de l'ensemble du portefeuille. Sa valeur mesurant la performance des garanties est comprise entre 0% et 100% (100% étant la prise en charge intégrale des dépenses). Son champ d'application est assez vaste : tarification, benchmark, pilotage technique, suivi d'un portefeuille... Mots-clefs : Imputation Multiple - Augmentation de Données - Indicateur de Garanties - Assurance Frais de Santé Abstract: This paper proposes a synthetic indicator that estimates the level of additional health guarantees for each medical expenses item. It presents the major advantage to compare, in a homogeneous way, guarantees expressed on different bases (B.R., real costs, P.M.S.S., euro...). It can be estimate only by observing the medical consumption without needing to read the guarantees tables. Other advantage, this process can be massively deployed on a large panel of contracts. This index represents the artificial cover rate of a guarantee applied to the medical consumption of the entire customer's portfolio. Its value measuring the performance guarantees sits between 0% and 100% (100% being the complete coverage of 1 Jean-Marc Aouizerate est actuaire en prévoyance et santé collective. Contact : aouizerate.jeanmarc@neuf.fr 2 Ces travaux ont été effectués de 2008 à 2010 au sein du Département Prévoyance et Retraite de Gras Savoye. 3 Base de Remboursement de la Sécurité sociale 4 Plafond Mensuel de la Sécurité Sociale BULLETIN FRANÇAIS D’ACTUARIAT, Vol. 12, n° 24, juin – décembre 2012, pp. 15 - 34
16 J.-M. AOUIZERATE the spending). It has a large field of applications: pricing, benchmark, technical piloting, portfolio control... Keywords: Multiple Imputation - Data Augmentation - Guarantees Indicator - Health Insurance 1. INTRODUCTION Un contrat complémentaire frais de santé se compose de plusieurs garanties élémentaires pour chacun des postes de dépenses (consultations/visites de généralistes, prothèses dentaires remboursées, monture adulte, ...). Chaque poste peut recouvrir un ou plusieurs actes médicaux définis selon la nomenclature de la Sécurité sociale (par exemple, une consultation de généraliste est codifiée avec la lettre-clé "C"). Les garanties ont une influence majeure sur le comportement de consommation médicale, comme le montre notamment une étude menée par l'IRDES 1 [BUC02]. L'article met en évidence que, selon l'hypothèse du risque moral tel qu'il est défini par les économistes, une meilleure prise en charge des dépenses par le régime complémentaire incite à dépenser davantage. En effet, la part des frais restant à la charge du bénéficiaire peut avoir un effet dissuasif et l'encourager à maîtriser davantage ses dépenses en le responsabilisant. Pour cette raison, le nombre d'actes et les prix augmentent généralement avec le niveau des garanties. La prise en compte de ce critère devient alors indispensable pour pouvoir étudier la consommation médicale de manière objective. Les garanties constituent un paramètre incontournable au même titre que le sexe, l'âge, la CSP ou encore la localisation géographique. L'intégration de ce facteur est généralement confrontée à deux problématiques : Premièrement, comme indiqué dans l'article de l'IRDES [BOC00], il existe une multitude d'expressions possibles pour définir une garantie sur un poste donné. Le comparatif entre des garanties exprimées sur des assiettes différentes peut s'avérer être difficile dans un bon nombre de situations. Lorsque les garanties sont exprimées sur une même assiette, la comparaison est instantanée. Par exemple, il est immédiat qu'une garantie à 400% de la B.R. est plus élevée qu'un autre à 300% de la B.R. En revanche, comment comparer une garantie à 90% des frais réels avec une garantie à 400% de la B.R. ? La réponse est moins évidente puisqu'aucune des deux garanties n'est supérieure à l'autre dans tous les cas de figure. Le prix de l'acte considéré permettra de déterminer laquelle des deux 1 Institut de Recherche et Documentation en Economie de la Santé
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 17 garanties offrira le meilleur remboursement. En fait, il existe un montant de frais réels charnière à partir duquel la garantie exprimée en pourcentage des frais réels devient plus performante que celle en pourcentage de la B.R. Dans cette situation précise, un classement des garanties ne peut pas être réalisé en lecture directe. Deuxièmement, l'accès aux garanties nécessite bien souvent d'aller se reporter directement aux contrats pour lire les tableaux de garanties. Cette action manuelle, peut alors demander un temps de traitement pouvant être très long si le périmètre d'étude recouvre un nombre important de contrats. L'indicateur proposé a pour objectif d'apporter une solution pratique et opérationnelle permettant de traduire automatiquement la notion de garantie sur les différents postes d'un contrat. L'article s'articule en quatre parties : les méthodes existantes, la problématique, la définition de l'indicateur de garantie et enfin, le traitement spécifique à apporter aux données manquantes. 2. PANORAMA DES METHODES EXISTANTES Plusieurs méthodes permettant de juger de l'efficacité d'une garantie sont définies ci- après. 2.1 La valeur de l'expression de garantie La garantie peut être mesurée directement par la valeur appliquée à l'assiette servant de référence pour le calcul du remboursement : soit un montant forfaitaire ou bien un pourcentage d'une base quelconque (BR ou PMSS). A titre d'exemples, une garantie à 400% de la BR est supérieure à une garantie à 300% de la BR ou encore, une garantie forfaitaire de 300 € est supérieure à une garantie forfaitaire de 200 € . Cette solution est la plus triviale et ne nécessite aucun traitement mais elle ne peut s'appliquer que dans le cas précis où les garanties sont exprimées sur la même assiette. Or, lorsque les périmètres étudiés sont vastes, il est rare que toutes les garanties soient exprimées de manière identique. 2.2 Le montant remboursé dans une situation de référence Cette méthode, telle que décrite dans un article de l'IRDES [COU04] consiste à comparer les différentes garanties mises en application dans un cas concret en définissant
18 J.-M. AOUIZERATE des biens de référence. Par exemple, en déterminant le remboursement d'un contrat pour une prothèse dentaire céramo-métalique fixe coûtant 750 €. Cet indicateur présente l'avantage de reposer sur un concept simple et pratique à la fois. En revanche, le coût de la prothèse servant d'exemple ne représente qu'une situation particulière. 2.3 Le montant maximum Un autre indicateur, défini dans un mémoire du C.E.A. [CRE95], consiste à retenir le montant maximum remboursé sur un contrat pour un acte donné. Comme précédemment, le concept est relativement simple et ne repose que sur une seule situation. L'avantage est qu'il peut être estimé massivement par traitement informatique en observant l'historique de consommation. En revanche, les valeurs aberrantes doivent être préalablement ôtées pour éviter que le maximum ne soit établi à partir de l'une d'entre elles. 2.4 Le taux de couverture Le taux de couverture est défini comme étant égal à la somme des montants remboursés rapportée au total des montants engagés. A consommation identique, le taux de couverture croît avec le niveau des garanties. L'utilisation de cet indicateur présente cependant un biais majeur : le prix des actes influe sur le taux de couverture. Différents facteurs tels que les garanties, la localisation géographique ou encore la CSP ont une influence certaine sur les frais réels moyens par acte. Or, à garanties égales, les actes les plus chers sont les moins bien couverts. Le taux de couverture ne reflète donc pas uniquement le niveau des garanties mais aussi le mode de consommation d'actes plus ou moins chers. Par exemple, des actes aux prix raisonnables peuvent être mieux couverts avec de faibles garanties que d'autres plus coûteux bénéficiant d'un régime haut de gamme. En conséquence, le taux de couverture ne donne une bonne indication du niveau des garanties que si le prix des actes reste homogène. 2.5 Synthèse des différents indicateurs Les principales caractéristiques des indicateurs de niveau de garantie (méthodes existantes et celle proposée) sont résumées dans le tableau suivant :
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 19 SYNTHESE Automatisation Intégration de Comparaison Méthode à partir de la volatilité du de différentes Remarques l'historique prix des actes assiettes Applicable que La valeur de non non non dans un cas l'expression précis Très sensible Le montant oui non oui aux valeurs maximum aberrantes Ne reflète La situation de non non oui qu'un unique référence cas Le taux de Biaisé par le oui oui oui couverture prix des actes Le biais L'indicateur oui oui oui précédent est proposé corrigé 3. LA PROBLEMATIQUE Reprenons l'exemple précédent : « Comment comparer une garantie à 90% des frais réels avec une autre à 400% de la BR ? ». Appliquons celui-ci dans le cas d'une prothèse dentaire de type « SPR50 » dont le montant des frais réels s'élève à 500 €. La Sécurité sociale rembourse : 70% 107,50 € , soit 75,25 € , la garantie à 90% des frais réels : 374,75 € et celle à 400% de la BR : 424,75 €. Si le montant des frais réels s'élevait à 800 €, la première garantie rembourserait : 644,75 € et la deuxième : 430 €. Lorsque le montant des frais réels dépasse (430 75, 25) / 90% = 561, 40 €, la garantie à 90% des frais réels offre un meilleur remboursement que celle à 400% de la BR. Selon l'importance des montants de dépenses engagées, l'une ou l'autre des garanties peut être la plus avantageuse. De ce fait, il n'est pas possible d'effectuer une comparaison entre deux garanties, qui serait systématiquement vérifiée dans toutes les situations. L'exemple suivant illustre la problématique de comparaison entre les deux garanties évoquées précédemment.
20 J.-M. AOUIZERATE Figure 1: Comparatif de garanties 4. LE PRINCIPE Bien que naturelle, l'utilisation du taux de couverture pour mesurer la performance des garanties présente un biais important : les écarts de prix des actes consommés sur un même poste de dépenses. L'idée maîtresse de cet indicateur est d'apporter un correctif afin de neutraliser l'effet du prix des actes. Le taux de couverture corrigé n'est plus celui réellement observé sur la consommation médicale du contrat étudié. Ce nouveau taux est simulé en appliquant les garanties du contrat à une base commune de dépenses servant de référentiel, à savoir : l'ensemble des prestations du portefeuille. En procédant ainsi, les taux de couvertures sont évalués dans les mêmes conditions. Les différences de coûts des actes n'ont alors plus d'incidence dans le calcul du taux de couverture. Contrairement à la méthode employée par l'IRDES, l'indicateur ne porte plus sur une seule situation de référence, mais sur l'ensemble des cas observés sur le portefeuille. L'indicateur se positionne dans une situation moyenne qui intègre la volatilité des prix. Cet indicateur pourrait être défini comme suit : Définition. Indicateur de garanties Pour un poste de dépenses donné, il s'agit du taux de couverture fictif qu'aurait un contrat si ses garanties étaient appliquées sur l'ensemble du portefeuille.
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 21 Une simulation de garantie ligne à ligne sur l'ensemble d'un portefeuille est souvent trop lourde à mettre en œ uvre. Pour contourner cette difficulté, la simulation est approchée en utilisant la dispersion des frais réels moyens par acte sur l'ensemble du portefeuille. Pour chaque poste, la distribution des frais réels est discrétisée par tranches de coûts. Les pas des tranches sont calibrés en fonction des postes de dépenses et sont exprimés selon l'assiette de garantie la plus utilisée (par exemple, des tranches de 2% du PMSS pour les montures ou les verres, de 50% de la BR pour les consultations ou les prothèses dentaires...) Pour le poste d'un contrat étudié, les étapes à suivre sont les suivantes : - Définir des tranches de dépenses sur le poste considéré, - Calculer, sur le périmètre étudié (contrat), le taux de couverture de chaque tranche T , (Montant des remboursements rapporté au montant des frais réels), 1 - Calculer, sur l'ensemble du portefeuille, pour chacune d'entre-elles, le poids des frais réels (Montant des frais réels de la tranche rapporté à l'ensemble des frais réels), - Calculer, pour chaque tranche T : (poids de la tranche T ) (taux de couverture de la tranche T ), - Sommer ces produits. La traduction mathématique avec 11 tranches Tk = {x ] k , k 1 ] | k {1, 2,..,11}} est la suivante : Soient sur le i -ème décompte, les frais réels notés FRi , les remboursements de la Sécurité sociale SSi , les remboursements complémentaires COi et le nombre d'actes ni . Soient P l'ensemble des décomptes du portefeuille et C l'ensemble des décomptes du contrat étudié tel que C P . Le poids de la tranche Tk calculée sur l'ensemble P des décomptes du portefeuille : FR 1 iP i { FRi / ni Tk } Poids P , k = (1) FR iP i Le taux de couverture de la tranche Tk calculé sur l'ensemble C des décomptes du contrat : 1 y compris les remboursements d'autres mutuelles
22 J.-M. AOUIZERATE SS 1 iC i { FRi / ni Tk } COi 1{ FR / n iC i i Tk } Couverture C , k = (2) FR 1 iC i { FRi / ni Tk } Au final, l'indicateur sur le contrat étudié : 11 Indicateur P ,C = Poids P , k Couverture P , k k =1 (1) (2) Avec la répartition des frais réels observée en 2007 sur le portefeuille Gras Savoye et un contrat ayant une garantie à 400% de la B.R. sur le poste prothèses dentaires, l'indicateur est obtenu de la façon suivante : Répartition Taux de des F.R. sur Produit Tranches de dépense couverture sur le Poids P , k Couverture C , k Tk =] k , k 1 ] portefeuille le contrat Couverture C , k Poids P , k 100% B.R.* 0,02% 100,00% 0,02% ]100% B.R.-200% B.R.] 0,10% 100,00% 0,10% ]200% B.R.-300% B.R.] 6,26% 100,00% 6,26% ]300% B.R.-400% B.R.] 12,18% 100,00% 12,18% ]400% B.R.-500% B.R.] 31,50% 100,00% 31,50% ]500% B.R.-600% B.R.] 30,64% 74,17% 22,73% ]600% B.R.-700% B.R.] 13,27% 73,44% 9,75% ]700% B.R.-800% B.R.] 3,42% 63,74% 2,18% ]800% B.R.-900% B.R.] 1,14% 57,24% 0,65% ]900% B.R.-1000% B.R.] 0,74% 50,68% 0,38% 1000% B.R. 0,74% 42,46% 0,31% Indicateur de garantie = k =1Poids P , k Couverture C , k = 86,05% 11 *B.R. = 50 2,15 = 107,50 La valeur de l'indicateur de 86,05% correspond à une estimation du taux de couverture obtenu en appliquant les garanties du contrat considéré sur l'ensemble des prestations observées sur le portefeuille. 5. LES DONNEES MANQUANTES Le calcul de l'indicateur à partir de l'historique d'un contrat nécessite de connaître le taux de couverture de chaque tranche de dépense. Pour cela, il faut disposer au minimum de l'observation d'un acte dans chacune des tranches, ce qui n'est pas toujours le cas. En effet, les taux de couverture sont d'autant plus difficiles à observer que les effectifs couverts sont
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 23 faibles et que la tranche considérée est peu courante. Dans une moindre mesure, le niveau d'intervention du régime complémentaire peut influencer le prix des actes et favoriser l'observation de certaines tranches au détriment d'autres. En négligeant ce dernier point, les taux de couverture manquants peuvent être considérés comme Missing At Random (MAR). En d'autres termes, la probabilité qu'une observation soit manquante ne dépend que des variables observées et pas de la valeur. La méthode Data Augmentation utilisée plus loin suppose que cette hypothèse soit vérifiée. Figure 2: Exemple : prothèse dentaire Par bénéficiaire, 39% des tranches n'ont pas pu être observées. La solution proposée est de compléter ces informations manquantes selon la nature des dépenses : - Les frais réels, de même que les remboursements de la Sécurité sociale, sont remplacés par les données moyennes observées sur le portefeuille sur la tranche considérée, - Les remboursements complémentaires sont simulés à partir d'une modélisation statistique, la méthode dite d’« Imputation Multiple avec Data Augmentation » (Méthode de Monte Carlo par Chaîne de Markov). Cette technique permet de prendre en compte les corrélations entre les tranches de couverture tout en conservant l'incertitude liée aux données manquantes. 5.1 L'Imputation Multiple La solution envisagée pour les remboursements complémentaires est d'estimer les valeurs manquantes par la méthode d’« Imputation Multiple » qui permet de générer plusieurs jeux de données où les valeurs manquantes sont complétées par plusieurs valeurs
24 J.-M. AOUIZERATE plausibles. L'intérêt de cette méthode est de refléter correctement l'incertitude des valeurs manquantes tout en préservant les aspects importants des distributions ainsi que les relations entre les variables. Cette technique constitue une alternative intéressante pour contrer le problème des données manquantes. Développés en premier par Rubin [RUB87] dans un contexte de sondage avec non-réponse puis par Schafer [SCH97], ces modèles d'imputation multiple s'inscrivent dans un cadre bayésien visant à générer des données manquantes. Ce processus décrit par Rubin s'organise en trois étapes : - Imputation : Chaque donnée manquante est complétée par m > 1 valeurs simulées afin de générer m jeux de données. Différentes méthodes peuvent être utilisées pour le remplacement des données manquantes : score de propension, régression (linéaire, log-linéaire ou logistique) ou encore MCMC. - Analyse : Les m jeux de données complétées peuvent ainsi être analysés indépendamment par des techniques classiques de régression pour obtenir une estimation des paramètres d'intérêt de la modélisation. Un grand avantage de cette méthode réside dans la faculté de pouvoir utiliser des méthodes statistiques standard sur des ensembles complets de données, après imputation. - Combinaison des résultats : Les m jeux de données sont ensuite combinés pour estimer les paramètres d'intérêt du modèle. L'assemblage des résultats des m analyses permet ainsi de refléter la variabilité supplémentaire due aux données manquantes. Une étude de la variance peut ensuite être menée pour mesurer l'influence de la non-observation des données sur les estimations. Figure 3: Méthodologie de l'imputation multiple
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 25 La méthode choisie pour simuler les valeurs manquantes est une méthode de Monte Carlo par Chaîne de Markov (M.C.M.C) dite d' Augmentation de Données ou Data Augmentation. Les paragraphes suivants esquissent une ébauche succincte des notions sous-jacentes dont elle découle. 5.2 Méthodes de Monte Carlo par Chaîne de Markov (M.C.M.C.) 5.2.1 Généralités Les méthodes de Monte Carlo par Chaînes de Markov ont été initialement élaborées pour répondre à des problématiques physiques telles que l'exploration des distributions d'équilibre des interactions moléculaires. Leur essor depuis le début des années 90 est essentiellement dû au développement des techniques informatiques et notamment grâce aux vitesses de calcul qui n'ont cessé de s'accroître. Elles sont utilisées principalement pour l'échantillonnage de variables aléatoires, le calcul d'intégrales et l'optimisation de fonctions lorsqu'il n'existe pas de solutions analytiques, ou pour résoudre des problèmes en grande dimension. Les méthodes les plus connues sont : l'algorithme de Hastings-Métropolis, l'échantillonneur de Gibbs et la Data Augmentation. Pour approfondir le sujet de manière plus détaillée, le lecteur pourra se référer à l'ouvrage de Christian Robert [ROB96]. 5.2.2 Principe des méthodes M.C.M.C. L'idée sous-jacente des méthodes MCMC est de construire une chaîne de Markov prenant la forme d'une marche guidée pour explorer l'espace multidimensionnel des paramètres pour parvenir à estimer une distribution de probabilité en les échantillonnant périodiquement. Les méthodes MCMC s'inscrivent dans une approche d'inférence bayésienne où l'information des paramètres inconnus est contenue dans la loi de distribution a posteriori p ( | y ) qui est obtenue en utilisant le Théorème de Bayes : Théorème 5.1 (Théorème de Bayes) La version continue du théorème de Bayes découle directement des théorèmes des probabilités totales et composées. La densité de conditionnellement à y notée p ( | y ) est donnée par la relation suivante : p ( y | ) p ( ) p( y | ) p ( ) p( | y ) = = p( y) p( y | ) p( )d La distribution a priori de ce paramètre aléatoire p ( ) et la vraisemblance p ( y | )
26 J.-M. AOUIZERATE des observations y définissent ainsi le cadre du modèle. Le facteur de normalisation p ( y ) est une constante indépendante de ce qui réduit le théorème de la façon suivante : p ( | y ) p( y | ) p ( ) Plusieurs finalités de l'analyse bayésienne peuvent se résumer à calculer, quelle que soit la fonction g où l'espérance existe, l'expression suivante : ( g ( ) | y ) = g ( ) p( | y )dy Or, il n'est quasiment jamais possible d'obtenir l'expression précédente analytiquement, d'où la nécessité de recourir à des simulations. Le principe général des méthodes de Monte Carlo est de tirer aléatoirement un échantillon ( m) selon p ( | y ) pour chaque valeur de m jusqu'à M , pour ensuite utiliser la relation de convergence suivante : 1 M (m) p.s g ( ) ( g ( ) | y ) M m =1 Les méthodes de Monte Carlo par Chaînes de Markov permettent de générer une chaîne de Markov ( m) dont les échantillons sont distribués asymptotiquement selon la loi a posteriori p ( | y ) . 5.2.3 Data Augmentation L'algorithme Data Augmentation est une méthode de Monte Carlo par Chaînes de Markov particulièrement adaptée pour traiter les problèmes de données manquantes. Cette technique proposée par Tanner et Wong [TAN87] est une forme particulière de l'échantillonneur de Gibbs, elle fut développée ensuite par Schafer dans les ouvrages suivants [SCH97] [SCH98]. Le principe de la méthode d'augmentation des données consiste à assimiler les observations manquantes comme des paramètres supplémentaires à estimer. L'échantillon ainsi augmenté est traité comme s'il était complet afin d'exploiter l'échantillonnage de Gibbs. Dans la problématique étudiée ici, Ymqt et Yobs s'appliquent aux montants des remboursements complémentaires moyens dans chacune des tranches de dépenses, désigne les moyennes et covariances correspondantes. Sous hypothèse que les données suivent une distribution normale multivariée, l'augmentation de données peut être appliquée en répétant alternativement les deux étapes suivantes :
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 27 - Etape « I-step » : Imputation des données manquantes ( t 1) Ymqt P(Ymqt / Yobs , (t ) ) Partant d'une estimation du vecteur moyenne et de la matrice de covariance, les données manquantes sont simulées pour chaque observation indépendamment. En notant Ymqt les variables ayant des données manquantes et Yobs celles ayant des valeurs observées, les données manquantes sont alors tirées selon la distribution conditionnelle aux données observées. - Etape « P-step » : Distribution des paramètres a posteriori (t 1) P( / Yobs , Ymqt ( t 1) ) Partant d'une base complétée, cette étape consiste en la simulation a posteriori du vecteur moyenne et de la matrice de covariance. Cette estimation sera ensuite utilisée dans l'étape « I-step ». Le déroulement de cette étape va dépendre de l'information a priori dont on dispose sur les paramètres. 1 La chaîne de Markov ainsi créée : (Ymqt , (1) ), (Ymqt 2 , (2) ),..., (Ymqt t , (t ) ) converge en probabilité vers la distribution prédictive a posteriori des données P (Ymqt , / Yobs ) . Par ce biais, sont simulés alternativement données manquantes et paramètres. Cette méthode nécessite des valeurs de départ pour les paramètres, une bonne pratique peut consister à les initialiser en appliquant des algorithmes Espérance-Maximisation. 5.3 Application de la méthode aux tranches de dépenses non observées 5.3.1 Postulats requis pour la Data Augmentation L'application de la méthode de Data Augmentation nécessite que les données manquantes soient de type M.A.R. pour éviter que les résultats ne soient biaisés. Comme indiqué précédemment, les tranches non observées sont supposées vérifier globalement cette hypothèse. L'hypothèse que les données suivent une loi normale multivariée doit également pouvoir être vérifiée. Bien que l'allure générale de la distribution soit en forme de « cloche », l'hypothèse de normalité n'est pas validée pour deux raisons. Premièrement, la plupart des tests statistiques ont rejeté cette hypothèse. Deuxièmement, une distribution normale prévoit des valeurs négatives, or les remboursements complémentaires sont par définition positifs. Pour autant, Schafer et Graham [SCH02] précisent que la méthode reste efficace même dans les cas où les données ne se conforment pas complètement à ce postulat
28 J.-M. AOUIZERATE de normalité et qu'elle fournit d'excellents résultats dans un bon nombre de situations. Bien que les données ne suivent pas rigoureusement une loi normale, la robustesse de la méthode à cette hypothèse permet néanmoins de l'appliquer. 5.3.2 Phase Imputation Le nombre de simulations retenu est de 5 jeux de données en suivant les préconisations de Rubin, avec imputation par la méthode MCMC avec Data Augmentation. Les valeurs de départ des paramètres sont initialisées par un algorithme E.M.(Expectation-Maximization) Chacune des observations a été pondérée par son montant des frais réels afin que les tranches soient prises en compte selon l'importance de leur volume de dépenses. Comme chaque état d'une chaîne de Markov a une influence sur le suivant, 200 itérations ont été réalisées avant la première imputation puis 100 entre les suivantes. Cette pratique permet d'éliminer les séries de dépendance sur les valeurs de départ pour tendre vers une distribution stationnaire. En supposant qu'il n'y avait a priori pas d'information sur l'estimation des moyennes et des covariances, la distribution de Jeffreys ([SCH97], page 154) a été retenue. La méthode MCMC avec Data Augmentation a ensuite été appliquée sur les cinq jeux de données afin qu'ils deviennent entièrement complétés. Pour cela, les paramètres d'intérêts (moyennes et covariances) ont été évalués de proche en proche comme le montre l'exemple suivant. Figure 4: Estimation de la moyenne par Data Augmentation
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 29 La connaissance de toutes les dépenses moyennes sur les cinq jeux ainsi complétés va permettre de calculer l'indicateur de garantie pour chacun des contrats. Préalablement, une phase d'analyse doit être effectuée sur chaque jeu pour vérifier la cohérence des données imputées. Eventuellement, une action pourra être menée sur celles qui ne respectent pas certaines règles communes à l'ensemble des garanties définies dans la section suivante. 5.3.3 Phase Analyse Dans cette phase d'analyse statistique, plutôt que d'appliquer un modèle de régression comme le prévoit la méthodologie générale d'imputation multiple telle qu'elle est décrite par Rubin, la cohérence des valeurs imputées va être testée, pour les modifier si besoin. Les critères qui ont été testés sont les suivants : - Les remboursements complémentaires moyens doivent être positifs, - Les remboursements complémentaires moyens additionnés aux autres dépenses ne peuvent pas dépasser le montant des frais réels, - Les remboursements complémentaires moyens imputés doivent être supérieurs à ceux de la tranche précédente. Ce test a permis de mettre en évidence que 3% des tranches imputées avaient des remboursements complémentaires hors normes. Ces valeurs ont ensuite été corrigées de telle sorte à ce que la logique assurantielle liée aux garanties soit respectée. A ce stade, cinq jeux de données complètes et cohérentes bénéficiant pour chaque contrat d'un indicateur de niveau de garantie synthétique ont été créés. Ces jeux doivent ensuite être combinés pour en obtenir un seul. 5.3.4 Phase Combinaison des résultats En s'inspirant de la méthodologie proposée par Rubin, l'indicateur de niveau de i garantie Indic est obtenu simplement en prenant la moyenne des cinq indicateurs Indic calculés sur chaque jeu d'imputation. En notant l'imputation i , pour un contrat donné, l'indicateur vaut : 1 5 Indic = i =1Indic i 5 En moyenne par contrat, la variance inter-imputation (écart-type de 0,11%) reste très nettement inférieure à celle intra-imputation (écart-type de 15,4%). Ce constat tend à
30 J.-M. AOUIZERATE prouver que l'inférence liée à la non observation des données manquantes préserve l'information contenue dans le calcul de l'indicateur. L'objectif recherché a été atteint en intégrant la volatilité liée à la non observation dans la construction de l'indice proposé. 6. APPLICATIONS PRATIQUES DE L'INDICATEUR 6.1 Correspondance de l'indicateur en libellés de garantie usuels A des fins commerciales, l'indicateur de garantie peut être converti dans une expression de garantie courante. Le niveau de garantie peut être représenté en fonction de la valeur de l'indicateur. Cette approche permet de savoir quel niveau de garantie il faudrait appliquer à l'ensemble du portefeuille pour obtenir un taux de couverture souhaité. Le calcul de la correspondance se fait par itérations successives en faisant augmenter la garantie jusqu'à ce que la valeur de l'indicateur recherchée soit atteinte. Figure 5: Correspondance entre Indicateurs et Garanties Dans l'exemple d'une couronne dentaire, pour atteindre un taux de couverture de 90%, il faudrait mettre en place une garantie à 400 % de la BR. Cette indication peut fournir une première approche à une entreprise pour la guider dans son choix de garanties à mettre en place, selon l'efficacité recherchée.
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 31 6.2 Benchmark Dans le cadre d'un benchmark d'une entreprise avec son secteur d'activité, les indicateurs de garanties des principaux postes peuvent être comparés sur un seul et même graphique en utilisant une représentation par secteurs. Le positionnement de l'entreprise par rapport à son référentiel est alors immédiat. Figure 6: Exemple d'application : Benchmark Dans cet exemple, l'entreprise possède globalement des garanties de niveau supérieur à son secteur d'activité. Ce constat peut alors l'aider dans le pilotage de son régime en lui fournissant des éléments de comparaisons synthétisés en une page. 6.3 Influence des garanties sur le mode de consommation Comme indiqué précédemment, le niveau de garantie a une influence certaine sur les prix et la fréquence de consommation. L'exemple suivant illustre l'une des deux composantes : l'incidence sur les prix. Ces données sont estimées à partir de l'ensemble du portefeuille.
32 J.-M. AOUIZERATE Figure 7: Prix d'une monture selon la garantie A titre d'exemple, le prix moyen d'une monture peut être majoré de près 50% entre une faible garantie et une garantie haut de gamme. 7. CONCLUSIONS Cet article présente la méthodologie à suivre pour la mise en place d'un indicateur de garanties dans le cadre de régimes complémentaires santé. Cette approche novatrice utilisant notamment des méthodes M.C.M.C. permet de quantifier l'efficacité des garanties de manière homogène quel que soit leur mode d'expression. Le calcul peut être automatisé à grande échelle ce qui lui permet de trouver ainsi une utilité dans de nombreuses applications telles que la tarification ou des études comparatives. Cet indicateur constitue un nouvel outil pratique apportant une aide au pilotage de régimes complémentaires frais de santé.
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE 33 REFERENCES [BOC00] BOCOGNANO A., COUFFINHAL A., DUMESNIL S., GRIGNON M. (2000) : La complémentaire maladie en France : qui bénéficie de quels remboursements ? Résultats de l'enquête Santé Protection Sociale 1998, CREDES, n°1317, octobre 2000, p. 150-86 [BUC02] BUCHMUELLER T., COUFFINHAL A., GRIGNON M., PERRONNIN M., SZWARCENSZTEIN (2002) : Consulter un généraliste ou un spécialiste : influence des couvertures complémentaires sur le recours aux soins, Question d'économie de la santé, Bulletin d'information en économie de la santé, CREDES, n°47, janvier 2002 [COU04] COUFFINHAL A., PERRONNIN M. (2004) : Accès à la couverture complémentaire maladie en France : Une comparaison des niveaux de remboursement, Enquêtes ESPS 2000-2002, CREDES, n°1521, avril 2004, p.29-30 [CRE95] CRETY L., WENCKER A. (1995) : Frais de santé : de la tarification à la maîtrise des dépenses, Mémoire d'actuariat, C.E.A. (Centre d'Etudes Actuarielles), p. 117 [DRO02] DROESBEKE J.J., FINE J., SAPORTA G. (2002) : Méthodes bayésiennes en statistique, Editions Technip, 2002 [GEM84] GEMAN S., GEMAN D. (1984) : Stochastic Relaxation, Gibbs Distribution and the Bayesian Restoration of Images, IEEE Transactions on Pattern Analysis and Machine Intelligence, n°6, p. 721-741 [LEN05] LENGAGNE P., PERRONNIN M. (2005) : Questions d'économie de la santé, Bulletin d'information en économie de la santé, CREDES, n°100, novembre 2005 [NAK05] NAKACHE J.P., GUEGUEN A. (2005) : Analyse multidimensionnelle de données incomplètes, Revue de statistique appliquée, vol. LIII, n°3, p. 35-62 [ROB96] ROBERT C.P. (1996) : Méthodes de Monte Carlo par chaînes de Markov, Economica, Paris [RUB78] RUBIN D.B. (1978) : Multiple imputation in sample surveys - A phenomenological Bayesian approach to nonresponse, Proceedings of the Survey Research Methods Section, American Statistical Association, p. 20--34 [RUB87] RUBIN D.B. (1987) : Multiple Imputation for Nonresponse in Surveys, John Wiley & sons [SCH97] SCHAFER J.L. (1997) : Analysis of Incomplete Multivariate Data by Simulation, Chapman and Hall, New-York
34 J.-M. AOUIZERATE [SCH98] SCHAFER J.L., OLSEN M.K. (1998) : Multiple Imputation for Multivariate Missing Data Problems : a Data Analyst's Perspective, Multivariate Behavorial Research, vol. 33, p. 545-571 [SCH02] SCHAFER J.L., GRAHAM J.W. (2002) : Missing Data: Our View of the State of the Art, Psychological Methods, vol. 7, n°2, p. 147-177 [TAN87] TANNER M.A., WONG W.H. (1987) : The Calculation of Posterior Distributions by Data Augmentation, Journal of American Statistical Association, vol. 82, n°398, p. 528-540 [WAY03] WAYMAN J.C. (2003) : Multiple Imputation For Missing Data: What Is It And How Can I Use It?, Annual Meeting of the American Educational Research Association, Chicago, IL.
Vous pouvez aussi lire