CREATION D'UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE

La page est créée Guillaume Baron
 
CONTINUER À LIRE
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE
                    EN FRAIS DE SANTE

                                       Jean-Marc AOUIZERATE1
                                               Gras Savoye2

        Résumé :
        Cet article propose un indicateur synthétique qui évalue le niveau des garanties de
complémentaires santé pour chaque poste de dépenses. Il présente l'avantage majeur de
pouvoir comparer de manière homogène des garanties exprimées sur des assiettes
différentes (B.R.3, frais réels, P.M.S.S.4, euro,...). Son estimation peut être obtenue en
observant uniquement la consommation médicale en évitant ainsi de recourir à la lecture
directe des tableaux de garanties. L'avantage de ce procédé est de pouvoir être déployé
massivement sur un large panel de contrats. Cet indice représente le taux de couverture
fictif qu'aurait une garantie si elle était appliquée à la consommation médicale de
l'ensemble du portefeuille. Sa valeur mesurant la performance des garanties est comprise
entre 0% et 100% (100% étant la prise en charge intégrale des dépenses). Son champ
d'application est assez vaste : tarification, benchmark, pilotage technique, suivi d'un
portefeuille...
        Mots-clefs : Imputation Multiple - Augmentation de Données - Indicateur de
Garanties - Assurance Frais de Santé

        Abstract:
        This paper proposes a synthetic indicator that estimates the level of additional health
guarantees for each medical expenses item. It presents the major advantage to compare, in a
homogeneous way, guarantees expressed on different bases (B.R., real costs, P.M.S.S.,
euro...). It can be estimate only by observing the medical consumption without needing to
read the guarantees tables. Other advantage, this process can be massively deployed on a
large panel of contracts. This index represents the artificial cover rate of a guarantee applied
to the medical consumption of the entire customer's portfolio. Its value measuring the
performance guarantees sits between 0% and 100% (100% being the complete coverage of
1
  Jean-Marc Aouizerate est actuaire en prévoyance et santé collective. Contact : aouizerate.jeanmarc@neuf.fr
2
  Ces travaux ont été effectués de 2008 à 2010 au sein du Département Prévoyance et Retraite de Gras Savoye.
3
  Base de Remboursement de la Sécurité sociale
4
  Plafond Mensuel de la Sécurité Sociale

BULLETIN FRANÇAIS D’ACTUARIAT, Vol. 12, n° 24, juin – décembre 2012, pp. 15 - 34
16                                               J.-M. AOUIZERATE

the spending). It has a large field of applications: pricing, benchmark, technical piloting,
portfolio control...
           Keywords: Multiple Imputation - Data Augmentation - Guarantees Indicator -
Health Insurance

1.         INTRODUCTION
           Un contrat complémentaire frais de santé se compose de plusieurs garanties
élémentaires pour chacun des postes de dépenses (consultations/visites de généralistes,
prothèses dentaires remboursées, monture adulte, ...). Chaque poste peut recouvrir un ou
plusieurs actes médicaux définis selon la nomenclature de la Sécurité sociale (par exemple,
une consultation de généraliste est codifiée avec la lettre-clé "C").
           Les garanties ont une influence majeure sur le comportement de consommation
médicale, comme le montre notamment une étude menée par l'IRDES 1 [BUC02]. L'article
met en évidence que, selon l'hypothèse du risque moral tel qu'il est défini par les
économistes, une meilleure prise en charge des dépenses par le régime complémentaire
incite à dépenser davantage. En effet, la part des frais restant à la charge du bénéficiaire
peut avoir un effet dissuasif et l'encourager à maîtriser davantage ses dépenses en le
responsabilisant. Pour cette raison, le nombre d'actes et les prix augmentent généralement
avec le niveau des garanties. La prise en compte de ce critère devient alors indispensable
pour pouvoir étudier la consommation médicale de manière objective. Les garanties
constituent un paramètre incontournable au même titre que le sexe, l'âge, la CSP ou encore
la localisation géographique.
           L'intégration de ce facteur est généralement confrontée à deux problématiques :
           Premièrement, comme indiqué dans l'article de l'IRDES [BOC00], il existe une
multitude d'expressions possibles pour définir une garantie sur un poste donné. Le
comparatif entre des garanties exprimées sur des assiettes différentes peut s'avérer être
difficile dans un bon nombre de situations. Lorsque les garanties sont exprimées sur une
même assiette, la comparaison est instantanée. Par exemple, il est immédiat qu'une garantie
à 400% de la B.R. est plus élevée qu'un autre à 300% de la B.R. En revanche, comment
comparer une garantie à 90% des frais réels avec une garantie à 400% de la B.R. ? La
réponse est moins évidente puisqu'aucune des deux garanties n'est supérieure à l'autre dans
tous les cas de figure. Le prix de l'acte considéré permettra de déterminer laquelle des deux

1
    Institut de Recherche et Documentation en Economie de la Santé
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                  17

garanties offrira le meilleur remboursement. En fait, il existe un montant de frais réels
charnière à partir duquel la garantie exprimée en pourcentage des frais réels devient plus
performante que celle en pourcentage de la B.R. Dans cette situation précise, un classement
des garanties ne peut pas être réalisé en lecture directe.
         Deuxièmement, l'accès aux garanties nécessite bien souvent d'aller se reporter
directement aux contrats pour lire les tableaux de garanties. Cette action manuelle, peut
alors demander un temps de traitement pouvant être très long si le périmètre d'étude
recouvre un nombre important de contrats.
         L'indicateur proposé a pour objectif d'apporter une solution pratique et
opérationnelle permettant de traduire automatiquement la notion de garantie sur les
différents postes d'un contrat.
         L'article s'articule en quatre parties : les méthodes existantes, la problématique, la
définition de l'indicateur de garantie et enfin, le traitement spécifique à apporter aux
données manquantes.

2.       PANORAMA DES METHODES EXISTANTES
         Plusieurs méthodes permettant de juger de l'efficacité d'une garantie sont définies ci-
après.

2.1      La valeur de l'expression de garantie
         La garantie peut être mesurée directement par la valeur appliquée à l'assiette servant
de référence pour le calcul du remboursement : soit un montant forfaitaire ou bien un
pourcentage d'une base quelconque (BR ou PMSS). A titre d'exemples, une garantie à
400% de la BR est supérieure à une garantie à 300% de la BR ou encore, une garantie
forfaitaire de 300 € est supérieure à une garantie forfaitaire de 200 € .
         Cette solution est la plus triviale et ne nécessite aucun traitement mais elle ne peut
s'appliquer que dans le cas précis où les garanties sont exprimées sur la même assiette. Or,
lorsque les périmètres étudiés sont vastes, il est rare que toutes les garanties soient
exprimées de manière identique.

2.2      Le montant remboursé dans une situation de référence
         Cette méthode, telle que décrite dans un article de l'IRDES [COU04] consiste à
comparer les différentes garanties mises en application dans un cas concret en définissant
18                                      J.-M. AOUIZERATE

des biens de référence. Par exemple, en déterminant le remboursement d'un contrat pour
une prothèse dentaire céramo-métalique fixe coûtant 750 €. Cet indicateur présente
l'avantage de reposer sur un concept simple et pratique à la fois. En revanche, le coût de la
prothèse servant d'exemple ne représente qu'une situation particulière.

2.3    Le montant maximum
       Un autre indicateur, défini dans un mémoire du C.E.A. [CRE95], consiste à retenir
le montant maximum remboursé sur un contrat pour un acte donné. Comme précédemment,
le concept est relativement simple et ne repose que sur une seule situation. L'avantage est
qu'il peut être estimé massivement par traitement informatique en observant l'historique de
consommation. En revanche, les valeurs aberrantes doivent être préalablement ôtées pour
éviter que le maximum ne soit établi à partir de l'une d'entre elles.

2.4    Le taux de couverture
       Le taux de couverture est défini comme étant égal à la somme des montants
remboursés rapportée au total des montants engagés. A consommation identique, le taux de
couverture croît avec le niveau des garanties. L'utilisation de cet indicateur présente
cependant un biais majeur : le prix des actes influe sur le taux de couverture. Différents
facteurs tels que les garanties, la localisation géographique ou encore la CSP ont une
influence certaine sur les frais réels moyens par acte. Or, à garanties égales, les actes les
plus chers sont les moins bien couverts. Le taux de couverture ne reflète donc pas
uniquement le niveau des garanties mais aussi le mode de consommation d'actes plus ou
moins chers. Par exemple, des actes aux prix raisonnables peuvent être mieux couverts avec
de faibles garanties que d'autres plus coûteux bénéficiant d'un régime haut de gamme. En
conséquence, le taux de couverture ne donne une bonne indication du niveau des garanties
que si le prix des actes reste homogène.

2.5    Synthèse des différents indicateurs
        Les principales caractéristiques des indicateurs de niveau de garantie (méthodes
existantes et celle proposée) sont résumées dans le tableau suivant :
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                    19

                                         SYNTHESE
                    Automatisation      Intégration de      Comparaison
        Méthode       à partir de       la volatilité du    de différentes      Remarques
                     l'historique        prix des actes        assiettes
                                                                              Applicable que
 La valeur de
                          non                 non                non          dans un cas
 l'expression
                                                                              précis
                                                                              Très sensible
 Le montant
                           oui                non                oui          aux valeurs
 maximum
                                                                              aberrantes
                                                                              Ne reflète
 La situation de
                          non                 non                oui          qu'un unique
 référence
                                                                              cas
 Le taux de                                                                   Biaisé par le
                           oui                oui                oui
 couverture                                                                   prix des actes
                                                                              Le biais
 L'indicateur
                           oui                oui                oui          précédent est
 proposé
                                                                              corrigé

3.     LA PROBLEMATIQUE
       Reprenons l'exemple précédent : « Comment comparer une garantie à 90% des frais
réels avec une autre à 400% de la BR ? ». Appliquons celui-ci dans le cas d'une prothèse
dentaire de type « SPR50 » dont le montant des frais réels s'élève à 500 €.
       La Sécurité sociale rembourse : 70%  107,50 € , soit 75,25 € , la garantie à 90% des
frais réels : 374,75 € et celle à 400% de la BR : 424,75 €. Si le montant des frais réels
s'élevait à 800 €, la première garantie rembourserait : 644,75 € et la deuxième : 430 €.
       Lorsque le montant des frais réels dépasse (430  75, 25) / 90% = 561, 40 €, la
garantie à 90% des frais réels offre un meilleur remboursement que celle à 400% de la BR.
       Selon l'importance des montants de dépenses engagées, l'une ou l'autre des garanties
peut être la plus avantageuse. De ce fait, il n'est pas possible d'effectuer une comparaison
entre deux garanties, qui serait systématiquement vérifiée dans toutes les situations.
       L'exemple suivant illustre la problématique de comparaison entre les deux garanties
évoquées précédemment.
20                                      J.-M. AOUIZERATE

                               Figure 1: Comparatif de garanties

4.     LE PRINCIPE
       Bien que naturelle, l'utilisation du taux de couverture pour mesurer la performance
des garanties présente un biais important : les écarts de prix des actes consommés sur un
même poste de dépenses.
       L'idée maîtresse de cet indicateur est d'apporter un correctif afin de neutraliser l'effet
du prix des actes. Le taux de couverture corrigé n'est plus celui réellement observé sur la
consommation médicale du contrat étudié. Ce nouveau taux est simulé en appliquant les
garanties du contrat à une base commune de dépenses servant de référentiel, à savoir :
l'ensemble des prestations du portefeuille. En procédant ainsi, les taux de couvertures sont
évalués dans les mêmes conditions. Les différences de coûts des actes n'ont alors plus
d'incidence dans le calcul du taux de couverture. Contrairement à la méthode employée par
l'IRDES, l'indicateur ne porte plus sur une seule situation de référence, mais sur l'ensemble
des cas observés sur le portefeuille. L'indicateur se positionne dans une situation moyenne
qui intègre la volatilité des prix.
       Cet indicateur pourrait être défini comme suit :
       Définition. Indicateur de garanties
       Pour un poste de dépenses donné, il s'agit du taux de couverture fictif qu'aurait un
contrat si ses garanties étaient appliquées sur l'ensemble du portefeuille.
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                     21

        Une simulation de garantie ligne à ligne sur l'ensemble d'un portefeuille est souvent
trop lourde à mettre en œ uvre. Pour contourner cette difficulté, la simulation est approchée
en utilisant la dispersion des frais réels moyens par acte sur l'ensemble du portefeuille. Pour
chaque poste, la distribution des frais réels est discrétisée par tranches de coûts. Les pas des
tranches sont calibrés en fonction des postes de dépenses et sont exprimés selon l'assiette de
garantie la plus utilisée (par exemple, des tranches de 2% du PMSS pour les montures ou
les verres, de 50% de la BR pour les consultations ou les prothèses dentaires...)
        Pour le poste d'un contrat étudié, les étapes à suivre sont les suivantes :
             -     Définir des tranches de dépenses sur le poste considéré,
             -     Calculer, sur le périmètre étudié (contrat), le taux de couverture de chaque
                   tranche T , (Montant des remboursements rapporté au montant des frais
                   réels), 1
             -     Calculer, sur l'ensemble du portefeuille, pour chacune d'entre-elles, le poids
                   des frais réels (Montant des frais réels de la tranche rapporté à l'ensemble
                   des frais réels),
             -     Calculer, pour chaque tranche T : (poids de la tranche T )  (taux de
                   couverture de la tranche T ),
            - Sommer ces produits.
        La traduction mathématique avec 11 tranches Tk = {x  ] k ,  k 1 ] | k  {1, 2,..,11}}
est la suivante :
        Soient sur le i -ème décompte, les frais réels notés FRi , les remboursements de la
Sécurité sociale SSi , les remboursements complémentaires COi et le nombre d'actes ni .
Soient P l'ensemble des décomptes du portefeuille et C l'ensemble des décomptes du
contrat étudié tel que C  P .
       Le poids de la tranche Tk calculée sur l'ensemble P des décomptes du portefeuille :
                                                   FR 1
                                                   iP
                                                         i         { FRi / ni  Tk }
                                   Poids P , k =                                              (1)
                                                      FR    iP
                                                                       i

        Le taux de couverture de la tranche Tk calculé sur l'ensemble C des décomptes du
contrat :

1
 y compris les remboursements d'autres mutuelles
22                                          J.-M. AOUIZERATE

                                      SS 1
                                      iC
                                            i         { FRi / ni  Tk }    COi  1{ FR / n
                                                                            iC
                                                                                               i    i  Tk }
                 Couverture C , k =                                                                               (2)
                                                        FR 1
                                                         iC
                                                                   i       { FRi / ni  Tk }

       Au final, l'indicateur sur le contrat étudié :
                                                 11
                         Indicateur P ,C =  Poids P , k  Couverture P , k
                                                                      
                                                k =1
                                                          (1)                     (2)

       Avec la répartition des frais réels observée en 2007 sur le portefeuille Gras Savoye
et un contrat ayant une garantie à 400% de la B.R. sur le poste prothèses dentaires,
l'indicateur est obtenu de la façon suivante :

                                  Répartition
                                                                   Taux de
                                  des F.R. sur                                              Produit
     Tranches de dépense                                        couverture sur
                                       le                                        Poids P , k  Couverture C , k
        Tk =] k ,  k 1 ]       portefeuille
                                                                  le contrat
                                                                Couverture C , k
                                   Poids P , k
  100% B.R.*                      0,02%                          100,00%                           0,02%
 ]100% B.R.-200% B.R.]            0,10%                          100,00%                           0,10%
 ]200% B.R.-300% B.R.]            6,26%                          100,00%                           6,26%
 ]300% B.R.-400% B.R.]            12,18%                         100,00%                           12,18%
 ]400% B.R.-500% B.R.]            31,50%                         100,00%                           31,50%
 ]500% B.R.-600% B.R.]            30,64%                         74,17%                            22,73%
 ]600% B.R.-700% B.R.]            13,27%                         73,44%                            9,75%
 ]700% B.R.-800% B.R.]            3,42%                          63,74%                            2,18%
 ]800% B.R.-900% B.R.]            1,14%                          57,24%                            0,65%
 ]900% B.R.-1000% B.R.]           0,74%                          50,68%                            0,38%
  1000% B.R.                     0,74%                          42,46%                            0,31%
            Indicateur de garantie =  k =1Poids P , k  Couverture C , k = 86,05%
                                                11

       *B.R. = 50  2,15 = 107,50
       La valeur de l'indicateur de 86,05% correspond à une estimation du taux de
couverture obtenu en appliquant les garanties du contrat considéré sur l'ensemble des
prestations observées sur le portefeuille.

5.     LES DONNEES MANQUANTES
       Le calcul de l'indicateur à partir de l'historique d'un contrat nécessite de connaître le
taux de couverture de chaque tranche de dépense. Pour cela, il faut disposer au minimum de
l'observation d'un acte dans chacune des tranches, ce qui n'est pas toujours le cas. En effet,
les taux de couverture sont d'autant plus difficiles à observer que les effectifs couverts sont
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                23

faibles et que la tranche considérée est peu courante. Dans une moindre mesure, le niveau
d'intervention du régime complémentaire peut influencer le prix des actes et favoriser
l'observation de certaines tranches au détriment d'autres.
       En négligeant ce dernier point, les taux de couverture manquants peuvent être
considérés comme Missing At Random (MAR). En d'autres termes, la probabilité qu'une
observation soit manquante ne dépend que des variables observées et pas de la valeur. La
méthode Data Augmentation utilisée plus loin suppose que cette hypothèse soit vérifiée.

                           Figure 2: Exemple : prothèse dentaire
       Par bénéficiaire, 39% des tranches n'ont pas pu être observées. La solution proposée
est de compléter ces informations manquantes selon la nature des dépenses :
           -    Les frais réels, de même que les remboursements de la Sécurité sociale,
                sont remplacés par les données moyennes observées sur le portefeuille sur
                la tranche considérée,
           -    Les remboursements complémentaires sont simulés à partir d'une
                modélisation statistique, la méthode dite d’« Imputation Multiple avec Data
                Augmentation » (Méthode de Monte Carlo par Chaîne de Markov). Cette
                technique permet de prendre en compte les corrélations entre les tranches
                de couverture tout en conservant l'incertitude liée aux données manquantes.

5.1    L'Imputation Multiple
       La solution envisagée pour les remboursements complémentaires est d'estimer les
valeurs manquantes par la méthode d’« Imputation Multiple » qui permet de générer
plusieurs jeux de données où les valeurs manquantes sont complétées par plusieurs valeurs
24                                     J.-M. AOUIZERATE

plausibles. L'intérêt de cette méthode est de refléter correctement l'incertitude des valeurs
manquantes tout en préservant les aspects importants des distributions ainsi que les
relations entre les variables. Cette technique constitue une alternative intéressante pour
contrer le problème des données manquantes. Développés en premier par Rubin [RUB87]
dans un contexte de sondage avec non-réponse puis par Schafer [SCH97], ces modèles
d'imputation multiple s'inscrivent dans un cadre bayésien visant à générer des données
manquantes.
       Ce processus décrit par Rubin s'organise en trois étapes :
           -    Imputation : Chaque donnée manquante est complétée par m > 1 valeurs
                simulées afin de générer m jeux de données. Différentes méthodes peuvent
                être utilisées pour le remplacement des données manquantes : score de
                propension, régression (linéaire, log-linéaire ou logistique) ou encore
                MCMC.
           -    Analyse : Les m jeux de données complétées peuvent ainsi être analysés
                indépendamment par des techniques classiques de régression pour obtenir
                une estimation des paramètres d'intérêt de la modélisation. Un grand
                avantage de cette méthode réside dans la faculté de pouvoir utiliser des
                méthodes statistiques standard sur des ensembles complets de données,
                après imputation.
           -    Combinaison des résultats : Les m jeux de données sont ensuite
                combinés pour estimer les paramètres d'intérêt du modèle. L'assemblage
                des résultats des m analyses permet ainsi de refléter la variabilité
                supplémentaire due aux données manquantes. Une étude de la variance peut
                ensuite être menée pour mesurer l'influence de la non-observation des
                données sur les estimations.

                             Figure 3: Méthodologie de l'imputation multiple
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                     25

         La méthode choisie pour simuler les valeurs manquantes est une méthode de Monte
Carlo par Chaîne de Markov (M.C.M.C) dite d' Augmentation de Données ou Data
Augmentation. Les paragraphes suivants esquissent une ébauche succincte des notions
sous-jacentes dont elle découle.

5.2      Méthodes de Monte Carlo par Chaîne de Markov (M.C.M.C.)

      5.2.1 Généralités
         Les méthodes de Monte Carlo par Chaînes de Markov ont été initialement élaborées
pour répondre à des problématiques physiques telles que l'exploration des distributions
d'équilibre des interactions moléculaires. Leur essor depuis le début des années 90 est
essentiellement dû au développement des techniques informatiques et notamment grâce aux
vitesses de calcul qui n'ont cessé de s'accroître. Elles sont utilisées principalement pour
l'échantillonnage de variables aléatoires, le calcul d'intégrales et l'optimisation de fonctions
lorsqu'il n'existe pas de solutions analytiques, ou pour résoudre des problèmes en grande
dimension. Les méthodes les plus connues sont : l'algorithme de Hastings-Métropolis,
l'échantillonneur de Gibbs et la Data Augmentation. Pour approfondir le sujet de manière
plus détaillée, le lecteur pourra se référer à l'ouvrage de Christian Robert [ROB96].

      5.2.2 Principe des méthodes M.C.M.C.
         L'idée sous-jacente des méthodes MCMC est de construire une chaîne de Markov
prenant la forme d'une marche guidée pour explorer l'espace multidimensionnel des
paramètres pour parvenir à estimer une distribution de probabilité en les échantillonnant
périodiquement.
         Les méthodes MCMC s'inscrivent dans une approche d'inférence bayésienne où
l'information des paramètres inconnus est contenue dans la loi de distribution a posteriori
p ( | y ) qui est obtenue en utilisant le Théorème de Bayes :
         Théorème 5.1 (Théorème de Bayes) La version continue du théorème de Bayes
découle directement des théorèmes des probabilités totales et composées.
         La densité de  conditionnellement à y notée p ( | y ) est donnée par la relation
suivante :
                                        p ( y |  ) p ( )      p( y |  ) p ( )
                          p( | y ) =                      =
                                              p( y)           p( y |  ) p( )d
         La distribution a priori de ce paramètre aléatoire p ( ) et la vraisemblance p ( y |  )
26                                          J.-M. AOUIZERATE

des observations y définissent ainsi le cadre du modèle.
        Le facteur de normalisation p ( y ) est une constante indépendante de      ce qui réduit
le théorème de la façon suivante :
                                       p ( | y )  p( y |  ) p ( )
        Plusieurs finalités de l'analyse bayésienne peuvent se résumer à calculer, quelle que
soit la fonction g où l'espérance existe, l'expression suivante :
                                ( g ( ) | y ) =  g ( ) p( | y )dy
                                                     

        Or, il n'est quasiment jamais possible d'obtenir l'expression précédente
analytiquement, d'où la nécessité de recourir à des simulations.
        Le principe général des méthodes de Monte Carlo est de tirer aléatoirement un
échantillon  ( m) selon p ( | y ) pour chaque valeur de m jusqu'à M , pour ensuite utiliser
la relation de convergence suivante :
                                1 M     (m) 
                                               p.s

                                   g ( )   ( g ( ) | y )
                               M  m =1      
        Les méthodes de Monte Carlo par Chaînes de Markov permettent de générer une
chaîne de Markov  ( m) dont les échantillons sont distribués asymptotiquement selon la loi a
posteriori p ( | y ) .

     5.2.3 Data Augmentation
        L'algorithme Data Augmentation est une méthode de Monte Carlo par Chaînes de
Markov particulièrement adaptée pour traiter les problèmes de données manquantes. Cette
technique proposée par Tanner et Wong [TAN87] est une forme particulière de
l'échantillonneur de Gibbs, elle fut développée ensuite par Schafer dans les ouvrages
suivants [SCH97] [SCH98].
        Le principe de la méthode d'augmentation des données consiste à assimiler les
observations manquantes comme des paramètres supplémentaires à estimer. L'échantillon
ainsi augmenté est traité comme s'il était complet afin d'exploiter l'échantillonnage de
Gibbs. Dans la problématique étudiée ici, Ymqt et Yobs s'appliquent aux montants des
remboursements complémentaires moyens dans chacune des tranches de dépenses,                  
désigne les moyennes et covariances correspondantes.
        Sous hypothèse que les données suivent une distribution normale multivariée,
l'augmentation de données peut être appliquée en répétant alternativement les deux étapes
suivantes :
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                            27

              -    Etape « I-step » : Imputation des données manquantes
                                      ( t 1)
                                   Ymqt        P(Ymqt / Yobs , (t ) )
         Partant d'une estimation du vecteur moyenne et de la matrice de covariance, les
données manquantes sont simulées pour chaque observation indépendamment. En notant
Ymqt les variables ayant des données manquantes et Yobs celles ayant des valeurs observées,
les données manquantes sont alors tirées selon la distribution conditionnelle aux données
observées.
              -    Etape « P-step » : Distribution des paramètres            a posteriori
                                      (t 1)  P( / Yobs , Ymqt
                                                              ( t 1)
                                                                      )
         Partant d'une base complétée, cette étape consiste en la simulation a posteriori du
vecteur moyenne et de la matrice de covariance. Cette estimation sera ensuite utilisée dans
l'étape « I-step ». Le déroulement de cette étape va dépendre de l'information a priori dont
on dispose sur les paramètres.
                                             1
         La chaîne de Markov ainsi créée : (Ymqt , (1) ), (Ymqt
                                                              2
                                                                 , (2) ),..., (Ymqt
                                                                                 t
                                                                                     , (t ) ) converge en
probabilité vers la distribution prédictive a posteriori des données P (Ymqt ,  / Yobs ) . Par ce
biais, sont simulés alternativement données manquantes et paramètres. Cette méthode
nécessite des valeurs de départ pour les paramètres, une bonne pratique peut consister à les
initialiser en appliquant des algorithmes Espérance-Maximisation.

5.3      Application de la méthode aux tranches de dépenses non observées

      5.3.1 Postulats requis pour la Data Augmentation
         L'application de la méthode de Data Augmentation nécessite que les données
manquantes soient de type M.A.R. pour éviter que les résultats ne soient biaisés. Comme
indiqué précédemment, les tranches non observées sont supposées vérifier globalement
cette hypothèse.
         L'hypothèse que les données suivent une loi normale multivariée doit également
pouvoir être vérifiée. Bien que l'allure générale de la distribution soit en forme de
« cloche », l'hypothèse de normalité n'est pas validée pour deux raisons. Premièrement, la
plupart des tests statistiques ont rejeté cette hypothèse. Deuxièmement, une distribution
normale prévoit des valeurs négatives, or les remboursements complémentaires sont par
définition positifs. Pour autant, Schafer et Graham [SCH02] précisent que la méthode reste
efficace même dans les cas où les données ne se conforment pas complètement à ce postulat
28                                     J.-M. AOUIZERATE

de normalité et qu'elle fournit d'excellents résultats dans un bon nombre de situations.
        Bien que les données ne suivent pas rigoureusement une loi normale, la robustesse
de la méthode à cette hypothèse permet néanmoins de l'appliquer.

     5.3.2 Phase Imputation
        Le nombre de simulations retenu est de 5 jeux de données en suivant les
préconisations de Rubin, avec imputation par la méthode MCMC avec Data Augmentation.
        Les valeurs de départ des paramètres sont initialisées par un algorithme
E.M.(Expectation-Maximization)
        Chacune des observations a été pondérée par son montant des frais réels afin que les
tranches soient prises en compte selon l'importance de leur volume de dépenses.
        Comme chaque état d'une chaîne de Markov a une influence sur le suivant, 200
itérations ont été réalisées avant la première imputation puis 100 entre les suivantes. Cette
pratique permet d'éliminer les séries de dépendance sur les valeurs de départ pour tendre
vers une distribution stationnaire.
        En supposant qu'il n'y avait a priori pas d'information sur l'estimation des moyennes
et des covariances, la distribution de Jeffreys ([SCH97], page 154) a été retenue.
        La méthode MCMC avec Data Augmentation a ensuite été appliquée sur les cinq
jeux de données afin qu'ils deviennent entièrement complétés. Pour cela, les paramètres
d'intérêts (moyennes et covariances) ont été évalués de proche en proche comme le montre
l'exemple suivant.

                Figure 4: Estimation de la moyenne par Data Augmentation
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                29

       La connaissance de toutes les dépenses moyennes sur les cinq jeux ainsi complétés
va permettre de calculer l'indicateur de garantie pour chacun des contrats. Préalablement,
une phase d'analyse doit être effectuée sur chaque jeu pour vérifier la cohérence des
données imputées. Eventuellement, une action pourra être menée sur celles qui ne
respectent pas certaines règles communes à l'ensemble des garanties définies dans la section
suivante.

   5.3.3 Phase Analyse
       Dans cette phase d'analyse statistique, plutôt que d'appliquer un modèle de
régression comme le prévoit la méthodologie générale d'imputation multiple telle qu'elle est
décrite par Rubin, la cohérence des valeurs imputées va être testée, pour les modifier si
besoin.
       Les critères qui ont été testés sont les suivants :
            -    Les remboursements complémentaires moyens doivent être positifs,
            -    Les remboursements complémentaires moyens additionnés aux autres
                 dépenses ne peuvent pas dépasser le montant des frais réels,
            -    Les remboursements complémentaires moyens imputés doivent être
                 supérieurs à ceux de la tranche précédente.
       Ce test a permis de mettre en évidence que 3% des tranches imputées avaient des
remboursements complémentaires hors normes. Ces valeurs ont ensuite été corrigées de
telle sorte à ce que la logique assurantielle liée aux garanties soit respectée.
       A ce stade, cinq jeux de données complètes et cohérentes bénéficiant pour chaque
contrat d'un indicateur de niveau de garantie synthétique ont été créés. Ces jeux doivent
ensuite être combinés pour en obtenir un seul.

   5.3.4 Phase Combinaison des résultats
       En s'inspirant de la méthodologie proposée par Rubin, l'indicateur de niveau de
                                                                                 i
garantie Indic est obtenu simplement en prenant la moyenne des cinq indicateurs Indic
calculés sur chaque jeu d'imputation.
       En notant l'imputation         i , pour un contrat donné, l'indicateur vaut :
        1 5 
Indic =  i =1Indic i
        5
       En moyenne par contrat, la variance inter-imputation (écart-type de 0,11%) reste très
nettement inférieure à celle intra-imputation (écart-type de 15,4%). Ce constat tend à
30                                      J.-M. AOUIZERATE

prouver que l'inférence liée à la non observation des données manquantes préserve
l'information contenue dans le calcul de l'indicateur.
       L'objectif recherché a été atteint en intégrant la volatilité liée à la non observation
dans la construction de l'indice proposé.

6.     APPLICATIONS PRATIQUES DE L'INDICATEUR

6.1    Correspondance de l'indicateur en libellés de garantie usuels
          A des fins commerciales, l'indicateur de garantie peut être converti dans une
expression de garantie courante. Le niveau de garantie peut être représenté en fonction de la
valeur de l'indicateur. Cette approche permet de savoir quel niveau de garantie il faudrait
appliquer à l'ensemble du portefeuille pour obtenir un taux de couverture souhaité. Le
calcul de la correspondance se fait par itérations successives en faisant augmenter la
garantie jusqu'à ce que la valeur de l'indicateur recherchée soit atteinte.

                 Figure 5: Correspondance entre Indicateurs et Garanties
       Dans l'exemple d'une couronne dentaire, pour atteindre un taux de couverture de
90%, il faudrait mettre en place une garantie à 400 % de la BR. Cette indication peut
fournir une première approche à une entreprise pour la guider dans son choix de garanties à
mettre en place, selon l'efficacité recherchée.
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                 31

6.2    Benchmark
       Dans le cadre d'un benchmark d'une entreprise avec son secteur d'activité, les
indicateurs de garanties des principaux postes peuvent être comparés sur un seul et même
graphique en utilisant une représentation par secteurs. Le positionnement de l'entreprise par
rapport à son référentiel est alors immédiat.

                       Figure 6: Exemple d'application : Benchmark
       Dans cet exemple, l'entreprise possède globalement des garanties de niveau
supérieur à son secteur d'activité. Ce constat peut alors l'aider dans le pilotage de son
régime en lui fournissant des éléments de comparaisons synthétisés en une page.

6.3    Influence des garanties sur le mode de consommation
       Comme indiqué précédemment, le niveau de garantie a une influence certaine sur les
prix et la fréquence de consommation. L'exemple suivant illustre l'une des deux
composantes : l'incidence sur les prix. Ces données sont estimées à partir de l'ensemble du
portefeuille.
32                                      J.-M. AOUIZERATE

                        Figure 7: Prix d'une monture selon la garantie
         A titre d'exemple, le prix moyen d'une monture peut être majoré de près 50% entre
une faible garantie et une garantie haut de gamme.

7.       CONCLUSIONS
         Cet article présente la méthodologie à suivre pour la mise en place d'un indicateur de
garanties dans le cadre de régimes complémentaires santé. Cette approche novatrice
utilisant notamment des méthodes M.C.M.C. permet de quantifier l'efficacité des garanties
de manière homogène quel que soit leur mode d'expression. Le calcul peut être automatisé
à grande échelle ce qui lui permet de trouver ainsi une utilité dans de nombreuses
applications telles que la tarification ou des études comparatives. Cet indicateur constitue
un nouvel outil pratique apportant une aide au pilotage de régimes complémentaires frais de
santé.
CREATION D’UN INDICATEUR DE NIVEAU DE GARANTIE EN FRAIS DE SANTE                 33

REFERENCES
         [BOC00] BOCOGNANO A., COUFFINHAL A., DUMESNIL S., GRIGNON M.
(2000) : La complémentaire maladie en France : qui bénéficie de quels remboursements ?
Résultats de l'enquête Santé Protection Sociale 1998, CREDES, n°1317, octobre 2000, p.
150-86
         [BUC02] BUCHMUELLER T., COUFFINHAL A., GRIGNON M., PERRONNIN
M., SZWARCENSZTEIN (2002) : Consulter un généraliste ou un spécialiste : influence
des couvertures complémentaires sur le recours aux soins, Question d'économie de la santé,
Bulletin d'information en économie de la santé, CREDES, n°47, janvier 2002
         [COU04] COUFFINHAL A., PERRONNIN M. (2004) : Accès à la couverture
complémentaire maladie en France : Une comparaison des niveaux de remboursement,
Enquêtes ESPS 2000-2002, CREDES, n°1521, avril 2004, p.29-30
         [CRE95] CRETY L., WENCKER A. (1995) : Frais de santé : de la tarification à la
maîtrise des dépenses, Mémoire d'actuariat, C.E.A. (Centre d'Etudes Actuarielles), p. 117
         [DRO02] DROESBEKE J.J., FINE J., SAPORTA G. (2002) : Méthodes bayésiennes
en statistique, Editions Technip, 2002
         [GEM84] GEMAN S., GEMAN D. (1984) : Stochastic Relaxation, Gibbs
Distribution and the Bayesian Restoration of Images, IEEE Transactions on Pattern
Analysis and Machine Intelligence, n°6, p. 721-741
         [LEN05] LENGAGNE P., PERRONNIN M. (2005) : Questions d'économie de la
santé, Bulletin d'information en économie de la santé, CREDES, n°100, novembre 2005
         [NAK05] NAKACHE J.P., GUEGUEN A. (2005) : Analyse multidimensionnelle de
données incomplètes, Revue de statistique appliquée, vol. LIII, n°3, p. 35-62
         [ROB96] ROBERT C.P. (1996) : Méthodes de Monte Carlo par chaînes de Markov,
Economica, Paris
         [RUB78] RUBIN D.B. (1978) : Multiple imputation in sample surveys - A
phenomenological Bayesian approach to nonresponse, Proceedings of the Survey Research
Methods Section, American Statistical Association, p. 20--34
         [RUB87] RUBIN D.B. (1987) : Multiple Imputation for Nonresponse in Surveys,
John Wiley & sons
         [SCH97] SCHAFER J.L. (1997) : Analysis of Incomplete Multivariate Data by
Simulation, Chapman and Hall, New-York
34                                    J.-M. AOUIZERATE

       [SCH98] SCHAFER J.L., OLSEN M.K. (1998) : Multiple Imputation for
Multivariate Missing Data Problems : a Data Analyst's Perspective, Multivariate
Behavorial Research, vol. 33, p. 545-571
       [SCH02] SCHAFER J.L., GRAHAM J.W. (2002) : Missing Data: Our View of the
State of the Art, Psychological Methods, vol. 7, n°2, p. 147-177
       [TAN87] TANNER M.A., WONG W.H. (1987) : The Calculation of Posterior
Distributions by Data Augmentation, Journal of American Statistical Association, vol. 82,
n°398, p. 528-540
       [WAY03] WAYMAN J.C. (2003) : Multiple Imputation For Missing Data: What Is
It And How Can I Use It?, Annual Meeting of the American Educational Research
Association, Chicago, IL.
Vous pouvez aussi lire