Space Systems Dependability Industrial Challenges

Space Systems Dependability Industrial Challenges

Space Systems Dependability Industrial Challenges Jean-Paul Blanquart ASTRIUM Satellites Jean-paul.blanquart@astrium.eads.net ETR - 2013 Toulouse, France, 26-30/8/2013

Space Systems Dependability Industrial Challenges

ETR – 2013 – Toulouse, France, 26-30/8/2013 Outline  Dependability in space  Constraints, needs, solutions, achievements  Dependability (FDIR) process  Model Based Dependability  Engineering, Assessment  Why it may become so complicated?

Space Systems Dependability Industrial Challenges

Space systems: Constraints  Limited mass, power  Limited ground-board link  Limited maintenance  Radiations  Knowledge, mastering of the environment  Phased missions, critical parts  Long lifetime ETR – 2013 – Toulouse, France, 26-30/8/2013

Space Systems Dependability Industrial Challenges

A large variety of dependability needs  Reliability  Lifetime (satellites, space probes)  Continuity of service (launchers, rendez-vous, re-entry)  Availability  Instantaneous (satellite, probes critical phases, launchers)  Average (Mission return)  Outage duration, frequency (critical or expensive services)  Maintainability, adaptation (reconfiguration, software, procedures)  Safety (Launchers, manned flights, rendez-vous, end of life)  Security ETR – 2013 – Toulouse, France, 26-30/8/2013

Space Systems Dependability Industrial Challenges

Solutions, basic principles  Selective redundancy, hot or more often cold duplex  Some notable examples of comparison and vote  Automatic detection and reconfiguration (FDIR)  Safe mode  “Favourite” adversaries  Single point of failures, common cause failures, failure propagation  Unpredicted situations, lack of observability, controllability ETR – 2013 – Toulouse, France, 26-30/8/2013

Space Systems Dependability Industrial Challenges

Classical satellite architecture SCU A SCU B Sun Sensor sensor TM TC TM TC ADE 4 ADE 4 PPU PPU MW-X MW-X Ire s Gyp GPS GPS PSR PSR Other Other RIU RIU Remote Remote Computer Computer Mil-STD 1553B bus typically 1 or 2 Interface payload CPS CPS Ion thrusters Mechanisms Mechanisms Batteries Solar Arrays SADM 2*7 Thrusters PIU PIU PIU PIU ETR – 2013 – Toulouse, France, 26-30/8/2013

Computer failure (cold duplex) Nœud Nœud (off) Mémoire MRE Senseur Actuateur contexte autotests autotests commutatio on/off Présence Terre ETR – 2013 – Toulouse, France, 26-30/8/2013

Launcher (Ariane 5) Hot-Duplex, semi-cross-strapped, one-shot + Safety (nominal) Remote unit 1 (backup) SdC (Mil. Std. 1553B) OBC1 (Master) OBC2 (Backup) Umbilical to launchpad inter-computers alarm link (backup) Remote unit 1 Remote unit n Remote unit n (nominal) ETR – 2013 – Toulouse, France, 26-30/8/2013

Manned automatic vehicles (projects) BFout2 Reset / Alimentation 1553 TM1 BFout1 TM2 Alimentation BC Bfin BFin USR RT/OBS Reset / Alimentation OBC 2 RT/OBS OBC 1 Contexte / Reprise Contrôle commande IPN GNC2 Bus GNC3 Bus GNC4 Bus Communication Busses GNC2 BC RT IPC GNC3 BC RT IPC NAP MIOP GNC4 BAP RT SIORP BC IPC RT GNC1 Bus GNC1 BC RT IPC RT RT RT ETR – 2013 – Toulouse, France, 26-30/8/2013

ATV (Automatic Transfer Vehicle) Rendez-vous Sensors SENSORS ACTUATORS VTC CMU FTC 1 ATV CORE SYSTEM BUSES RUSSIAN SEGMENT BUSES FTC 2 FTC 3 US SEGMENT BUSES CMU Launch Pad i/f BUSES CMU Equipment Measurement & Command MSU ATV CARGO Propulsion Drive Electronics Gyros Earth Sensors GPS Power Distr. UHF S Band Sun Sensors to CMUs ETR – 2013 – Toulouse, France, 26-30/8/2013

ATV Fault Tolerant Computer DPU2 ALB Bus A Avionics System Bus B Avionics System Bus C Avionics System Bus D Avionics System FML AVI DPU3 DPU4 DPU1 ETR – 2013 – Toulouse, France, 26-30/8/2013

And it works...  Launchers  Satellites  “~10-6/h” 2xlifetime, 90%>  But:  Launch: 6-7%  In-orbit installation: 4-5%  Early phase: 1.5 10-6/h  Life: 0.5 10-6/h 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 Success rate Launches 10 year mean Mean (90.7%) 20% 20% 22% 25% 4% 9% Propulsion Command Mechanical Power Deployment Environment 39% 29% 6% 3% 13% 10% Propulsion Command Structure Power Separation Explosion Indicative values, from public data (up to 2005) No pretention as strongly substantiated statistics ETR – 2013 – Toulouse, France, 26-30/8/2013

Outline  Dependability in space  Constraints, needs, solutions, achievements  Dependability (FDIR) process  Model Based Dependability  Engineering, Assessment  Why it may become so complicated? ETR – 2013 – Toulouse, France, 26-30/8/2013

  • Dependability process (FDIR) NORMAL MODE SAFE MODE DRU PM_x TX_A IF_1553 - CV_DRU_y MSI_y IOS_y MTQ_y RS_y MAG_y CSS_y TH_pf_y TH/Rech_cu GS Batterie 1553_int 1553_cu Alimentation Rech_pf_y IOT_y OBMU TTR_B DCU_B DCU_A RX_A RX_B TTR_A TX_B TX_B TX_A Events  HW ? SW ? GCC ? FDIR
  • REQUIREMENTS
  • ARCHITECTURE
  • Modes versus “failures”
  • HIERARCHY
  • FD/I/R Management Events  SW ? GCC? Events  HW ? SW ? GCC? REQUIREMENTS
  • One Failure tolerant design
  • R(t) ≥ 0,8
  • D(t) ≥ 0,99
  • Autonomy ...
  • ... Failures Management - DETECTION How ? Which parameters ? Frequency ?... - ISOLATION Protections, Time to react ?... - RECOVERY Which actions ? Who executes ? ... Events  HW ? SW ? GCE ? GCC: Ground Control Centre ETR – 2013 – Toulouse, France, 26-30/8/2013

FDIR analysis RAMS_101 « An electrical protection shall protect the spacecraft from any short-circuit down-stream » NORMAL MODE REQUIREMENTS STRATEGY DESIGN Eqt BF FM Fonction Dysfonctionnement Effet Local Effets système N A Recommandations TM Maîtrise G C Remarques 3 1 1 CTA_BUS_RECH -Activer les réchauffeurs du contrôle thermique c/o réchauffeur Absence activation d'un réchauffeur Fonction contrôle thermique erronée Poinst localements froids (6 lignes affectées) LVC#XX : Comparaison mesure-commande Procédure LVC : SYS_ARO Passage en mode SAT_SAF Disponibilité affectée T° ligne i 2= SURVEILLANCE LVC#XX : Comparaison mesurecommande 3= SOL Possibilité d'utiliser la carte RECH_B 1 R SUR C= la surveillance comporte un seuil haut et un seuil bas C= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2) 3 1 2 CTA_BUS_BUS_RECH -Activer les réchauffeurs du contrôle thermique c/c réchauffeur MEO protection électrique PCDU LCL groupe de 6 pertes de 6 réchauffeurs Fonction contrôle thermique erronée Poinst localements froids (6 lignes affectées) LVC#XX : Comparaison mesure-commande Procédure LVC : SYS_ARO Passage en mode SAT_SAF Disponibilité affectée T° ligne i, j, k ...

2= SURVEILLANCE LVC#49 : Comparaison mesurecommande 3= SOL Possibilité d'utiliser la carte RECH_B 1 R SUR C= la surveillance comporte un seuil haut et un seuil bas C= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2) 4 1 1 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique Informations capteurs erronées (ES_A) Paramètres Thermistances erronés voie A ou voie B Aucun effet au permier ordre Vote majoritaire R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectées R= Statuer sur programmation du CTA en mode survie T° ligne i 1= PROTECTION Vote majoritaire (2/3) 1 R P C= ES_A reçoit TH_A, TH_C C= ES_B reçoit TH_B C= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes 4 1 2 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique Informations capteurs erronées (ES_B) Paramètres Thermistances erronés voie A Aucun effet au permier ordre Vote majoritaire R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectées R= Statuer sur programmation du CTA en mode survie T° ligne i 1= PROTECTION Vote majoritaire (2/3) 1 R P C= ES_A reçoit TH_A, TH_C C= ES_B reçoit TH_B C= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes 6 1 1 MAGNETOMETRE -Mesurer le champ magnétique terrestre sur les 3 axes Bx, By, Bz Acquisitions magnétomètre bloquées Bx, By, Bz (0, ...) Mesures champ magnétique inutilisables SAT_NOM: Magnétomètre n/u LVC#XX : Sorties MAG bloquées Erreur report ASH : Bx, By, Bz pour calcul loi Bpoint perte des fonctions : Mesures de champ magnétique Mode ASH erroné Non convergence STAB LVC#XX : Sorties MAG bloquées Procédure LVC : SYS_ARO Pass X MNL: Erreur report ASH: Reconfiguration automatique SURVIE 2= ERREUR REPORT LVC#XX : Sorties MAG bloquées ACQUISITION/ASH 2= SYS_ARO LVC#XX : Sorties MAG bloquées 3 R C= Magnétomètre utilisé uniquement en mode ASH (survie et première acquisition) C= Magnétomètre redondé C= surveillance magnétomètre entraîne erreur report en MNL (information sol uniquement) CMG-E CMG-E CMG-E Mecalib LPTC BEV MAC MAG (3 axes) NAV Propulsion (2 branches de 8 tuyères 1N) SSG ANAV PPS FCL (Rx) Réchauffeurs 2 x 32 (AC) Thermistances (AD) BAS-VIS MSI EDR LPTC OMUX RA RA-E 8PSK COME TMI-CDC OBC (LEON 3) RIU TC-CDC TMSCDC BAT (Li-Ion) PCDU GS GS GS GS MVTHI XS 8PSK 8PSK 8PSK CTA inst.

CTA inst. BEV T FOG-O REFT 32Hz FOG-E A FOG-O FOG-E B REFT 32Hz SST-O REFT 16Hz CMG-E CMG-M T T T Coupleur 3dB TBS A/B (Rx en red. chaude) ABS Zenith ABS Nadir PPS FCL FCL REFT SST-E CTA inst. Corps noir (calibration) RMU REFT 8Hz REFT 8Hz REFT 8Hz Equerre I/F MVTHI PAN MEP IRM MEP IRT DTC XS DTC PAN Dét. IRM et IRT SAFE MODE DRU PM_x TX_A IF_1553 - CV_DRU_y MSI_y IOS_y MTQ_y RS_y MAG_y CSS_y TH_pf_y TH/Rech_cu GS Batterie 1553_int 1553_cu Alimentation Rech_pf_y IOT_y OBMU TTR_B DCU_B DCU_A RX_A RX_B TTR_A TX_B TX_B TX_A FDIR TC RAMS_001 « Every failure likely to propagate shall be detected in appropriate time in order to avoid propagation to another reliability block (as defined in teh reliability block diagram) » RAMS_051 « Every failure with criticality 1 shall trigger a safe mode RAMS_151 « In order to detect ASH control failure during stabilization phase, the OBSW shall monitor the duration of the stabilization phase.

Triggering of this surveillance shall lead to ARO. (URD.AOCS.ASH.FDIR.0100) V&V ETR – 2013 – Toulouse, France, 26-30/8/2013

  • FDIR lifecycle System Specification
  • Lifetime
  • Reliability target
  • Availability target
  • Failure events
  • Autonomy
  • Failure tolerance level
  • design rules
  • ... FDIR POLICY
  • Redundancy
  • Architecture
  • FDIR Management
  • Operational Modes
  • Feared Events FDIR POLICY
  • Redundancy
  • Architecture
  • FDIR Management
  • Operational Modes
  • Feared Events MONITORING / RECOVERY
  • SSS / SRS (SW) inputs
  • System database inputs MONITORING / RECOVERY
  • SSS / SRS (SW) inputs
  • System database inputs Functional Analysis Functional Analysis Risk Analysis Risk Analysis FMECA_1 (Functional) FMECA_1 (Functional) FMECA_2 (Detailed) FMECA_2 (Detailed) FDIR REPORT
  • FDIR design
  • ... FDIR REPORT
  • FDIR design
  • ... SW DESIGN
  • Design Report SW DESIGN
  • Design Report Sub’s SPECIFICATION
  • Failure tolerance
  • ... Sub’s SPECIFICATION
  • Failure tolerance
  • ... ... FDIR VERIFICATION
  • FDIR Report 1
  • REVIEWS FDIR VERIFICATION
  • FDIR Report 1
  • REVIEWS FDIR TESTING
  • Test Spécifications FDIR TESTING
  • Test Spécifications Sub’s DESIGN
  • Monitoring
  • FMECA Sub’s DESIGN
  • Monitoring
  • FMECA FDIR DESIGN
  • FDIR Policy (detailed)
  • Monitoring
  • Recovery
  • Requirements FDIR DESIGN
  • FDIR Policy (detailed)
  • Monitoring
  • Recovery
  • Requirements Contingency Analysis Contingency Analysis FMECA_3 (HSIA) FMECA_3 (HSIA) FMECA_4 (consolidated) FMECA_4 (consolidated) ETR – 2013 – Toulouse, France, 26-30/8/2013

Outline  Dependability in space  Constraints, needs, solutions, achievements  Dependability (FDIR) process  Model Based Dependability  Engineering, Assessment  Why it may become so complicated? ETR – 2013 – Toulouse, France, 26-30/8/2013

Types of models (for dependability) determined by the objectives  Quantitative (probabilistic) analysis of RAMS properties  Modelling the impact of faults/failures on the level of performance Markov, RBD, ...  Qualitative analysis of faults/failures propagation  Modelling the impact and propagation of faults/failures on on the architecture (physical, functional, ...) Structural models, AADL, ...

Assessment (correctness, performance) of FDIR  Modelling the behaviour of the FDIR State machines, temporised automata, model-checking, ...  Soundness, completeness of the safety, dependability arguments  Modelling the dependability and safety argumentation Logical formulas, GSN, ... ETR – 2013 – Toulouse, France, 26-30/8/2013

Main types of dependability models  Behaviour (in presence of faults)  Needs for an appropriate abstraction of the behaviour  Behaviour of the system (functional, « dys-functional »)  Behaviour of the fault processing mechanisms  Assembly of functional blocks (on, off, failed, ...)  Architecture and fault propagation  Explicit representation of fault propagation, with an abstraction of the behaviour  Coupling behavioural and structural models  At least for FDIR mechanisms  Impact of faults on behaviour  Impact of reconfigurations on behaviour ETR – 2013 – Toulouse, France, 26-30/8/2013

Quite an old story Mu Mu Mu Command Loss 2.8 1e-9 Prim. Command Loss Sec. Command Loss gonio1 Loss 1e-4 sun1 Loss 1e-4 sun2 Loss 1e-4 gonio2 Loss 1e-4 gyro1 Loss 1e-4 node myComponent flow output : {nominal , failed} : out ; state status : {nominal , failed} ; event fail; init status := nominal ; trans status=nominal |− fail −> status := failed ; assert output=status ; node myComponent flow output : {nominal , failed} : out ; state status : {nominal , failed} ; event fail; init status := nominal ; trans status=nominal |− fail −> status := failed ; assert output=status ; Eqt BF FM Fonction Dysfonctionnement Effet Local Effets système N A Recommandations TM Maîtrise G C Remarques 3 1 1 CTA_BUS_RECH -Activer les réchauffeurs du contrôle thermique c/o réchauffeur Absence activation d'un réchauffeur Fonction contrôle thermique erronée Poinst localements froids (6 lignes affectées) LVC#XX : Comparaison mesure-commande Procédure LVC : SYS_ARO Passage en mode SAT_SAF Disponibilité affectée T° ligne i 2= SURVEILLANCE LVC#XX : Comparaison mesurecommande 3= SOL Possibilité d'utiliser la carte RECH_B 1 R SUR C= la surveillance comporte un seuil haut et un seuil bas C= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2) 3 1 2 CTA_BUS_BUS_RECH -Activer les réchauffeurs du contrôle thermique c/c réchauffeur MEO protection électrique PCDU LCL groupe de 6 pertes de 6 réchauffeurs Fonction contrôle thermique erronée Poinst localements froids (6 lignes affectées) LVC#XX : Comparaison mesure-commande Procédure LVC : SYS_ARO Passage en mode SAT_SAF Disponibilité affectée T° ligne i, j, k ...

2= SURVEILLANCE LVC#49 : Comparaison mesurecommande 3= SOL Possibilité d'utiliser la carte RECH_B 1 R SUR C= la surveillance comporte un seuil haut et un seuil bas C= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2) 4 1 1 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique Informations capteurs erronées (ES_A) Paramètres Thermistances erronés voie A ou voie B Aucun effet au permier ordre Vote majoritaire R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectées R= Statuer sur programmation du CTA en mode survie T° ligne i 1= PROTECTION Vote majoritaire (2/3) 1 R P C= ES_A reçoit TH_A, TH_C C= ES_B reçoit TH_B C= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes 4 1 2 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique Informations capteurs erronées (ES_B) Paramètres Thermistances erronés voie A Aucun effet au permier ordre Vote majoritaire R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectées R= Statuer sur programmation du CTA en mode survie T° ligne i 1= PROTECTION Vote majoritaire (2/3) 1 R P C= ES_A reçoit TH_A, TH_C C= ES_B reçoit TH_B C= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes 6 1 1 MAGNETOMETRE -Mesurer le champ magnétique terrestre sur les 3 axes Bx, By, Bz Acquisitions magnétomètre bloquées Bx, By, Bz (0, ...) Mesures champ magnétique inutilisables SAT_NOM: Magnétomètre n/u LVC#XX : Sorties MAG bloquées Erreur report ASH : Bx, By, Bz pour calcul loi Bpoint perte des fonctions : Mesures de champ magnétique Mode ASH erroné Non convergence STAB LVC#XX : Sorties MAG bloquées Procédure LVC : SYS_ARO Pass X MNL: Erreur report ASH: Reconfiguration automatique SURVIE 2= ERREUR REPORT LVC#XX : Sorties MAG bloquées ACQUISITION/ASH 2= SYS_ARO LVC#XX : Sorties MAG bloquées 3 R C= Magnétomètre utilisé uniquement en mode ASH (survie et première acquisition) C= Magnétomètre redondé C= surveillance magnétomètre entraîne erreur report en MNL (information sol uniquement) Eqt BF FM Fonction Dysfonctionnement Effet Local Effets système N A Recommandations TM Maîtrise G C Remarques 3 1 1 CTA_BUS_RECH -Activer les réchauffeurs du contrôle thermique c/o réchauffeur Absence activation d'un réchauffeur Fonction contrôle thermique erronée Poinst localements froids (6 lignes affectées) LVC#XX : Comparaison mesure-commande Procédure LVC : SYS_ARO Passage en mode SAT_SAF Disponibilité affectée T° ligne i 2= SURVEILLANCE LVC#XX : Comparaison mesurecommande 3= SOL Possibilité d'utiliser la carte RECH_B 1 R SUR C= la surveillance comporte un seuil haut et un seuil bas C= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2) 3 1 2 CTA_BUS_BUS_RECH -Activer les réchauffeurs du contrôle thermique c/c réchauffeur MEO protection électrique PCDU LCL groupe de 6 pertes de 6 réchauffeurs Fonction contrôle thermique erronée Poinst localements froids (6 lignes affectées) LVC#XX : Comparaison mesure-commande Procédure LVC : SYS_ARO Passage en mode SAT_SAF Disponibilité affectée T° ligne i, j, k ...

2= SURVEILLANCE LVC#49 : Comparaison mesurecommande 3= SOL Possibilité d'utiliser la carte RECH_B 1 R SUR C= la surveillance comporte un seuil haut et un seuil bas C= 2 cartes RECH_N et RECH_R en redondance froide dans boîtier PCDU (x2) 4 1 1 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique Informations capteurs erronées (ES_A) Paramètres Thermistances erronés voie A ou voie B Aucun effet au permier ordre Vote majoritaire R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectées R= Statuer sur programmation du CTA en mode survie T° ligne i 1= PROTECTION Vote majoritaire (2/3) 1 R P C= ES_A reçoit TH_A, TH_C C= ES_B reçoit TH_B C= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes 4 1 2 CT_BUS_TH -Fournir les TH canal 1 du contrôle thermique Informations capteurs erronées (ES_B) Paramètres Thermistances erronés voie A Aucun effet au permier ordre Vote majoritaire R= Evaluer la possibilité de poursuivre la mission quelle que soit lles lignes TH affectées R= Statuer sur programmation du CTA en mode survie T° ligne i 1= PROTECTION Vote majoritaire (2/3) 1 R P C= ES_A reçoit TH_A, TH_C C= ES_B reçoit TH_B C= le vote majoritaire permet d'éviter une reconfiguration et permet de tolérer des pannes croisées sur différentes lignes 6 1 1 MAGNETOMETRE -Mesurer le champ magnétique terrestre sur les 3 axes Bx, By, Bz Acquisitions magnétomètre bloquées Bx, By, Bz (0, ...) Mesures champ magnétique inutilisables SAT_NOM: Magnétomètre n/u LVC#XX : Sorties MAG bloquées Erreur report ASH : Bx, By, Bz pour calcul loi Bpoint perte des fonctions : Mesures de champ magnétique Mode ASH erroné Non convergence STAB LVC#XX : Sorties MAG bloquées Procédure LVC : SYS_ARO Pass X MNL: Erreur report ASH: Reconfiguration automatique SURVIE 2= ERREUR REPORT LVC#XX : Sorties MAG bloquées ACQUISITION/ASH 2= SYS_ARO LVC#XX : Sorties MAG bloquées 3 R C= Magnétomètre utilisé uniquement en mode ASH (survie et première acquisition) C= Magnétomètre redondé C= surveillance magnétomètre entraîne erreur report en MNL (information sol uniquement) Fault Trees Markov Chains AltaRica GSPN AADL Cf.

Ana-Elena Rugina PhD, 2007 with limitations and solutions ETR – 2013 – Toulouse, France, 26-30/8/2013

Main advantages  Support to model creation, discussion, validation  Additional capabilities (property validation, ...)  Easier updates  Coupling with other models  Could/should we go further?  What about correctness of fault tolerance mechanisms? ETR – 2013 – Toulouse, France, 26-30/8/2013

Objectives & Constraints Define a modelling technique  Express faults and failures propagation  Specify Fault, Detection, Isolation and Recovery mechanisms Demonstrate properties on Dependability/FDIR Appropriate modelling languages & tools Need: Model the system dynamics in the presence of faults ETR – 2013 – Toulouse, France, 26-30/8/2013

Requirements on modelling techniques (1/2) Function Resource Function Resource FDIR Detect  Functional dependencies  Deployment on resources FDIR Recover Recover Detect Delegate Function Resource  Spread FDIR functions  FDIR Hierarchy Functional & Dysfunctional time constraints ETR – 2013 – Toulouse, France, 26-30/8/2013

  • Requirements on modelling techniques (2/2)  Functional dependencies  Deployment on resources  Spread FDIR functions  FDIR Hierarchy  Time constraints Validation objectives
  • Demonstration Design objectives
  • Simple (compositional) modelling method
  • Close to the engineering model Transformation Timed automata (UPPAAL) Architecture/Behaviour (AADL) ETR – 2013 – Toulouse, France, 26-30/8/2013

Modelling method – Dependability pattern Fault Error Failure Nominal mode Transient/ Permanent event alteration firing Fault Recovery FAULT MODELS FAULT PROPAGATION MODELS Nominal mode Nominal mode Failure mode idle recovery Confirmation Nominal mode Failure mode Failure mode Recovery Degradation detection recovery FDIR MODELS FAILURE MODELS Degraded mode ETR – 2013 – Toulouse, France, 26-30/8/2013

Modelling method f0 fm0 F0 f1 fm2 F11 f3 fm3 F3 f4 fm4 F4 f5 fm5 F5 F1 : total loss of computing power => {resource/processor/computing/...} f4 { resource/processor/computing/...} f1 : CPU internal fault => {resource/ processor/ computing/...} F4 :Data1 absent => {Data/ absent/...} FDIR F12 ETR – 2013 – Toulouse, France, 26-30/8/2013

Model transformation AADL metamodel (.ecore) AADL behavior annex metamodel (.ecore) UPPAAL metamodel (.ecore) AADL model (.xmi) UPPAAL model (.xmi) UPPAAL configuration (.xml) Kermeta program Transformation rules Transformation Generation ETR – 2013 – Toulouse, France, 26-30/8/2013

Model reduction – fault isolation f0 fm0 F01 F02 F03 f2 fm2 F21 f3 fm3 F31 F32 f1 fm1 F11 F12 F13 f41 fm4 F41 f42 f43 f51 fm5 F51 f52 f53 f61 fm6 F61 f62 Device 1 Device 2 Device 4 Device 5 FDIR FDIR ETR – 2013 – Toulouse, France, 26-30/8/2013

Model reduction – Step by step validation f1 fm1 F1 f2 fm2 F2 FDIR FDIR recovery {Nominal} {Nominal} T0 = 0 {failed} {active} {idle} {active} {idle} Find the earliest t such that {failed} {failed} {Nominal} {active} {idle} f1 fm1 F1 It is true at t f2 fm2 F2 {failed} {failed} {failed} {failed} {failed} {failed} T0 = t Find the earliest t1 such that fm1 FDIR FDIR Find the latest t2 such that {failed} {confirmed} {recovery} Slowest recovery time(t2) < Fastest propagation time(t1) f1 {failed} ETR – 2013 – Toulouse, France, 26-30/8/2013

To summarize... Systematic modelling method for dependability and FDIR  Compositional (dependability pattern)  Incremental (functional, dependability and FDIR layers)  Extensible (enhancement of deduced propagation paths)  Demonstrable (model simulation and model checking)  Complex propagation, common mode faults, external events, ... Method improvements  Model reduction techniques, possibly resolution techniques  Complete libraries (fault models, failure modes, propagation rules) Integration into company’s processes  Articulation of FDIR, Dependability, Engineering processes  Place of simulation, formal validation  Tools, methods benchmarking, training ETR – 2013 – Toulouse, France, 26-30/8/2013

Outline  Dependability in space  Constraints, needs, solutions, achievements  Dependability (FDIR) process  Model Based Dependability  Engineering, Assessment  Why it may become so complicated? ETR – 2013 – Toulouse, France, 26-30/8/2013

Hybrid models  Structure / Behaviour  Behaviour: Discrete logic + continuous  Decoupling possible but based on a priori hypotheses which must be validated, cannot be exhaustive, hardly systematic and anyway limited by the actual interactions  Interest of coupling, integrating models  Limitations of current tools and even theoretical framework to support comprehensive and accurate simulations...

and even more proofs ETR – 2013 – Toulouse, France, 26-30/8/2013

Why we need at least time(s)  Explicitly used by FDIR mechanisms (implicit coupling, enforcement of the desired organisation, sequencing, hierarchy)  Sort of “pivot” notion between the discrete logics and the continuous physical phenomena  Explicit incorporation of the temporal characteristics of failures  Transient, intermittent...  Possibly some other interesting though speculative ideas about time and failures ETR – 2013 – Toulouse, France, 26-30/8/2013

Time and failures  Notion of resistance, during some time, to faults  Explicit property in security  Less usual though possibly interesting for accidental faults  See also the built-in resistance to exceptional environmental conditions  Notion of “trajectory of failures”  “Mortal Byzantine”, cf.

Josef Widder, Martin Biely, Günther Griddling, Bettina Weiss, TU Wien, DSN 2007  Notion of safety margin for dynamic systems  Recent and on-going PhD studies (Amina Mekki-Mokhtar, Mathilde Machin, LAAS-CNRS, Toulouse, Supervised by D. Powell, J. Guiochet) ETR – 2013 – Toulouse, France, 26-30/8/2013

It is a long way to space No source of failure should be overlooked Factory, Road... ETR – 2013 – Toulouse, France, 26-30/8/2013

Space Systems Dependability Industrial Challenges Jean-Paul Blanquart ASTRIUM Satellites Jean-paul.blanquart@astrium.eads.net ETR - 2013 Toulouse, France, 26-30/8/2013

Vous pouvez aussi lire
Partie suivante ... Annuler