Multi-task Bolasso based aircraft dynamics identification

(1)

HAL Id: hal-01643177

https://hal.inria.fr/hal-01643177

Submitted on 21 Nov 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Multi-task Bolasso based aircraft dynamics identification

Cédric Rommel, Joseph Frédéric Bonnans, Baptiste Gregorutti, Pierre Martinon

To cite this version:

Cédric Rommel, Joseph Frédéric Bonnans, Baptiste Gregorutti, Pierre Martinon. Multi-task Bolasso

based aircraft dynamics identification. PGMODays, Nov 2017, Paris, France. �hal-01643177�

(2)

C. Rommel , J. F. Bonnans , B. Gregorutti

²

and P. Martinon

¹

CMAP Ecole Polytechnique - INRIA¹ Safety Line²

November 14

^th

2017

(3)

Motivation

20 000 airplanes — 80 000 flights per day,

Should double until 2033,

Responsible for 3% of CO

₂

emissions,

Accounts for 30% of operational cost for an airline,

Rectilinear climb trajectories at full thrust.

(4)

Motivation

20 000 airplanes — 80 000 flights per day,

Should double until 2033,

(5)

Motivation

20 000 airplanes — 80 000 flights per day, Should double until 2033,

Responsible for 3% of CO

₂

emissions,

Accounts for 30% of operational cost for an airline,

Rectilinear climb trajectories at full thrust.

(6)

Motivation

20 000 airplanes — 80 000 flights per day, Should double until 2033,

Responsible for 3% of CO

₂

emissions,

Accounts for 30% of operational cost for an airline,

(7)

Motivation

20 000 airplanes — 80 000 flights per day, Should double until 2033,

Responsible for 3% of CO

₂

emissions,

Accounts for 30% of operational cost for an airline,

Rectilinear climb trajectories at full thrust.

(8)

Should double until 2033,

Responsible for 3% of CO

₂

emissions,

Accounts for 30% of operational cost for an airline,

Rectilinear climb trajectories at full thrust.

(9)

Example of optimized trajectory

Reference Optimized

1311kg 1141kg

(10)

(x,u)∈

min

X×U

Z

tf

0

C (t, u(t), x(t))dt,

s.t.



 



 



Φ(x(0), x(t

_f

)) ∈ K

_Φ

,

u(t) ∈ U

_ad

, for a.e. t ∈ [0, t

_f

],

c

j

(x(t)) ≤ 0, j = 1, . . . , n

c

, for all t ∈ [0, t

f

],

˙

x = g (t, u, x), for a.e. t ∈ [0, t

_f

].

(11)

Optimal Control Problem

(x,u)∈

min

X×U

Z

tf

0

C (t, u(t), x(t))dt,

s.t.



 



 



Φ(x(0), x(t

_f

)) ∈ K

_Φ

,

u(t) ∈ U

_ad

, for a.e. t ∈ [0, t

_f

],

c

j

(x(t)) ≤ 0, j = 1, . . . , n

c

, for all t ∈ [0, t

f

],

˙

x = g (t, u, x), for a.e. t ∈ [0, t

_f

].

(12)

(x,u)∈

min

X×U

Z

tf

0

C (t, u(t), x(t))dt,

s.t.



 



 



Φ(x(0), x(t

_f

)) ∈ K

_Φ

,

u(t) ∈ U

_ad

, for a.e. t ∈ [0, t

_f

],

c

j

(x(t)) ≤ 0, j = 1, . . . , n

c

, for all t ∈ [0, t

f

],

˙

x = g (t, u, x), for a.e. t ∈ [0, t

_f

].

(13)

Optimal Control Problem

(x,u)∈

min

X×U

Z

tf

0

C (t, u(t), x(t))dt,

s.t.



 



 



Φ(x(0), x(t

_f

)) ∈ K

_Φ

,

u(t) ∈ U

_ad

, for a.e. t ∈ [0, t

_f

],

c

j

(x(t)) ≤ 0, j = 1, . . . , n

c

, for all t ∈ [0, t

f

],

˙

x = g (t, u, x), for a.e. t ∈ [0, t

_f

].

(14)

(x,u)∈

min

X×U

Z

tf

0

C (t, u(t), x(t))dt,

s.t.



 



 



Φ(x(0), x(t

_f

)) ∈ K

_Φ

,

u(t) ∈ U

_ad

, for a.e. t ∈ [0, t

_f

],

c

j

(x(t)) ≤ 0, j = 1, . . . , n

c

, for all t ∈ [0, t

f

],

˙

x = g (t, u, x), for a.e. t ∈ [0, t

_f

].

(15)

Optimal Control Problem

(x,u)∈

min

X×U

Z

tf

0

C (t, u(t), x(t))dt,

s.t.



 



 



Φ(x(0), x(t

_f

)) ∈ K

_Φ

,

u(t) ∈ U

_ad

, for a.e. t ∈ [0, t

_f

],

c

j

(x(t)) ≤ 0, j = 1, . . . , n

c

, for all t ∈ [0, t

f

],

˙

x = g (t, u, x), for a.e. t ∈ [0, t

_f

].

(16)

QAR data

(17)

QAR data

Massive (> 1000 variables recorded every second),

x ˙ = g (t, u, x)

(18)

QAR data

(19)

QAR data

Massive (> 1000 variables recorded every second),

x ˙ = g (t, u, x)

(20)

Massive (> 1000 variables recorded every second),

x ˙ = g (t, u, x)

(21)

Flight mechanics and state equation

Classic flight mechanics model

(22)

 

 

 

 

V ˙ = T cos α − D − mg sin γ

m ,

˙

γ = T sin α + L − mg cos γ

mV ,

˙

m = − T

I

_sp

.

(23)

Flight mechanics and state equation



 

 

 

 

h ˙ = V sin γ ,

V ˙ = T cos α − D − mg sin γ

m ,

˙

γ = T sin α + L − mg cos γ

mV ,

˙

m = − T I

_sp

.

State variables: x = [h, V , γ, m]

(24)

 

 

 

 

V ˙ = T cos α − D − mg sin γ

m ,

˙

γ = T sin α + L − mg cos γ

mV ,

˙

m = − T I

_sp

.

State variables: x = [h, V , γ, m]

Control variables: u = [α, N

₁

]

(25)

Flight mechanics and state equation



 

 

 

 

h ˙ = V sin γ,

V ˙ = T cos α − D − mg sin γ

m ,

˙

γ = T sin α + L − mg cos γ

mV ,

˙

m = − T I

_sp

.

State variables: x = [h, V , γ, m]

Control variables: u = [α, N

₁

]

Unknown functions of the state and control variables

(26)

 

 

 

 

V ˙ = T (x, u) cos α − D(x, u) − mg sin γ

m ,

˙

γ = T (x, u) sin α + L(x, u) − mg cos γ

mV ,

˙

m = − T (x, u) I

sp

(x, u) .

State variables: x = [h, V , γ, m]

Control variables: u = [α, N

₁

]

Unknown functions of the state and control variables

(27)

Model requirements



 



 



T function of (M , ρ, N

1

), D function of (M , ρ, q),

L function of (M , ρ, q), I

sp

function of (M , h, SAT ),

Need for smooth models,

Need for models which are fast to compute,

Need for interpretable models for safety,

Need for models which are rich enough.

(28)

Model requirements



 



 



T function of (M , ρ, N

1

) = ϕ

T

(x, u), D function of (M , ρ, q) = ϕ

_D

(x, u),

L function of (M , ρ, q) = ϕ

_L

(x, u),

I

sp

function of (M , h, SAT ) = ϕ

_Isp

(x, u),

(29)

Model requirements



 



 



T function of (M , ρ, N

1

) = ϕ

T

(x, u), D function of (M , ρ, q) = ϕ

_D

(x, u),

L function of (M , ρ, q) = ϕ

_L

(x, u), I

sp

function of (M , h, SAT ) = ϕ

_Isp

(x, u),

Need for smooth models,

Need for models which are fast to compute,

Need for interpretable models for safety,

Need for models which are rich enough.

(30)

Model requirements



 



 



T function of (M , ρ, N

1

) = ϕ

T

(x, u), D function of (M , ρ, q) = ϕ

_D

(x, u),

L function of (M , ρ, q) = ϕ

_L

(x, u), I

sp

function of (M , h, SAT ) = ϕ

_Isp

(x, u),

Need for smooth models,

Need for models which are fast to compute,

(31)

Model requirements



 



 



T function of (M , ρ, N

1

) = ϕ

T

(x, u), D function of (M , ρ, q) = ϕ

_D

(x, u),

L function of (M , ρ, q) = ϕ

_L

(x, u), I

sp

function of (M , h, SAT ) = ϕ

_Isp

(x, u),

Need for smooth models,

Need for models which are fast to compute, Need for interpretable models for safety,

Need for models which are rich enough.

(32)

Model requirements



 



 



T = X

T

· θ

T

, D = X

_D

· θ

_D

, L = X

_L

· θ

_L

, I

sp

= X

_Isp

· θ

_Isp

.

Need for smooth models,

Need for models which are fast to compute,

Need for interpretable models for safety,

(33)

Model requirements



 



 



T = X

T

· θ

T

, with X

T

6= ϕ

T

(x, u), D = X

_D

· θ

_D

, with X

_D

6= ϕ

_D

(x, u), L = X

_L

· θ

_L

, with X

_L

6= ϕ

_L

(x, u), I

sp

= X

_Isp

· θ

_Isp

, with X

_Isp

6= ϕ

_Isp

(x, u).

Need for smooth models,

Need for models which are fast to compute, Need for interpretable models for safety,

Need for models which are rich enough.

(34)

 

 

 



T T T T

D = X

_D

· θ

_D

, with X

_D

6= ϕ

_D

(x, u), L = X

_L

· θ

_L

, with X

_L

6= ϕ

_L

(x, u), I

sp

= X

_Isp

· θ

_Isp

, with X

_Isp

6= ϕ

_Isp

(x, u).

Need for smooth models,

Need for models which are fast to compute,

Need for interpretable models for safety,

Need for models which are rich enough.

(35)

Model requirements



 



 



T = X

T

· θ

T

, with X

T

= Φ

d

◦ ϕ

T

(x, u), D = X

_D

· θ

_D

, with X

_D

= Φ

_d

◦ ϕ

_D

(x, u), L = X

_L

· θ

_L

, with X

_L

= Φ

_d

◦ ϕ

_L

(x, u), I

sp

= X

_Isp

· θ

_Isp

, with X

_Isp

= Φ

_d

◦ ϕ

_Isp

(x, u).

Need for smooth models,

Need for models which are fast to compute,

Need for interpretable models for safety,

Need for models which are rich enough.

(36)

 

 

 



T T T 1

D = X

_D

· θ

_D

, with X

_D

= q(1, α, M , α

²

, αM , M

²

, ...), L = X

_L

· θ

_L

, with X

_L

= q(1, α, M, α

²

, αM , M

²

, ...), I

sp

= X

_Isp

· θ

_Isp

, with X

_Isp

= (1, h, M , h

²

, hM, M

²

, ...).

Need for smooth models,

Need for models which are fast to compute,

Need for interpretable models for safety,

Need for models which are rich enough.

(37)

Regression problems



 



 



h ˙ = V sin γ

m V ˙

r

= T cos α − D − mg sin γ mV

r

γ ˙ = T sin α + L − mg cos γ

˙

m = −

_I^T

sp

.

Targets to fit Unknown Random error

(38)

Regression problems



 



 



h ˙ = V sin γ

m V ˙

r

= T cos α − D − mg sin γ mV

r

γ ˙ = T sin α + L − mg cos γ

˙

m = −

_I^T

sp

.

(39)

Regression problems



 



 



h ˙ = V sin γ m V ˙

r

+ mg sin γ = T cos α − D mV

r

γ ˙ + mg cos γ = T sin α + L

˙

m = −

_I^T

sp

.

Targets to fit Unknown Random error

(40)

Regression problems



 



 



h ˙ = V sin γ m V ˙

r

+ mg sin γ = T cos α − D mV

_r

γ ˙ + mg cos γ = T sin α + L

0 = T + ˙ mI

sp

.

(41)

Regression problems



 



 



h ˙ = V sin γ m V ˙

r

+ mg sin γ = T cos α − D mV

_r

γ ˙ + mg cos γ = T sin α + L

0 = T + ˙ mI

sp

.

⇓



 

 

Y

1

= X

T

cos α · θ

T

− X

D

· θ

D

+ε

1

Y

₂

= X

_T

sin α · θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

_T

· θ

_T

+ ˙ mX

_Isp

· θ

_Isp

+ε

₃

Targets to fit Unknown Random error

(42)

Multi-task regression framework



 

 

Y

1

= X

_T

cos α · θ

_T

− X

_D

· θ

_D

+ε

1

Y

₂

= X

_T

sin α · θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ ˙ mX

Isp

· θ

Isp

+ε

3



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

₃





| {z }

ε

.

(43)

Multi-task regression framework



 

 

Y

1

= X

_T

cos α · θ

_T

− X

_D

· θ

_D

+ε

1

Y

₂

= X

_T

sin α · θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ mX ˙

Isp

· θ

Isp

+ε

3



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

₃





| {z }

ε

.

Ensures all components of ˆ g to share the same thrust ˆ T , Better predictive accuracy from tight coupling,

Helps in high correlations setting.

(44)

Multi-task regression framework



 

 

Y

1

= X

_T1

· θ

_T

− X

_D

· θ

_D

+ε

1

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

₃





| {z }

ε

.

(45)

Multi-task regression framework

Y = X θ + ε,



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

₃





| {z }

ε

.

Ensures all components of ˆ g to share the same thrust ˆ T , Better predictive accuracy from tight coupling,

Helps in high correlations setting.

(46)

Multi-task regression framework

Y = X θ + ε,



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

3





| {z }

ε

.

(47)

Multi-task regression framework

Y = X θ + ε,



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

3





| {z }

ε

.

Ensures all components of ˆ g to share the same thrust ˆ T ,

Better predictive accuracy from tight coupling,

Helps in high correlations setting.

(48)

Multi-task regression framework

Y = X θ + ε,



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

3





| {z }

ε

.

Ensures all components of ˆ g to share the same thrust ˆ T ,

Better predictive accuracy from tight coupling,

(49)

Multi-task regression framework

Y = X θ + ε,



 Y

1

Y

₂

0 



| {z }

Y

=





X

_T1^>

−X

_D^>

0 0 X

_T2^>

0 X

_L^>

0 X

_T^>

0 0 X

_Ispm^>





| {z }

X





 θ

T

θ

_D

θ

_L

θ

Isp







| {z }

θ

+



 ε

1

ε

₂

ε

3





| {z }

ε

.

Ensures all components of ˆ g to share the same thrust ˆ T ,

Better predictive accuracy from tight coupling,

(50)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations,

{X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(51)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(52)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Empirical Risk Minimization min

θ

1 N

N

X

i=1

L(Y

ⁱ

, X

ⁱ

θ),

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(53)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Least Squares Regression min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

,

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(54)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Least Squares Regression min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

,

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(55)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Least Squares Regression min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

,

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(56)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

L

¹

penalization min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

(57)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

L

¹

penalization min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

' Lasso [Tibshirani, 1994]

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(58)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Block sparse Lasso min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

' Lasso [Tibshirani, 1994]

(59)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Block sparse Lasso min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

' Lasso [Tibshirani, 1994]

Polynomial regression

high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(60)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Block sparse Lasso min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

' Lasso [Tibshirani, 1994]

Polynomial regression high correlations between elements of X

ⁱ

(61)

Feature selection

Let {(x

ⁱ

, u

ⁱ

, x ˙

ⁱ

)}

^N_i=1

set of N observations, {X

ⁱ

, Y

ⁱ

}

^N_i=1

,

Maybe not all monomials are relevant for T , D, L and/or I

_sp

model...

Overfitting...

Block sparse Lasso min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

' Lasso [Tibshirani, 1994]

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

⇒ Bolasso [Bach, 2008]

(62)

Block sparse Lasso min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λkθk

₁

,

' Lasso [Tibshirani, 1994]

Polynomial regression high correlations between elements of X

ⁱ

Unstable selections...

(63)

Bootstrap implementation

Block sparse Bolasso

Require:

training data T = {(X

ⁱ

, Y

ⁱ

)}

^N_i=1

, number of bootstrap replicates m, L

¹

penalization parameter λ,

1:

for k = 1 to m do

2:

Generate bootstrap sample T

^k

,

3:

Compute Block sparse Lasso estimate ˆ θ

^k

from T

^k

,

4:

Compute support J

_k

= {j , θ ˆ

^k_j

6= 0},

5:

end for

6:

Compute J = T

m k=1

J

k

,

7:

Compute ˆ θ

_J

from T

_J

= {(X

_Jⁱ

, Y

ⁱ

)}

^N_i=1

using Least-Squares.

Consistency under high correlations proved in [Bach, 2008],

Efficient implementations exists: LARS [Efron et al., 2004].

(64)

Bootstrap implementation

Block sparse Bolasso

Require:

training data T = {(X

ⁱ

, Y

ⁱ

)}

^N_i=1

, number of bootstrap replicates m, L

¹

penalization parameter λ,

1:

for k = 1 to m do

2:

Generate bootstrap sample T

^k

,

3:

Compute Block sparse Lasso estimate ˆ θ

^k

from T

^k

,

4:

Compute support J

_k

= {j , θ ˆ

^k_j

6= 0},

5:

end for

6:

Compute J = T

m k=1

J

k

,

7:

Compute ˆ θ

_J

from T

_J

= {(X

_Jⁱ

, Y

ⁱ

)}

^N_i=1

using Least-Squares.

Consistency under high correlations proved in [Bach, 2008],

(65)

Bootstrap implementation

Block sparse Bolasso

Require:

training data T = {(X

ⁱ

, Y

ⁱ

)}

^N_i=1

, number of bootstrap replicates m, L

¹

penalization parameter λ,

1:

for k = 1 to m do

2:

Generate bootstrap sample T

^k

,

3:

Compute Block sparse Lasso estimate ˆ θ

^k

from T

^k

,

4:

Compute support J

_k

= {j , θ ˆ

^k_j

6= 0},

5:

end for

6:

Compute J = T

m k=1

J

k

,

7:

Compute ˆ θ

_J

from T

_J

= {(X

_Jⁱ

, Y

ⁱ

)}

^N_i=1

using Least-Squares.

Consistency under high correlations proved in [Bach, 2008],

(66)

Identifiability issues

(67)

Identifiability issues



 

 

Y

1

= X

T1

· θ

T

− X

D

· θ

D

+ε

1

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3

Use prior ˜ I

_sp

{ ˜ I

_spⁱ

= ˜ I

_sp

(x

ⁱ

, u

ⁱ

)}.

(68)

Identifiability issues



 

 

Y

1

= X

T1

· θ

T

− X

D

· θ

D

+ε

1

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3

(69)

Identifiability issues



 

 

Y

1

= X

T1

· θ

T

− X

D

· θ

D

+ε

1

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3

min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λ

₁

kθk

₁

,

Use prior ˜ I

_sp

{ ˜ I

_spⁱ

= ˜ I

_sp

(x

ⁱ

, u

ⁱ

)}.

(70)

Identifiability issues



 

 

Y

1

= X

T1

· θ

T

− X

D

· θ

D

+ε

1

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3

min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λ

₁

kθk

₁

,

⇒ θ ˆ

_T

= ˆ θ

_Isp

= 0 !

(71)

Identifiability issues



 

 

Y

1

= X

T1

· θ

T

− X

D

· θ

D

+ε

1

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3

min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λ

₁

kθk

₁

,

⇒ θ ˆ

_T

= ˆ θ

_Isp

= 0 !

(72)

 

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

T

· θ

T

+ X

Ispm

· θ

Isp

+ε

3

min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λ

₂

k ˜ I

_spⁱ

− X

_Ispⁱ

· θ

_Isp

k

²₂

+ λ

₁

kθk

₁

,

⇒ θ ˆ

_T

= ˆ θ

_Isp

= 0 !

(73)

Identifiability issues



 



 



Y

₁

= X

_T1

· θ

_T

− X

_D

· θ

_D

+ε

₁

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

_T

· θ

_T

+ X

_Ispm

· θ

_Isp

+ε

3

λ

₂

˜ I

_sp

= λ

₂

X

_Isp

· θ

_Isp

+ε

₄

min

θ

1 N

N

X

i=1

kY

ⁱ

− X

ⁱ

θk

²₂

+ λ

₂

k ˜ I

_spⁱ

− X

_Ispⁱ

· θ

_Isp

k

²₂

+ λ

₁

kθk

₁

,

⇒ θ ˆ

_T

= ˆ θ

_Isp

= 0 !

(74)

 



Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

_T

· θ

_T

+ X

_Ispm

· θ

_Isp

+ε

3

λ

₂

˜ I

_sp

= λ

₂

X

_Isp

· θ

_Isp

+ε

₄

min

θ

1 N

N

X

i=1

k Y ˜

ⁱ

− X ˜

ⁱ

θk

²₂

+ λ

₁

kθk

₁

,

⇒ θ ˆ

_T

= ˆ θ

_Isp

= 0 !

(75)

Identifiability issues



 



 



Y

₁

= X

_T1

· θ

_T

− X

_D

· θ

_D

+ε

₁

Y

₂

= X

_T2

· θ

_T

+ X

_L

· θ

_L

+ε

₂

0 = X

_T

· θ

_T

+ X

_Ispm

· θ

_Isp

+ε

3

λ

₂

˜ I

_sp

= λ

₂

X

_Isp

· θ

_Isp

+ε

₄

min

θ

1 N

N

X

i=1

k Y ˜

ⁱ

− X ˜

ⁱ

θk

²₂

+ λ

₁

kθk

₁

,

Y ˜

ⁱ

=





 Y

₁ⁱ

Y

₂ⁱ

0 λ

2

˜ I

_spⁱ







, X ˜

ⁱ

=







(X

_T1ⁱ

)

^>

−(X

_Dⁱ

)

^>

0 0 (X

_T2ⁱ

)

^>

0 (X

_Lⁱ

)

^>

0 (X

_Tⁱ

)

^>

0 0 (X

_Ispmⁱ

)

^>

0 0 0 λ

2

(X

_Ispⁱ

)

^>







,

(76)

(77)

Feature selection results

25 different B737-800,

10 471 flights = 8 261 619 observations,

Block sparse Bolasso used for T , D, L and I

sp

,

We expect similar model structures,

(78)

Feature selection results

25 different B737-800,

10 471 flights = 8 261 619 observations,

(79)

Feature selection results

25 different B737-800,

10 471 flights = 8 261 619 observations, Block sparse Bolasso used for T , D, L and I

sp

,

We expect similar model structures,

(80)

Block sparse Bolasso used for T , D, L and I

sp

,

We expect similar model structures,

(81)

Feature selection results

(82)

(83)

Effect of λ ₂ on hidden elements

(84)

(85)

Identification results assessment

x − ˆ x

u − u ˆ

(86)

s.t. x ˙ = ˆ g (x, u)

(87)

Identification results assessment

x,u∈

min

X×U

Z

tf

0

ku(t) − u

m

(t)k

²_u

+ kx(t ) − x

m

(t )k

²_x

dt

s.t. x ˙ = ˆ g (x, u)

(88)

s.t. x ˙ = ˆ g (x, u)

(89)

THANK YOU FOR YOUR ATTENTION !

(90)

pages 33–40. Proceedings of the 25th International Conference on Machine Learning (ICML).

Bonnans, J. F., Giorgi, D., Grelard, V., Heymann, B., Maindrault, S., Martinon, P., Tissot, O., and Liu, J. (2017).