• Aucun résultat trouvé

3.3 Généralisation de la notion de splines : la régression régularisée dans

3.3.3 Régularisation et RKHS

3.3.3.3 Un exemple important : les splines polynomiales

Revenons au modèle classique des splines de lissage présenté au début de la section précédente mais on se place ici sur l’intervalle [0, 1] (en pratique, on peut toujours se ramener à cette situation par un recalage linéaire des données originales). Le modèle considéré est alors le suivant :

yi= f (ti) + εi , i = 1, . . . , n, (3.54)

où t ∈ X = [0, 1] et f ∈ Wm[0, 1] où Wm[0, 1] est l’espace de Sobolev défini par :

Wm[0, 1] ={f : [0, 1] → R t.q. f, f′, . . . , f(m−1) abs. cont., et f(m)∈ L2([0, 1])}. Alors on peut montrer que l’espace de Sobolev Wm[0, 1] muni de la norme

kfk2 = m−1X ν=0 (f(ν)(0))2+ Z 1 0 (f(m)(t))2dt (3.55) est un RKHS, et que son noyau reproduisant est défini par :

R(s, t) = Rt(s) = m−1X ν=0 sνtν [ν!]2 + Z 1 0 (s− u)m−1+ (t− u)m−1+ [(m− 1)!]2 du. (3.56)

Ce résultat est essentiellement basé sur la formule de Taylor avec reste intégral (for- mule de Taylor-Laplace). On rappelle que, si f est une fonction de [0, 1] dans R, m− 1 fois continûment dérivable et telle que f(m)∈ L2([0, 1]), on a :

∀t ∈ [0, 1], f(t) = m−1X ν=0 tν ν!f (ν)(0) +Z 1 0 (t− u)m−1+ (m− 1)! f (m)(u)du, (3.57)

où (x)+ = max(0, x). Or, on peut noter que R(ν)t (0) = tν/ν!, ν = 0, . . . , m− 1 et

R(m)t (s) = (t− s)m−1+ /(m− 1)!. Ainsi, si on considère le produit scalaire associé à la

norme (3.55) : hf, gi = m−1X ν=0 f(ν)(0)g(ν)(0) + Z 1 0 f(m)(t)g(m)(t)dt, (3.58) et si on pose g = Rt, on obtient (3.57), et donc on en déduit que hRt, fi = f(t). De

plus, les deux termes du noyau R(s, t) défini en (3.56), R0(s, t) = m−1X ν=0 sνtν [ν!]2, (3.59) et R1(s, t) = Z 1 0 (s− u)m−1+ (t− u)m−1+ [(m− 1)!]2 du, (3.60)

étant tous deux définis positifs, on peut montrer facilement que les conditions du théorème 3.3sont vérifiées. En effet, on montre que :

H0 = vect{φν, ν = 1, . . . , m} avec φν(t) =

(t− a)ν−1

− 1)! , (3.61) muni de la norme kφk2 =Pm−1

ν=0(φ(ν))2, est un espace de Hilbert de dimension finie

m, que 1, . . . , φm} forme une base orthonormale de cet espace, et que H0 est un

RKHS de noyau R0. Si on note Bm l’ensemble des fonctions f, (m−1) fois dérivables,

telles que f(ν)(0) = 0, ν = 0, . . . , m− 1, on montre également que :

H1 ={f : [0, 1] → R t.q. f ∈ Bm, f, f′, ...,f(m−1) abs. cont.,

et f(m) ∈ L2([0, 1])}, (3.62)

muni de la norme kfk2=R1

0(f(m)(t))2dt, est un espace de Hilbert, et queH1 est un

RKHS de noyau R1. Pour plus de détails, nous renvoyons le lecteur à Wahba [173].

Ainsi, on obtient la décomposition suivante Wm[0, 1] =H0

M

H1, (3.63)

c’est-à-dire que toute fonction f ∈ Wm[0, 1] peut s’écrire de manière unique sous

la forme f = f0+ f1 où f0 ∈ H0 et f1 ∈ H1. Enfin, notons que, en plus d’être en

somme directe, les espaces H0 et H1 sont orthogonaux lorsque Wm[0, 1] est muni de

la norme définie en (3.55), et donc en appliquant le théorème3.3, on en déduit bien que le noyau R(s, t) défini en (3.56) est le noyau reproduisant de Wm[0, 1].

Finalement, nous avons vu à la section 3.2.2 que l’estimateur par spline de lissage b

fλ, solution de la minimisation du critère des moindres carrés pénalisés :

1 n n X i=1 (yi− f(ti))2+ λ Z 1 0 (f(m)(t))2dt

dans l’espace de Sobolev Wm[0, 1], est une spline polynomiale naturelle d’ordre 2m

ayant pour noeuds les points d’échantillonnage. En utilisant la norme définie en (3.55) associé à l’espace de Sobolev Wm[0, 1], on retrouve le caractère géométrique de la

pénalité, c’est-à-direR1

0(f(m)(t))2dt =kP1fk2HR. On peut alors appliquer le théorème

du représentant de Kimeldorf et Wahba (théorème 3.5) et exprimer l’estimateur par spline de lissage bfλ comme une combinaison linéaire de la base de H0 et des

représentants de H1 : b fλ(t) = m−1X ν=0 dνφν(t) + n X i=1 ciR1(ti, t). (3.64)

3.4. Conclusion

Remarque 3.6. Dans cet exemple, nous avons muni l’espace de Sobolev Wm[0, 1] de

la norme définie en (3.55). Plusieurs autres normes équivalentes (au sens topologique) peuvent être utilisées dans cet espace, chaque norme déterminant son propre noyau reproduisant. On peut citer notamment la norme

kfk2= m−1X ν=0 ( Z 1 0 f(ν)(t)dt)2+ Z 1 0 (f(m)(t))2dt. (3.65) On montre alors que l’espace de Sobolev Wm[0, 1] muni cette norme est un RKHS.

De plus, soit kr(t) = Br(t)/r! les polynômes de Bernoulli normalisés où les Br, r =

1, 2, . . . sont définis récursivement par B0(t) = 1, B′r(t) = rBr−1(t) etR01Br(t)dt = 0

pour r = 1, 2, . . . (voir Abramowitz et Stegun [2]). Alors on a Wm[0, 1] =H

0LH1, où H0 = vect{k0(x), k1(x), . . . , km−1(x)} (3.66) et H1={f : [0, 1] → R t.q. Z 1 0 f(ν)(x)dx = 0, ν = 0, ..., m− 1, f(m)∈ L2([0, 1])} (3.67) sont des RKHS de noyaux reproduisants respectifs

R0(s, t) = m−1X ν=0 kν(s)kν(t) (3.68) et R1(s, t) = km(s)km(t) + (−1)m−1k2m(|s − t|). (3.69)

Cette nouvelle construction des splines polynomiales de lissage est détaillée dans Craven et Wahba [33] et dans Gu [72] section 2.3.3. Notons que les coefficients ci et

dν de l’estimateur spline de lissage seront alors différents de ceux obtenus en utilisant

les φν et R1 definis en (3.61) et (3.60), mais que l’estimateur

b fλ(t) = m−1X ν=0 dνφν(t) + n X i=1 ciR1(ti, t) sera le même.

3.4

Conclusion

Ce chapitre a montré l’intérêt des méthodes de lissage utilisant les fonctions splines par rapport aux méthodes du noyau ou des polynômes locaux. En effet, l’utilisation des splines permet de garder le caractère fonctionnel des données et de fournir une expression explicite de la fonction de lissage facilitant ainsi l’évaluation

en tout point de l’intervalle étudié et le calcul des dérivées. Les splines de lissage ré- sultant d’un problème d’optimisation dans l’espace de Sobolev sont particulièrement attractives puisque le degré de lissage de la fonction de régression est contrôlé par un unique paramètre. Les performances de l’estimateur par spline de lissage ont notam- ment été montré pour l’estimation des profils temporels de vitesse et d’accélération. Nous avons entre autre montré sa robustesse aux valeurs aberrantes contrairement aux estimateurs à noyau et par polynômes locaux.

Nous avons également présenté le principe de régularisation qui consiste à res- treindre l’espace fonctionnel de recherche par l’ajout d’un terme de pénalité et qui permet de résoudre des problèmes dits mal posés. Un cas particulier important des problèmes de régularisation est celui où l’on se place dans un espace de Hilbert à noyau reproduisant (RKHS). Dans ce cas, le terme de pénalité est défini en terme de noyau défini positif, et la régularité de la solution est contrôlée par le choix du noyau. Cette généralisation du problème des splines de lissage permet de traiter de manière unifiée de nombreux types de splines de part le choix du RKHS comme espace du modèle, de sa décomposition en somme directe, et de la pénalisation, ce qui rend cette méthode très flexible. De plus, nous avons vu que l’estimateur par spline de lissage appartient à un espace de dimension finie et s’exprime comme une combinaison linéaire des fonctions noyaux. Nous verrons au chapitre suivant que le cadre général des splines polynomiales de lissage permet notamment de traiter le cas de l’estimation d’une fonction de lissage en utilisant de l’information sur sa dérivée, et est particulièrement approprié à l’estimation des profils spatiaux de vitesse.

Chapitre 4

Lissage sous contraintes de profils

spatiaux de vitesse

Ce chapitre est consacré à l’étape de lissage de profils spatiaux de vitesse à partir de données bruitées de position et de vitesse. En effet, nous avons vu à la section

1.3.4que la précision des données de vitesse et de position était très importante dans l’étude des profils de vitesse. Cependant, les données issues de capteurs n’étant pas toujours très précises, il est nécessaire de chercher à minimiser les erreurs de mesures en calculant un estimateur du "vrai" profil spatial de vitesse.

Nous avons vu au chapitre précédent que cette étape de lissage consistait à se ramener à un problème de régression non paramétrique où l’on cherche à estimer la fonction de régression. Nous avons notamment montré que les méthodes de lissage basées sur les splines permettaient de convertir les données brutes de nature vecto- rielle en objet fonctionnel, et de se placer ainsi dans le cadre de l’analyse des données fonctionnelles. De plus, nous avons montré les bonnes performances des splines de lissage pour l’estimation des profils temporels de vitesse et d’accélération.

Dans ce chapitre, on s’interesse uniquement aux profils spatiaux de vitesse pour lesquels une modélisation fonctionnelle a été définie au chapitre2. Dans une première section, nous proposons d’améliorer la qualité des mesures de position en construisant plusieurs estimateurs fusionnant les informations issues des deux principaux capteurs de localisation, à savoir l’odomètre et le GPS.

Après cette étape optionnelle de pré-traitement des données de position, nous nous intéressons à l’étape de lissage de profils spatiaux de vitesse à partir d’obser- vations bruitées de la position et de la vitesse du véhicule. Cependant, nous verrons dans la deuxième section de ce chapitre que, suite à différentes contraintes difficiles à prendre en compte dans l’estimation directe d’un profil spatial de vitesse à partir de mesures bruitées de position et de vitesse, il est préférable dans un premier temps de changer d’espace d’étude, et de se ramener à l’estimation de la distance parcourue en fonction du temps F (t) à partir de ces mêmes mesures bruitées.

de régression non paramétrique sous les deux contraintes suivantes :

(C1) Estimer la fonction de régression F (t) à partir d’observations bruitées de cette

fonction (mesures de position) et également d’observations bruitées de sa déri- vée F′(t) (mesures de vitesse).

(C2) Une contrainte de monotonie sur F .

La prise en compte de ces deux contraintes est l’objet de la troisième section pour la contrainte (C1), et de la quatrième section pour la contrainte (C2).

4.1

Étape de pré-traitement des données : estimation par

fenêtre glissante de la position du véhicule à partir

de l’odomètre et du GPS

Nous proposons dans cette section une étape optionnelle de pré-traitement des données, afin d’améliorer la qualité des mesures de position lorsque l’on dispose à la fois des mesures GPS et des mesures odométriques. En effet, si l’estimation des profils spatiaux de vitesse nécessite d’estimer à la fois la position et la vitesse du vé- hicule en chaque instant, en pratique, les mesures de vitesses sont généralement plus précises que les mesures de position. Or, il est nécessaire de connaître précisément la position du véhicule à un instant donné car une erreur de positionnement peut avoir de graves conséquences dans une étude sur les profils de vitesse. La précision des mesures de position varie en fonction des capteurs utilisés. Par exemple, la figure 4.1

montre un exemple de profil spatial de vitesse obtenu à partir de différents capteurs : un GPS différentiel RTK (mesures de position avec une précision centimétrique), un GPS classique et un odomètre (voir annexe A pour plus d’informations sur ces capteurs). Cette figure met en évidence la dérive de l’odomètre (mesures collectées sur le bus CAN) au cours du trajet due à une accumulation d’erreurs dans le calcul de la distance parcourue. Ainsi, sur un trajet de longueur totale 4 km, on observe un décalage de 32 m de la distance parcourue mesurée par l’odomètre par rapport à celle mesurée par le GPS RTK à la fin du trajet.

Afin de pallier ce problème, nous proposons dans une étape de pré-traitement des données précédant l’étape de lissage, d’améliorer la qualité des mesures de po- sition en proposant un estimateur ponctuel de la position du véhicule en chaque instant d’échantillonnage à partir des deux principaux capteurs de localisation, à savoir l’odomètre et le GPS, et tenant compte des avantages et des inconvénients de ces deux capteurs. Nous avons en fait construit plusieurs estimateurs basés sur un modèle statistique simple des erreurs de ces deux capteurs, et permettant une généralisation de ce modèle à d’autres applications. Le détail sur la construction de ces estimateurs ainsi que leur étude sur des données simulées et réelles a donné lieu à un article (actuellement soumis à la revue "Navigation : Journal of the Institute of Navigation" et en attente d’acceptation) et dont l’original est présenté dans l’an-

4.1. Étape de pré-traitement des données : estimation par fenêtre glissante de la position du véhicule à partir de l’odomètre et du GPS

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ●●● ● ●● ●● ●● ●●●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 1000 2000 3000 4000 0 20 40 60 Distance (m) Speed (km/h) ● RTK GPS CAN

Figure 4.1 - Mise en évidence de la dérive de l’odomètre sur un profil spatial de vitesse.

nexeB. Nous donnons ici un simple résumé des résulats présentés en annexe. Dans un premier temps, nous nous sommes placés dans une approche temps réel. Nous avons construit un estimateur sans biais de variance asymptotique minimale correspondant à un filtre de Kalman avec un gain fixe qui est optimal à l’infini. Si cet estimateur récursif présente une moins bonne précision que le filtre de Kalman au début de l’intervalle étudié, sa vitesse de convergence est relativement rapide et son temps de calcul est deux fois plus rapide que le filtre de Kalman. Puis nous avons construits deux estimateurs utilisant uniquement les mesures situées dans une fenêtre glissante de largeur fixé. Le choix de la largeur de la fenêtre de lissage rend ces estimateurs très flexibles par rapport à un estimateur récursif comme le filtre de Kalman. En outre, des études sur données simulées et réelles ont montrés leurs bonnes performances dans l’estimation de la position du véhicule.

Dans un second temps, nous nous sommes placés en phase de post-traitement des données pour l’estimation de la position à un instant t et nous avons étendu les deux estimateurs à fenêtre glissante précédents en ajoutant les observations obtenues après l’instant t. Les résultats montrent une amélioration dans la précision de l’estimation de la position par rapport au cas temps réel.

pré-traitement des données. En effet, l’étude de profils spatiaux de vitesse nécessite une seule source de mesures de position qui peut être soit un odomètre, soit un GPS, soit une fusion des ces deux capteurs (et qui est l’objet de l’étape de pré-traitement décrite dans l’annexeB). Cependant, en pratique, on dispose généralement d’un seul capteur de position. Ainsi, par la suite nous avons choisi d’utiliser uniquement les mesures GPS (mesures disponibles sur un smartphone) en terme de données brutes de position utilisées pour le calcul de l’estimateur. Lorsqu’elles sont disponibles, les mesures odométriques seront simplement données à titre d’information.