UNIVERSITE DE BRETAGNE OCCIDENTALE
Année 2019-2020Master EURIA 1ère ANNEE
Examen sur le modèle linéaire Mardi 17 décembre 2019
Polycopié distribué en cours, notes manuscrites et ordinateurs autorisés.
Exercice 1.
Démontrer que l’estimateur des moindres-carrés coïncide avec l’estimateur du maximum de vraisemblance dans le modèle linéaire gaussien. On détaillera le raisonnement.
Exercice 2.
1. On noteE l’espace vectoriel engendré par les vecteurs (1,1,0)′ et(1,0,1)′. Soit x= (x1, x2, x3)′ ∈R3. Calculer πE(x) le projeté orthogonal dex surE etπE⊥(x) le projeté orthogonal de x surE⊥.
2. SoientX1, X2 et X3 trois variables aléatoires gaussiennes indépendantes telles que E[Xi] = 0 et var(Xi) = 1. On note X = (X1, X2, X3)′. Quelle est la loi de πE(X)? Quelle est la loi de ||πE(X)||2?
3. Quelle est la loi de (2X1+X2+X3)2+(X6(X1+2X2−X3)2+(X1−X2+2X3)2
1−X2−X3)2 ?
Exercice 3.
1. Simuler un jeu de données qui contient
— 100 femmes et 100 hommes,
— une variable x, qui représente l’âge des individus, simulée selon une loi uniforme sur l’intervalle [20,80],
— une variable y, qui représente le montant des sinistres, simulée selon le modèle
Yi = {
αF +βFxi+Wi si l’individu i est une femme αM +βMxi+Wi si l’individu i est un homme avec (W1, ..., Wn)des variables aléatoires qui suivent la loi N(0, σ2).
On prendra les valeurs αF = 0, αM = 1,βF = 1, βM = 2,σ = 10 pour les paramètres. On stockera les simulations dans un objet de type data.frame avec des colonnes nommées AGE, GENRE, MONTANT. Donner les commandes R utilisées sur la copie.
1
2. Estimer les paramètres du modèle à partir des données simulées en utilisant la commande lm. On donnera les commandes R utilisées sur la copie et on reportera les valeurs numériques obtenues.
3. Réaliser le test de l’hypothèseH0 :βF =βM avec R de deux manières différentes :
— en utilisant un test basé sur la loi de Student ;
— en utilisant un test basé sur la loi de Fisher
On donnera les commandes R utilisées sur la copie et on reportera les valeurs numériques obtenues.
4. Montrer que le modèle peut s’écrire sous la forme matricielleY =Xβ+W avecX une matrice qu’on explicitera. Vérifier avec R qu’on retrouve la même estimation en utilisant la formule du cours Bˆ = (X′X)−1X′Y et la fonction lm.
5. Décrire une procédure permettant d’estimer le biais et la variance des estimateurs des paramètres inconnus. Implémenter la méthode avec R et reporter les valeurs numériques obtenues sur la copie.
Exercice 4.
On considère dans cet exercice le jeu de données AutoClaims disponible dans le package insuranceData (les données ont été envoyées avant l’examen, contactez le surveillant si vous n’avez pas accès au jeu de données).
Proposer un ou plusieurs modèles de régression pour expliquer la variable PAID à partir des autres variables. On discutera précisément les modèles ajustés, les méthodes utilisées et les résultats obtenus. Les valeurs numériques et graphiques les plus intéressants doivent être reproduits sur la copie mais il n’est pas utile de reproduire les codes R.
2