• Aucun résultat trouvé

Introduction au Modèle Linéaire

N/A
N/A
Protected

Academic year: 2022

Partager "Introduction au Modèle Linéaire"

Copied!
1
0
0

Texte intégral

(1)

Introduction au Modèle Linéaire

Introduction au Modèle Linéaire

Résumé

Introduction au modèle linéaire ou de régression et au modèle li- néaire général.

Plan du cours :

– Régression linéaire simple

– Modèle gaussien : régression linéaire multiple – Modèle gaussien : analyses de variance et covariance – Modèle binomial ou régression logistique

– Modèle poissonnien ou loglinéaire – Introduction au modèle linéaire général

Objectifs

La Statistique a plusieurs objets : descriptif ou exploratoire, décisionnel (tests), modélisation selon que l’on cherche à représenter des structures des données, confirmer ou expliciter un modèle théorique ou encore prévoir. Ce cours s’intéresse au thème de lamodélisationet plus particulièrement aux mé- thodeslinéaireset à celles qui se ramènent au cas linéaire. Il se limite donc à l’exposé des méthodes dites paramétriques dans lesquelles interviennent descombinaisons linéaires des variables dites explicatives. Celles-ci visent donc à l’estimation d’un nombre généralement restreint de paramètres inter- venant dans cette combinaison mais sans aborder les techniques spécifiques à l’étude des séries chronologiques. Les méthodes non-paramétriques élémen- taires (loess, noyaux, splines) seront introduites dans le cas unidimensionnel.

Lecadre généralde ce cours considère donc les observations d’une variable aléatoireY diteréponse, exogène, dépendantequi doit être expliquée (modé- lisée) par les mesures effectuées surpvariables ditesexplicatives, de contrôle, endogènes, dépendantes, régresseurs. Ces variables peuvent être quantitatives ou qualitatives, ce critère déterminant le type de méthode ou de modèle à mettre en œuvre : régression linéaire, analyse de variance et covariance, ré- gression logistique, modèle log-linéaire.

Compte tenu du temps limité et de la variété des outils mis en jeu nous avons

fait le choix d’insister sur lapratiquedes méthodes considérées ainsi que sur la compréhension des sorties proposées par un logiciel (SAS/STAT) et de leurs limites plutôt que sur les fondements théoriques. Ce cours s’inspire largement d’une présentation “anglo-saxonne” de la Statistique, du particulier vers le gé- néral, dont des compléments sont à rechercher dans la bibliographie citée en référence. On montre donc comment utiliser les propriétés des modèles sta- tistiques pour le traitement des données tandis que certains des aspects plus mathématiques (démonstrations) sont l’objet d’exercices. Néanmoins, le der- nier chapitre introduit au cadre théorique général incluant toutes les méthodes considérées : lemodèle linéaire généralisé.

En théorie, on peut distinguer deux approches : avec ou sans hypothèse pro- babiliste sur la distribution des observations ou des erreurs qui est, le plus souvent, l’hypothèse denormalité. En pratique, cette hypothèse n’est guère prouvable, les tests effectués sur les résidus estimés sont peu puissants. Cette hypothèse est néanmoins implicitement utilisée par les logiciels qui produisent systématiquement les résultats de tests. Plus rigoureusement, ces résultats sont justifiés par les propriétés des distributions asymptotiques des estimateurs, pro- priétés qui ne sont pas développées dans ce cours. En conséquence, du moment que les échantillons sont de taille “raisonnable”, hypothèse on non de norma- lité, les distributions des estimateurs et donc les statistiques de test sont consi- dérées comme valides.

En revanche, d’autres aspects des hypothèses, inhérentes aux méthodes dé- veloppées et qui, en pratique, conditionnent fortement la qualité des estima- tions, doivent être évalués avec soin :linéarité, colinéarité, homoscédasticité, points influentsou atypiques (outliers). Les différentsdiagnosticsainsi que le problème du choix des variables explicatives, c’est-à-dire duchoix de modèle, sont plus particulièrement décrits.

Dans la mesure du possible, nous avons respecté une certaine uniformisation des notations. Des caractères majusculesX,Y désignent des variables aléa- toires, des caractères gras minuscules désignent des vecteurs :yi est laième observation deY rangée dans le vecteury, un chapeau désigne un prédicteur : ˆ

yi, les caractères gras majuscules sont des matrices, un caractère grec(β)est un paramètre (qui est une variable aléatoire) dont l’estimation est désignée par la lettre latine correspondante(b).

1

Références

Documents relatifs

Dans la section 2 nous d´ecrivons comment le mod`ele de r´egression `a processus latent peut ˆetre exploit´e dans le cadre de la r´egression non lin´eaire.. La section 3 pr´esente

Après avoir posé les hypothèses de base du modèle (unité 1), nous verrons dans ce module le principe de calcul des estimateurs des moindres carrés ordinaires (unité

(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la variable logclaimcst0 en fonction des variables gender et agecat, considérée comme

On montre que ce modèle peut être considéré comme un modèle linéaire généralisé et on étudie les propriétés asymptotiques des estimateurs du maximum de

Une analyse de la variance multivariée des composantes principales définies sur les profils-lignes sur les facteurs X1, ..., Xk permet de restituer les résultats

C’est pour cette raison que nous proposons dans cette note de choisir un point de départ basé sur les plus proches voisins de façon à éliminer l’influence des

Mots clés : Modèle de régression linéaire, sélection bayésienne de variables, loi a priori de Zellner, lois a priori compatibles, modèles hiérarchiques, échantillonneur de

exemples disponibles par la méthode de validations croisées [13].  La validation croisée est une méthode qui permet de diviser le jeu de données en proportions d’exemples