• Aucun résultat trouvé

L’inscription des candidats qui ont obtenu une offre d’admission ainsi que la graduation des étudiants sont analysées à l’aide de régressions logistiques. Suivant la notation exposée à la section 3.1, deux événements distincts sont étudiés : l’inscription et la graduation. Les perturbations jde l’utilité des alternatives sont supposées suivre une loi extremum généralisée

(EV1). Sous cette hypothèse, la différence entre les termes d’erreur des alternatives suit une distribution logistique et la forme fonctionnelle de la probabilité d’inscription ou de graduation du ième candidat est donnée par

P[Yi = 1 | xi] =

exp(x0iβ) 1 + exp(x0iβ)

selon ces caractérisitques observables xi. Les modèles sont estimés par maximum de vrai-

semblance : les coefficients sont calculés afin de maximiser la fonction de vraisemblance pour l’ensemble de demandes étudiées.

ˆ β = arg max β    l(β) = Y Yi=0 1 1 − exp(x0iβ) Y Yi=1 exp(x0iβ) 1 − exp(x0iβ)   

Les modèles sont calibrés selon les demandes qui ont conduit à une offre d’admission pour ensuite être utilisés afin d’inférer le comportement de l’ensemble des candidats au programme, ayant reçu ou non une offre d’admission. Chacune des caractéristiques disponibles est intégrée directement ou indirectement dans les modèles ; le sexe, le choix de programme, la cote de sélection, l’âge, la récurrence des candidats, le type de candidature et la dernière faculté uni- versitaire fréquentée par les candidats de la clientèle non collégiale. La description des variables de base utilisées dans les modèles est présentée au tableau3.3. Des variables qui permettent d’identifier la dernière faculté universitaire fréquentée par la clientèle non collégiale sont éga- lement considérées. Leurs significations étant claires, elles ne requièrent pas de description formelle.

3. Les fonctions de répartition ont été estimées avec le logiciel statistique R selon la précédure suivante : les fenêtres d’estimation ont été calculées avec la fonction npudistbw(...) de la librairie np. D’après ce résultat, la fonction de répartition est ensuite estimée avec la fonction npudist(...) également de la librairie np. Pour

Tableau 3.3 – Description des variables de base utilisées dans les modèles logistiques Variable Description

GENRE Sexe du candidat : 1 pour une femme et 0 pour un homme

CHOIX Rang du choix : 1 si ergothérapie est le 1erchoix du candidat, 0 sinon

COTE Cote de sélection du candidat∗ AGE Âge du candidat †

CREC Récurrence des candidats : première demande = 0, 1 sinon

NCOLL Type de clientèle : clientèle non collégiale = 1, clientèle collégiale = 0

Varient entre 17,61 et 39,61.

Calculé en date du 1er septembre de l’année de la demande.

Seuls deux variables sont de type continu : l’âge des candidats (AGE) et leur cote de sélection (COTE). Leurs effets sur l’inscription et la diplomation sont considérés comme non linéaires. Le logarithme de l’âge est considéré dans les modèles pour tenir compte d’un effet marginal décroissant sur la probabilité d’inscription et de diplomation. Il en va de même pour la cote de sélection dans les modèles d’inscription. Par contre, une interaction quadratique de la cote de sélection est intégrée dans les modèles de graduation. L’intuition qui en découle est qu’un candidat avec une cote de sélection très élevée possède déjà un dossier académique qui lui permet de postuler à l’ensemble des programmes universitaires contingentés. Il lui est donc inutile d’intégrer le programme d’ergothérapie dans le but d’améliorer davantage ses résultats scolaires, ce qui en fait un étudiant moins propice à abandonner le programme en comparaison d’un étudiant avec une cote de sélection située aux alentours du minimum requis pour véritablement postuler aux programmes plus « prestigieux ».

Je suis les mêmes étapes pour élaborer les modèles prédictifs de l’inscription et de la diplo- mation qui sont à la base des simulations. Celles-ci sont les suivantes et les différences sont précisées, s’il y a lieu. Dans un premier temps, je calcule un modèle logistique sur l’ensemble des demandes en considérant uniquement les caractéristiques de base (tableau 3.3). Le type de clientèle a un effet statistiquement significatif sur l’inscription (pvalue < 0,05) sans l’être pour la diplomation (pvalue> 0,05). Puisque cette caractéristique affecte le comportement des

candidats dans l’un des cas étudiés et que je dispose d’un plus grand nombre d’informations sur la clientèle non collégiale, les modèles d’inscription et de diplomation sont calibrés en dissociant la clientèle collégiale de la clientèle non collégiale.

Les modèles de comportement associés à la clientèle collégiale font intervenir le sexe, le choix de programme, la cote de sélection et l’âge comme caractéristiques observables. Il en résulte des modèles simples en raison du peu d’information disponible sur ces candidats. Les résultats des estimations pour la clientèle collégiale sont présentés au tableauA.1. Le choix de programme et la cote de sélection sont les deux seules variables significatives du modèle d’inscription. Le signe négatif indique que l’augmentation de la cote de sélection d’un candidat diminue les chances qu’il s’inscrive au programme, et qu’il est plus probable qu’un candidat qui a classé

ergothérapie comme étant son premier choix s’y inscrive advenant une offre d’admission. Pour le modèle de diplomation, le choix de programme est l’unique variable significative et son effet est similaire au cas de l’inscription. Sans être significatifs, les coefficients estimés qui se rattachent à la cote la sélection indiquent un effet en « U » sur la probabilité de diplomation avec un point de renversement à 32,75, soit alentour de la cote d’admission minimale donnant accès au processus d’entrevue du programme de médecine.

Pour la clientèle non collégiale, la récurrence des candidats et la dernière faculté universitaire fréquentée sont considérées dans les modèles. Cette dernière caractéristique amène l’ajout potentiel de seize variables qui catégorisent la provenance de ces candidats. Trois variables supplémentaires qui identifient les candidats qui ont fréquenté un programme de kinésiologie de la faculté de médecine, de biologie de la faculté des sciences et de génie, ou de psychologie de la faculté des sciences sociales sont considérées comme explicatives du comportement de cette clientèle.

Les variables pertinentes à inclure dans les modèles parmi ces dernières sont sélectionnées de la façon suivante : Des tests d’hypothèse, fondés sur le ratio de log-vraisemblance, sont réalisés dans chacun des cas pour déterminer si le comportement des candidats qui proviennent d’un programme de kinésiologie, de psychologie ou de biologie diffère de ceux qui ont fréquenté les autres programmes de leurs facultés respectives. Pour l’inscription, seuls les candidats du programme de kinésiologie ont un comportement statistiquement différent (pvalue < 0,05) de ceux qui ont fréquenté la faculté de médecine. Pour la diplomation, une telle conclusion s’applique aux candidats du programme de psychologie de la faculté des sciences sociales. Une catégorie est ajoutée afin de dissocier les étudiants du programme de kinésiologie dans le modèle d’inscription et du programme de psychologie dans le modèle de diplomation. Les variables de provenance à conserver sont ensuite sélectionnées à l’aide de la fonction step(...) de la librairie stats du logiciel R. Cette fonction implante un processus d’élimination à rebours fondé sur l’évaluation des modèles selon le critère d’information d’Akaike (AIC). Les variables qui induisent la plus importante baisse de l’AIC sont éliminées une à une jusqu’à ce que cette valeur ne puisse être abaissée davantage.

La significativité de ces variables est vérifiée selon un test de ratio de log-vraisemblance en comparant le modèle issu du processus à rebours avec un modèle ne faisant pas intervenir la dernière fréquentation universitaire des candidats. Tant pour l’inscription des candidats que pour la diplomation des étudiants, l’information qui précise la provenance des candidats de la clientèle non collégiale est statistiquement significative (pvalue< 0,05). La dernière faculté universitaire fréquentée est une caractéristique qui permet de mieux expliquer le comportement de ces candidats.

Le résultat des estimations est présenté au tableauA.2. Comme pour la clientèle collégiale, le choix de programme et la cote de sélection sont tous deux des variables significatives et pré-

sentent un effet similaire sur l’inscription. La récurrence et l’âge des candidats sont également significatifs sur l’inscription et ont un effet selon les attentes : les chances d’inscription d’un candidat récurrent sont meilleures et la probabilité d’inscription diminue avec l’âge d’un can- didat non collégial en raison du coût d’opportunité associé à de longues études croissant avec l’âge. Pour la diplomation, l’effet du choix de programme est le même pour la clientèle non collégiale que pour la clientèle collégiale, mais cette fois l’estimation du modèle indique qu’il est plus probable que les hommes abandonnent le programme que les femmes. Les coefficients estimés qui se rattachent à la cote la sélection indiquent, sans être significatifs, le même effet en « U » sur la diplomation avec un point de renversement alentour de la cote d’admission minimale donnant accès au processus d’entrevue du programme de médecine.

Trois des variables indicatrices de la dernière faculté universitaire fréquentée par les candidats de la clientèle non collégiale sont significatives à la fois dans le modèle d’inscription et de diplomation : la Faculté des lettres et sciences humaines, la Faculté des sciences de l’éducation et la Faculté des sciences et de génie. Toutes choses égales, il est plus probable qu’un candidat qui a fréquenté l’une de ces facultés s’inscrive au programme suite à une offre d’admission, mais par contre moins probable qu’il en diplôme. Pour le modèle d’inscription, la variable indicatrice de la faculté des sciences sociales est également significative et indique que l’inscription d’un candidat qui a fréquenté cette dernière faculté est plus probable. En plus des trois variables communes aux deux modèles, la variable qui identifie tous les candidats qui ont fréquenté la Faculté de médecine, incluant le programme de kinésiologie, est significative et la diplomation de ces candidats est moins probable. Le résultat de l’estimation des coefficients associés à la Faculté de musique dans le modèle d’inscription, à la Faculté de droit et au programme de psychologie dans le modèle de diplomation s’explique par une faible représentation et un comportement similaire des candidats. Par exemple, on observe l’inscription de 11 candidats qui ont fréquenté le programme de psychologie et tous ont diplômé. Les autres variables de provenance de la clientèle non collégiale ne sont pas significatives, mais sont tout de même incluses dans les différents modèles puisqu’elles permettent de mieux prédire le comportement des candidats d’après les données utilisées.

L’objectif de cette section était de présenter les modèles prédictifs utilisés dans l’estimation d’une probabilité d’inscription et de diplomation pour chaque demande d’admission. Les résul- tats des estimations ne seront pas discutés davantage. Tel qu’indiqué aux tableauxA.1etA.2, les modèles d’inscriptions identifient plus de 80 % des candidats qui ne s’inscrivent pas au programme (spécificité > 0,8) et environ 50 % de ceux qui s’y inscrivent (sensibilité ≈ 0,5) avec un pourcentage de valeurs correctement prédites de 69 %. L’inscription des candidats est plus difficilement prévisible en raison du plus grand nombre de demandes d’admission qui ne se sont pas conclues par une inscription. Le modèle de diplomation de la clientèle collégiale identifie 63 % des étudiants qui ont quitté le programme (sensibilité = 0,631) et 77 % de ceux qui obtienu leur diplôme (spécificité = 0,768). Le modèle de la clientèle non collégiale identifie

54 % des étudiants qui ont quitté le programme et 84 % de ceux qui ont obtenu leur diplôme. Le pourcentage de valeurs correctement prédites est de plus de 72 % pour chaque clientèle. Cette fois-ci, il est plus aisé de prévoir correctement la diplomation des étudiants en raison du plus grand nombre de demande d’admission qui s’est conclue par la diplomation d’un candidat que l’inverse. Des modèles d’inscription davantage sensibles permettent de limiter la prédiction de fausse inscription alors que des modèles de diplomation davantage spécifiques favorisent la prédiction de véritable diplomation.

Documents relatifs