• Aucun résultat trouvé

renseignement annuel de la base de données à l’échelle communale (aire

133

3. L’EVALUATION DE LA QUALITE DE LA BASE DE DONNEES

Disposer de données sur un marché est bien entendu un préalable indispensable à son étude mais cette dernière ne saurait se contenter de les utiliser telles quelles. Il convient tout d'abord de s’assurer de la compréhension exacte et détaillée de leur structuration. Secondairement, il faut remédier aux défauts relevés, qui peuvent être de deux ordres, et appellent par conséquent autant d’opérations. Ils concernent soit les individus statistiques (les lignes de la base), soit les variables (en général disposées en colonnes) et leurs modalités. Ces deux types de problèmes éventuels ne sont pas forcément indépendants en totalité mais relèvent largement de logiques différentes. Travailler sur les variables revient à questionner leur construction, la pertinence de leurs modalités et finalement leur validité. Ce travail conduit souvent à les modifier. S’attacher à l’examen des individus statistiques est par la force des choses une étape ultérieure puisqu'elle s’appuie sur ce que l’on sait déjà des variables qui les renseignent. L’objectif est alors de disposer d’individus statistiques les plus à même de pouvoir répondre aux problématiques posées : on trie alors, ou on sélectionne, les lignes de la base de données. Ce travail sera effectué dans le chapitre suivant, qui traitera de la hausse des prix à Marseille. En effet, la mise en évidence des mouvements de prix lisibles sur le marché nécessite d’avoir sélectionné au préalable des mutations immobilières qui en relèvent. Il s’agit pour l’instant d’explorer correctement la base dont on dispose afin de mieux connaître son contenu, et donc les possibilités de traitement qu’elle offre. Cela nécessite trois types d’examens : celui des variables et de leurs modalités tout d'abord. On ne peut en effet garder le contrôle sur un protocole de recherche sans maîtriser l’identité des objets qu’on manipule. Cette exigence que des spécialistes de géomatique qualifieraient de « sémantique » s’accompagne de deux réquisits supplémentaires, l’un statistique, et l’autre géographique. Le premier met en avant la nécessité impérieuse, sinon de disposer de taux de renseignement élevés, d’être à tout le moins conscient du degré de complétude de l’information dont on dispose. La significativité des résultats en dépend. Et la prudence géographique de rajouter que la distribution spatiale de cette information doit elle aussi être bien connue pour ne pas entacher le rendu de biais tels que des effets de structure ou de localisation : il s’agit de s’assurer que l’échantillon est spatialement distribué de manière similaire à la population qu’il devra représenter.

3.1. La correction des variables et de leurs modalités

3.1.1. Un enjeu crucial pour la qualité et la signification des variables : distinguer les non-réponses des questions sans objet

Les variables, surtout lorsqu'elles sont qualitatives, peuvent comporter de très nombreuses modalités. Dans la majorité des cas, ces dernières sont limitées, soit qu’il s’agisse de questions fermées (du type « Présence d’une piscine ou pas ? »), soit que le dictionnaire Perval établisse une liste de modalités qui doivent pouvoir couvrir n’importe quelle réponse. Cependant, dans les faits, des imprécisions ou des lacunes sont très fréquentes, qui peuvent très facilement rendre les données inopérantes dans un travail de recherche. On distingue trois cas de figure particulièrement fréquents dans les bases de données MIN :

134 • Des modalités imprécises, malgré les indications du dictionnaire Perval. Par

exemple, l’indication du type de zonage urbanistique pour une variable « POS » ou « PLU », ou bien l’identifiant d’une section cadastrale pour une variable « Section cadastrale ».

• Des erreurs. Elles peuvent être facilement décelables par recoupement avec d’autres variables quand elles introduisent une incohérence (par exemple le renseignement d’un champ « PCS » pour un vendeur ou un acquéreur qui est une personne morale et pas physique94). En revanche, en l’absence de cette

possibilité de vérification, les erreurs (y compris de frappe) ne sont a priori pas décelables.

• Des confusions entre les modalités « sans objet » et le non renseignement (qui signifie parfois « 0 » dans le cas des variables quantitatives, ou « aucun » dans celui des variables qualitatives). Ce cas est très fréquent et peut être illustré à travers l’exemple d’une variable comme le code de TVA applicable à un bien. Les taux varient selon de nombreux paramètres, et certains biens ou certains acquéreurs sont dispensés de cette taxation. Dès lors, il pourra exister une ambiguïté. En effet, parfois une case vide signifiera un oubli du notaire, parfois elle signifiera que le bien n’est pas imposé par la TVA (cas d’un bien de plus de 5 ans), parfois que la TVA n’a pas lieu de peser sur ce bien en vertu de sa nature ou de celle de son acheteur (cas d’un bien de moins de 5 ans qui a déjà fait l’objet d’une mutation à une personne autre qu’un marchand de biens).

S’il est difficile de remédier au premier cas de figure, tout comme aux erreurs, il est en revanche possible d’améliorer très nettement la signification des modalités des variables, et donc de mieux évaluer à terme l’utilité de ces dernière. Ce travail, très chronophage mais fondamental, a été réalisé suivant le procédé exposé dans l’encadré 3.1.

Encadré 3.1

La modification des variables MIN et de leurs modalités : méthode employée

La réduction du caractère confus des modalités de certaines variables est indispensable à l’utilisation pratique de la base de données. La méthode que nous avons utilisée à plusieurs reprises est fondée sur le croisement de deux (parfois plus) variables afin de renommer les modalités. Elle démarre par une phase exploratoire (sous forme de tableaux de fréquence croisés) qui permet de définir les conditions de construction d’une « nouvelle » variable plus satisfaisante. Ces travaux ont été réalisés à l’aide du logiciel SAS95.

94 Opération qui requiert tout de même de considérer le renseignement de l’une des deux variables plus

fiable que l’autre. Dans l’exemple exposé ici, on prend comme référence la qualité de la partie de la vente (personne physique ou morale) car cette information est contractuelle. On considère alors que cette personne morale, par exemple une Société Civile Immobilière (SCI) est représentée par une personne physique à qui le notaire demande sa profession. Certains cas sont plus épineux et peuvent aboutir, en l’absence d’une ou de plusieurs variables de recoupement à ne pas modifier la modalité mais à mettre de côté transaction en question..

135 Prenons le cas de la variable « profession de l’acquéreur », en se fondant sur l’année 1996 (11 392 transactions). On sait grâce à une requête sur la fréquence de chaque modalité que 9 638 acquéreurs sont réputés avoir une profession (codée par la PCS de rattachement). Pour les 1 754 autres, la base renvoie la valeur « 0 », qui ne correspond à aucune PCS, et qui n’est pas présente dans le dictionnaire Perval des variables et des modalités.

Cette « modalité » peut donc signifier une non-réponse, une indécision sur la PCS ou un « sans objet » (dans le cas d’une personne morale). Si l’on veut en savoir plus, il est possible de se référer à la qualité de l’acquéreur. En effet, un « 0 » correspondant à un particulier indique soit une non-réponse soit une indécision. Un « 0 » correspondant à une personne morale, un « sans objet ». Un « 0 » correspondant à un acquéreur dont on ne connaît pas la nationalité, une double non-réponse. Une simple requête sur la qualité des acquéreurs nous apprend que 9 841 d’entre eux sont des particuliers, 719 des personnes morales et 832 des acquéreurs dont on ne connaît pas la qualité (ces non- réponses étant codées diversement : vide ou « . »).

En croisant les modalités des deux variables, on se rend en fait compte que la situation est très confuse. En regroupant les personnes morales en une catégorie, en en faisant de même pour les PCS, on obtient :

Modalité PCS « 0 » Modalité PCS renseignée Total

Modalité qualité « . » 107 0 107

Modalité qualité « particulier » 208 9 633 9 841 Modalité qualité « personne morale » 714 5 719

Total 1 029 9 638 10 667

En plus de ces fréquences croisées, on obtient 725 individus « manquants » (c'est-à-dire dont la qualité renvoyait une case vide, plutôt qu’un « . »), soit un total de 11 392 individus.

Les modalités de chacune des variables ne sont pas utilisables en l’état. En effet, une PCS « 0 » ne différencie pas des acquéreurs particuliers pour lesquels on manque d’information (au nombre de 208), les personnes morales pour lesquelles cette information est aberrante (714) et les acquéreurs qui posent problème car on ne connaît pas leur qualité, et on ne peut donc pas dire s’ils devraient rentrer dans la catégorie « non renseigné » ou dans la catégorie « sans objet ». De même, on voit que 5 acquéreurs qui sont des personnes morales se sont vus affecter une profession.

Cela nous conduit donc à reconstruire les variables en posant des conditions initialement absentes pour que leurs modalités soient plus précises et ne laissent pas de place à l’ambiguïté. Une fois ces opérations réalisées, on est en mesure de distinguer les divers cas de figures (y compris ceux qui posent problème du fait de leur indétermination par aucune des deux variables croisées) :

PCS non renseignée PCS renseignée Cas problématiques PCS sans objet Total

Qualité non renseignée 0 0 832 0 832

Particulier 208 9 633 0 0 9841

Personne morale 0 0 0 719 719

136 3.1.2. Les variables corrigées

Une grande partie des variables ont été modifiées en suivant cette méthode. Il serait fastidieux d’en faire la liste précise mais on peut en revanche rapidement établir les domaines dans lesquels ces modifications ont été faites, et sur quelles variables de croisement elles se sont appuyées :

• La caractérisation des parties de la vente. Sur le modèle des variables traitées dans l’encadré précédent, cela a surtout consisté à distinguer rigoureusement personnes physiques et morales.

• Les caractéristiques du bien. En effet, il est fréquent que des variables qualifient un bien qui n’a pas à être qualifié par elles (par exemple la présence d’un ascenseur pour une maison de plain-pied).

• Les variables liées à l’occupation d’un bien : ce dernier critère est en effet le seul à même de justifier le remplissage, fût-ce négatif, de champs concernant les baux, leur durée, etc.

• Les variables liées aux biens vendus en viager.

En revanche, pour plusieurs variables, dont les modalités présentaient manifestement le même type de défauts, il a été impossible d’effectuer ces opérations, faute de variables de croisement fiables. C’est notamment le cas pour les modalités de financement du bien (crédit et ses conditions) et pour le passé du bien muté (première mutation ou pas, date et montant de cette dernière le cas échéant, etc.).

Ces traitements, dont on mesurera l’utilité dans les sections suivantes, correspondent à une charge de travail très importante, du fait de la nécessité de croiser plusieurs variables dans la phase exploratoire. On peut estimer ce travail à plusieurs centaines d’heures, qui sont autant d’heures utilisées à comprendre le sens et la structuration des variables. On peut donc le considérer comme un travail doublement préparatoire et nécessaire.

3.2. Le renseignement des variables dans l’échantillon MIN

3.2.1. Comment construire le taux de renseignement d’une variable MIN ?

L’établissement des taux réels de renseignement des variables sur lesquelles on travaille est un élément central à la fois pour définir une direction de travail et pour évaluer la significativité voire la validité des résultats auxquels elle peut aboutir. Le plus grand soin doit donc être apporté à cette opération. Perval fournit, dans le dictionnaire des variables et des modalités, des taux de renseignement pour 2005 (sur l’ensemble des transactions enregistrées cette année-là). Ces taux correspondent aux non réponses (blancs ou « . » dans les tableurs) sur le total des transactions. On a vu cependant dans l’encadré méthodologique 3.1 que la prise en compte immédiate des modalités de nombreuses variables pouvait conduire à des erreurs. C’est pourquoi il convient d’être fort prudent dans le calcul de ces taux (encadré 3.2).

Encadré 3.2

137 La modification des variables et de leurs modalités que nous avons opérée a permis de distinguer nettement les non-réponses des questions sans objet et des cas problématiques (ceux pour lesquels la ou les variables de croisement ne permette(nt) pas de préciser la modalité).

Les calculs de taux de renseignement que nous avons réalisé ont bien entendu porté seulement sur les effectifs concernés (c'est-à-dire qu’on a évincé des calculs les individus pour lesquels les variables en question étaient « sans objet »). Seuls les non-réponses et les cas problématiques ont été comptabilisés comme individus non renseignés. Cette démarche permet ainsi d’obtenir des résultats bien plus fiables et surtout directement interprétables, ce qui n’est pas le cas des taux de renseignement Perval.

Conservons l’exemple de la variable « profession » d’une des parties de la vente. Les taux de renseignement donnés par le dictionnaire Perval donnent 70 % pour les vendeurs, et 81 pour les acheteurs. En réalité, ces chiffres sont bien plus importants, de l’ordre de 90 ou 95 %. Les « taux de renseignement » Perval ne sont si bas que parce que 76 % des vendeurs et 88% des acquéreurs sont des particuliers.

3.2.2. Les taux de renseignement des variables, et leurs évolutions

En suivant cette méthode, nous avons pu établir les taux de renseignement de nombreuses variables. On les trouve en annexes (cf. annexes 2 à 10) pour chacun des types de biens et chacune des années. Ces listes ne comprennent pas la totalité des variables présentes dans les bases de données initiales étant donné que beaucoup de variables s’avèrent fantoches. Soit du fait qu’elles sont jugées trop précises par les notaires et donc peu renseignées, soit du fait de l’absence de modalités « sans objet » qu’on ne peut rendre plus précises du fait de l’absence de variables de croisement fiables (par exemple la « surface de la cave » ou du balcon). Inversement, on y trouve des variables absentes des bases de données initiales, et construites par nos soins. C’est notamment le cas des variables caractérisant le couple vendeur-acquéreur, qui permettent de dénombrer la part de couples pour lesquelles on dispose de renseignements sur chacune des deux parties de la vente.

La figure 3.2 permet d’apprécier l’évolution des taux de renseignement pour l’ensemble des variables sur lesquels ils ont été calculés (cf. figure 3.2).

138

Figure 3.2 : évolution du taux de renseignement de l’ensemble des variables (1991- 2008)

On observe une croissance du renseignement des variables jusqu'en 1998, puis une chute brutale entre 1998 et 2000 qui précède une stagnation à des niveaux inférieurs à ceux atteints en 1998, de l’ordre de 84 % contre 89 auparavant. Cette évolution est due à deux facteurs. C’est avant tout un reflet de l’origine composite de notre base de données96. La seconde partie de notre base de données compte un plus grand nombre de

variables de description du bien, et moins de variables qualifiant la vente (cf. tableau 3.4). Or, structurellement, ces dernières sont bien mieux renseignées que les premières.

Tableau 3.3 : le nombre de variables sur lesquelles ont été calculés les taux de renseignement Biens agricoles Apparte- ments Immeu- bles Locaux

d’activité Maisons Terrains

Variables de localisation et de date Avant 1998 3 3 3 3 À partir de 2000 3 3 3 3 3 3

96 Nous disposions d’une première base pour chacune des années de 1991 à 1998, incluses, puis d’une

139

Variables qualifiant chacune des parties

de la vente Avant 1998 9 et 9 9 et 9 9 et 9 9 et 9 9 et 9 9 et 9 À partir de 2000 9 et 9 9 et 9 9 et 9 9 et 9 9 et 9 9 et 9 Variables qualifiant le couple acquéreur-vendeur Avant 1998 3 3 3 3 3 3 À partir de 2000 3 3 3 3 3 3 Variables décrivant le bien Avant 1998 6 18 20 11 À partir de 2000 23 11 10 24 9 Variables sur la vente et le contrat Avant 1998 17 17 17 17 À partir de 2000 13 13 13 13 13

Étant donné que les taux de renseignement globaux de la figure 3.2 résultent de l’agrégation de toutes les transactions, et ne sont pas des moyennes des taux de chacun des biens, il est normal d’assister à une dégradation du renseignement moyen des transactions puisque l’essentiel des transactions porte sur des appartements et des maisons, qui sont précisément les biens pour lesquels les variables de description du bien croissent le plus. Pour handicapante qu’elle soit, cette évolution est en effet uniquement le fait des variables de description des biens, le renseignement des autres allant très nettement dans le sens d’une amélioration (cf. figure 3.3).

140

Figure 3.3 : évolution des taux de renseignement des variables par type (1991-2008)

Au niveau des types de biens, on observe des différences comme le montre la figure suivante (cf. figure 3.4).

Figure 3.4 : évolution du taux de renseignement de l’ensemble des variables par type de biens

141 Sur toutes ces figures, le renseignement chute en 2008. Cette chute est à minorer du fait que les transactions dont on dispose pour cette année sont peu nombreuses (elles ne portent que sur les quelques communes de l’ancien bassin minier de Provence).

3.2.3. Le taux de renseignement : un critère suffisant de qualité interne des données ?

Si les taux de renseignement sont extrêmement importants en ce qu’ils donnent une tendance lourde (surtout sur de tels volumes de ventes), ils ne doivent cependant pas occulter d’autres aspects de la qualité des données. A fortiori pour toutes les variables déclaratives. Deux sources d’erreur peuvent persister : des réponses impréciseset des erreurs dans les variables qui correspondent à des questions ouvertes (sections cadastrales, par exemple). Ainsi, avant 2000, les sections cadastrales sont systématiquement mal renseignées pour Marseille, ce qui oblige de fait à une cartographie à l’échelle de l’arrondissement (ce qui n’est plus le cas après). Ce cas particulièrement handicapant (et le seul qui le soit à ce point) n’est pourtant pas détectable à l’aide des seuls taux de renseignement puisque l’immense majorité des transactions voit le champ « section » renseigné.

3.3. La couverture spatiale du marché par la base MIN

3.3.1. L’aire urbaine de Marseille-Aix-en-Provence : une zone relativement mal couverte

La notion de taux de couverture diffère de celle de taux de renseignement dans le sens où elle renvoie non plus aux champs d’une base de données mais au nombre de transactions comprises dans une base de données, par rapport au nombre total de transactions estimé sur une unité spatiale. Perval fournit des taux de couverture à l’échelle des départements, pour la France métropolitaine97. Il est possible de les

cartographier à l’échelle de 2006, dernière date dont on dispose98 (cf. carte 3.2).

97 Île-de-France exclue puisque les notaires franciliens alimentent la base BIEN ; et à la réserve que les

taux pour la Corse ne sont pas différenciés selon les deux départements.

142