• Aucun résultat trouvé

La base de 300 immeubles de bureaux et les informations collectées constituent une base d'informations riche pour les thématiques qualité de l'air intérieur, santé et confort perçu par les occupants et les performances énergétiques des immeubles de bureaux. L'ob-jectif nal de la CNB étant la dénition d'un indicateur global de classement, il est alors indispensable de dénir une typologie globale du parc des bâtiments à usage de bureaux. La recherche de ces typologies induit plusieurs problèmes statistiques majeurs. Le princi-pal problème concerne la détermination de groupes d'observations et d'attributs initiaux résumant l'information à l'intérieur de chaque thématique.

Face à cette problématique de classication qui tient compte de plusieurs critères (QAI, santé et confort perçu et performances énergétiques) objet de cette thèse, il existe de nom-breuses méthodes basées sur de solides fondements théoriques qui permettent d'établir les classes a priori recherchées. Historiquement, plusieurs méthodes ont été proposées par dif-férents auteurs pour étudier les données ayant une structure mixte [Escoer 1979; Saporta 2006]. De même, de nombreuses approches ont été proposées pour prendre en compte les aspects grande dimension et structuration multi-blocs des données en classication [Kriegel et al. 2009; Agrawal et al. 1998; Vega-Pons et Ruiz-Shucloper 2011].

Les méthodes d'aide aux décisions multicritères qui sont spéciques à la nature et aux objectifs du problème rencontré dans cette thèse proposent des solutions pouvant prendre diverses formes en fonction de la problématique (de choix, d'aectation ou de classement) [Maystre et al. 1994; Ben Mena 2000]. Il s'agit généralement de trouver la solution la plus adaptée parmi un ensemble de solutions. Par ailleurs, ces méthodes nécessitent aussi une forte interaction entre les diérentes thématiques. Rapporté au cas de la CNB, il est indis-pensable de connaître les avantages et inconvénients de chacun des paramètres (variables). De plus ce type de méthode est initialement développé pour des échantillons de faible di-mension, d'où la nécessité de procéder à un élagage des variables dans chaque thématique à travers la sélection des variables et la classication des individus.

Compte tenu des données en cours d'acquisition de la campagne dans les immeubles de bureaux, les méthodes développées ont été testées et consolidées à partir d'un autre jeu de données de l'OQAI, à savoir celui de la campagne nationale dans les Logements (CNL). Le but de la CNL menée entre 2003-2005 était dans un premier temps d'élaborer un état descriptif de la qualité de l'air dans les logements en tenant compte des diérentes situations (bâtiments, occupant) et établir un premier bilan des paramètres déterminant la pollution intérieure (source type d'habitat, ventilation, comportements, saisons, situation géographiques, etc), puis d'identier les situations à risque, en estimant l'exposition des populations concernées et élaborer des recommandations et conseils pour l'amélioration de la qualité de l'air intérieur dans les logements (limitation des émissions des produits, réglementation technique, sensibilisation des professionnels ou des usagers, etc.).

Le chapitre 2, sans être exhaustif, pose les bases de la classication permettant de répondre aux interrogations suivantes :

 Qu'est ce qu'une classe ?

 Quels sont les attributs à utiliser ?

 Les observations contiennent-elles des objets atypiques ?  Les variables doivent-elles être normalisées ?

 Quelles mesures de dissimilarité utiliser entre deux objets ?

 Comment optimiser la prise en compte des diérentes thématiques ?  Quelles méthodes de classication doit-on utiliser sur ces données ?  Les données contiennent-elles des groupes homogènes ?

 Quel est le nombre exact de classes ?  Les groupes découverts sont-ils valides ?

Classication

2.1 Introduction

Le but de la classication est de découvrir des groupes d'observations dans un ensemble de données non-étiquetées. Les groupes recherchés, communément appelés classes, forment des ensembles homogènes d'observations qui partagent des propriétés communes à travers des variables ou attributs. Les techniques de classication font partie de la statistique ex-ploratoire multidimensionnelle. L'objectif est de regrouper les lignes ou les colonnes d'un tableau an de découvrir et d'expliciter une structuration des données, il s'agit d'un pro-blème de typologie ou de taxinomie ("clustering" chez les anglo-saxons), de classication non supervisée ou encore d'apprentissage sans professeur. Les classes inconnues à l'avance sont déterminées par la méthode de classication. Elles sont à distinguer des méthodes de classement dont l'objectif est de classer au mieux de nouvelles observations dans des classes connues ou déterminées a priori. Il s'agit alors d'un problème de discrimination, de classe-ment, de classication supervisée (les anglo-saxons parlent simplement de "classication") ou d'apprentissage avec professeur.

On distingue deux grandes familles de méthodes de classication : celles dites "model-based" ou modèles de mélanges qui reposent sur des hypothèses probabilistes sur les dis-tributions des observations [Baneld et Raftery 1993] et celles appelés "distance-based" qui utilisent des notions géométriques de similarité [Berkhin 2004]. Dans ce mémoire, on se limitera à ces dernières.

On peut aussi distinguer deux grandes familles de techniques de classication (Cf. -gure 2.1) : les méthodes hiérarchiques qui produisent des classes de moins en moins nes

par regroupement des observations (méthodes ascendantes) ou des classes de plus en plus nes par division (méthodes descendantes) et les méthodes non-hiérarchiques ou de parti-tionnement direct qui produisent directement un regroupement de l'ensemble des éléments en un nombre K de classes xé a priori. Cette famille comprend les méthodes des cartes auto-organisées. Nous choisissons de les décrire plus en détail dans la section 2.3.2.2 car elles sont à la base des méthodes que nous proposons dans cette thèse.

Figure 2.1  Le dendrogramme d'une classication hiérarchique ascendante textc

Pour atteindre l'objectif de regroupement des observations en classes homogènes, on fait appel à la notion de similarité qui permet d'évaluer la proximité entre deux observations. Dans la littérature, il existe de nombreux algorithmes basés sur des formalismes diérents, sur plusieurs mesures de similarité et sur diverses stratégies d'agrégation des observations pouvant alors donner sur le même jeu de données, des classications diérentes [Berkhin 2004; Jain et al. 1999a]. La gure 2.2 illustre cette diversité des résultats dans le cas d'une classication ascendante hiérarchique.

Après quelques rappels sur les concepts généraux, les principales approches usuelles de classication sont présentées dans la section 2.3 ; plus particulièrement la méthode des cartes topologiques auto-organisées sur laquelle reposent les principales contributions de cette thèse. Enn, les critères permettant d'évaluer la pertinence des résultats d'une clas-sication sont présentés dans la section 2.4.

Figure 2.2  Projection des classes fournies par l'algorithme de classication ascendante hiérarchique avec diérents critères sur la base Iris de Fisher dans le premier plan factoriel d'une ACP. Les trois classes de cette base sont représentées par les signes o, + et ∆

.