Propriétés et extensions de la classification de variables autour de composantes latentes. Application en évaluation sensorielle

(1)

HAL Id: tel-00129227

https://tel.archives-ouvertes.fr/tel-00129227

Submitted on 6 Feb 2007

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

autour de composantes latentes. Application en évaluation sensorielle

Karin Sahmer

To cite this version:

Karin Sahmer. Propriétés et extensions de la classification de variables autour de composantes latentes.

Application en évaluation sensorielle. Mathématiques [math]. Université Rennes 2, 2006. Français.

�tel-00129227�

(2)

Haute Bretagne Fachbereich Statistik Laboratoire de Statistique

N

^o

attribué par la bibliothèque :

Thèse / Dissertation

pour obtenir le grade de

Docteur Doktor

de l’Université Rennes II der Naturwissenschaften Discipline : Statistique

présentée et soutenue publiquement par

Karin SAHMER le 30 octobre 2006

Propriétés et extensions de la classification de variables autour de composantes latentes. Application en évaluation

sensorielle.

Eigenschaften und Erweiterungen der Methode CLV zum Clustern von Variablen. Anwendungen in der Sensometrie.

Jury / Prüfungskommission :

Jacques BENASSENI, professeur, Université Rennes II (Président / Vorsitzender)

Pierre CAZES, professeur, Université Paris Dauphine (Rapporteur / Gutachter)

El Mostafa QANNARI, professeur, ENITIAA / INRA Nantes (Rapporteur / Gutachter)

Joachim KUNERT, professeur, Universität Dortmund (Directeur de thèse et rapporteur / Betreuer und Gutachter) Michel CARBON, professeur, Université Rennes II

(Directeur de thèse / Betreuer)

Claus WEIHS, professeur, Universität Dortmund

(3)

Zusammenfassung iv

Remerciements ix

Notation x

1 Introduction 1

2 Analyse en composantes principales et analyse en facteurs 3

2.1 L’analyse en composantes principales . . . . 3

2.2 L’analyse en facteurs communs et spécifiques . . . . 4

2.3 Comparaison de l’ACP et l’AFCS . . . . 6

3 Un modèle factoriel pour les données de profils sensoriels 8 3.1 Le modèle général . . . . 8

3.2 Profil conventionnel . . . 11

3.3 Profil libre . . . 13

3.4 Illustration . . . 14

4 Matrice de variance-covariance théorique 17 4.1 La classification hiérarchique . . . 17

4.1.1 Le critère T et ∆T . . . 17

4.1.2 Le critère T et ∆T sous un modèle factoriel . . . 20

4.2 L’algorithme de partitionnement . . . 24

4.2.1 La partition correcte comme partition initiale . . . 25

4.2.2 Une partition quelconque comme partition initiale . . . 27

5 Matrice de variance-covariance empirique 29 5.1 Espérance mathématique du critère T ˆ . . . 29

5.2 Espérance mathématique du critère ∆ ˆ T . . . 30

5.3 Simulations . . . 34

ii

(4)

6 Comparaison avec d’autres méthodes 38

6.1 Méthodes . . . 38

6.2 Simulations . . . 39

6.2.1 Structure des données . . . 39

6.2.2 Résultats . . . 41

6.2.3 Conclusion . . . 45

7 Détermination du nombre de groupes 47 7.1 Méthodes . . . 47

7.1.1 Procédure de permutations . . . 47

7.1.2 Cluster tendency et cluster validity tests . . . 51

7.2 Comparaison par simulations . . . 52 8 Illustration des méthodes : étude de cas 56

9 Conclusion et perspectives 61

Bibliographie 63

A Valeurs propres d’une matrice partitionnée I

(5)

Clustermethoden bieten eine Möglichkeit, Einblick in die Struktur von Daten zu gewinnen. Normalerweise dienen sie dazu, Gruppen von Beobachtungen zu bilden. In der Regel basieren sie auf der Analyse einer Distanzmatrix, zum Beispiel der euklidischen Distanz zwischen den Beobachtungen. Wenn sehr viele Variablen erhoben werden, kann es aber auch Ziel sein, Gruppen von Variablen zu bilden. Dies ist zum Beispiel der Fall in der sensorischen Profilprüfung, bei der verschiedene Produkte gemäß unterschiedlicher sensorischer Deskriptoren von mehreren Prüfpersonen beurteilt werden. Um eine umfassende sensorische Beschrei- bung der Produkte zu gewährleisten, sind zunächst möglichst viele Deskriptoren in die Studie einzubeziehen. Ein Clustern der Deskriptoren kann anschließend genutzt werden, um die Anzahl der Deskriptoren in zukünftigen Studien zu re- duzieren, indem aus jeder Gruppe nur ein oder zwei Deskriptoren verwendet werden.

Für das Clustern von Variablen ist es möglich, eine Distanz zwischen Variablen zu definieren und anschließend das Clustern anhand der resultierenden Distanzma- trix mit denselben Methoden wie beim Clustern von Beobachtungen durchzuführen.

Es gibt aber auch Methoden, die direkt zum Clustern von Variablen entwickelt wurden. Zu nennen ist hier die Prozedur Varclus des Programmpaketes SAS. Als Alternative bietet sich die Methode CLV an, die von Vigneau und Qannari [22]

und Vigneau et al. [23] entwickelt wurde. Die vorliegende Arbeit beinhaltet eine statistische Analyse der Methode CLV, um diese Methode besser zu verstehen, ihre Leistungsfähigkeit zu beurteilen und sie mit anderen Methoden zum Clustern von Variablen zu vergleichen.

Die Methode CLV verbindet ein agglomeratives hierarchisches Clustern mit einem partitionierenden Algorithmus. Seien x

₁

, . . . , x

_p

die p zu clusternden Variablen.

Wir bezeichnen mit x

^(k)

den Vektor, der sich aus den Variablen zusammensetzt, die zur Gruppe G

^(k)

gehören, und mit Σ

^(k)

die Kovarianzmatrix dieser Variablen. In jeder Gruppe G

^(k)

, k = 1, . . . , K (wobei K die Anzahl der Gruppen bezeichnet), wird eine latente Variable c

^(k)

definiert, die eine Linearkombination d

^(k)⁰

x

^(k)

der Variablen dieser Gruppe ist. Es wird die Maximierung des Kriteriums

T

^(K)

=

K

X

k=1

X

j∈G^(k)

Cov

²

x

_j

, c

^(k)

=

K

X

k=1

d

^(k)⁰

Σ

^(k)2

d

^(k)

iv

(6)

unter der Nebenbedingung

Var c

^(k)

= d

^(k)⁰

Σ

^(k)

d

^(k)

= 1

angestrebt. Für eine gegebene Partition G

⁽¹⁾

, . . . , G

^(K)

wird T

^(K)

maximiert, wenn in jeder Gruppe als Vektor d

^(k)

der zum grössten Eigenwert λ

^(k)₁

von Σ

^(k)

gehörende Eigenvektor gewählt wird. Es ergibt sich

T

^(K)

=

K

X

k=1

λ

^(k)₁

.

Wenn zwei Gruppen G

^(k)

und G

^(l)

vereinigt werden, verkleinert sich das Krite- rium T um

∆T = λ

^(k)₁

+ λ

^(l)₁

− λ

^(G₁ ^(k)^∪G^(l)⁾

,

wobei λ

^(G₁ ^(k)^∪G^(l)⁾

der grösste Eigenwert der neu gebildeten Gruppe ist. Zu Beginn des Algorithmus bildet jede Variable eine eigene Gruppe. In jedem Schritt werden die beiden Gruppen vereinigt, die das kleinste ∆T erzeugen, bis schließlich alle Variablen in einer einzigen Gruppe zusammengefasst sind. Vigneau und Qannari [22] schlagen vor, die Entwicklung des Kriteriums ∆T als Entscheidungshilfe für die Anzahl der Gruppen zu nutzen. Die Entscheidung für K Gruppen wird getroffen, wenn ∆T beim Übergang von K auf K − 1 Gruppen bedeutend größer ist als in den vorangegangenen Schritten. Die sich aus dem hierarchischen Clustern ergebende Partition in K Gruppen wird schließlich durch einen partitionierenden Algorithmus verbessert. Dieser Algorithmus verläuft in zwei Schritten :

1. Jede Variable wird der Gruppe zugeordnet, mit deren latenter Variable ihre quadrierte Kovarianz am grössten ist.

2. Neuberechnung der latenten Variablen in jeder Gruppe.

Diese beiden Schritte werden so lange wiederholt, bis keine Variable mehr die Gruppe wechselt.

Für die Analyse der Methode CLV wird zunächst ein statistisches Modell formuliert. Die Methode CLV steht in enger Beziehung zur Hauptkomponenten- analyse, da die in jeder Gruppe definierte latente Variable proportionell zur ersten Hauptkomponente ist. Dennoch wurde ein faktorenanalytisches Modell bevorzugt, in dem sich jede Variable aus einem durch das Modell erklärten Term und einem Fehlerterm zusammensetzt und die Fehlerterme verschiedener Variablen unabhängig voneinander sind. Es ist möglich, dieses Modell der Analyse der Methode CLV zugrunde zu legen, weil die erste Hauptkomponente und der Faktor miteinander korreliert sind, falls ein faktorenanalytisches Modell mit einem Faktor vorliegt.

Das formulierte Modell geht von der Existenz von K Variablen-Gruppen aus. Die

Variablen in jeder Gruppe wiederum folgen einem faktorenanalytischen Modell

mit einem Faktor. Die sich aus dem Modell ergebende Kovarianzmatrix lässt sich

(7)

schreiben als

Σ =







Σ

⁽¹⁾

Σ

⁽¹²⁾

. . . Σ

^(1K)

Σ

⁽¹²⁾⁰

Σ

⁽²⁾

. .. .. .

.. . . .. . .. Σ

^(K−1,K)

Σ

^(1K)⁰

. . . Σ

^(K−1,K)⁰

Σ

^(K)







wobei

Σ

^(k)

= b

^(k)

b

^(k)⁰

+ ψ

^(k)

I und

Σ

^(kl)

= φ

^(kl)

b

^(k)

b

^(l)⁰

.

Der Vektor b

^(k)

enthält die Ladungen der Variablen der Gruppe G

^(k)

auf den Faktor der Gruppe, ψ

^(k)

ist die Fehlervarianz der Variablen der Gruppe G

^(k)

, und φ

^(kl)

bezeichnet die Korrelation des Faktors der Gruppe G

^(k)

mit dem Faktor der Gruppe G

^(l)

. Es wird gezeigt, dass dieses Modell sensorische Profildaten angemessen darstellt, und zwar sowohl bei einer Prüfung mit fest vorgegebenen Deskriptoren als auch beim Free-Choice-Profiling.

Um den hierarchischen Algorithmus unter dem vorgeschlagenen Modell zu ana- lysieren, werden zunächst Gruppen mit unkorrelierten Faktoren (φ

^(kl)

= 0 für alle k 6= l) betrachtet. Für diesen Fall ergibt sich, dass ∆T gleich der Fehlervarianz ist, wenn zwei Teilmengen derselben Gruppe G

^(k)

vereinigt werden, also

∆T = ψ

^(k)

.

Wenn zwei verschiedene Gruppen G

^(k)

und G

^(l)

vereinigt werden, erhält man

∆T = min(b

^(k)⁰

b

^(k)

+ ψ

^(k)

, b

^(l)⁰

b

^(l)

+ ψ

^(l)

).

Hieraus ergibt sich, dass der Algorithmus zunächst Variablen derselben Gruppe vereinigt und die K Gruppen korrekt bildet, bevor unterschiedliche Gruppen zusammengefasst werden. Voraussetzung hierfür ist lediglich, dass ψ

^(k)

< b

^(l)⁰

b

^(l)

+ψ

^(l)

für alle k, l = 1, . . . , K .

Auch im Fall korrelierter Faktoren (φ

^(kl)

6= 0) kann das Kriterium ∆T mithilfe der Parameter des faktorenanalytischen Modells ausgedrückt werden. Im Spezialfall gleicher Fehlervarianzen ψ in den verschiedenen Gruppen ergibt sich

ψ ≤ ∆T ≤ min(b

^(k)⁰

b

^(k)

+ ψ, b

^(l)⁰

b

^(l)

+ ψ).

Die Extremwerte dieser Abschätzung entsprechen den oben beschriebenen Er-

gebnissen: Die untere Schranke wird angenommen, wenn |φ

^(kl)

| = 1 und somit

zwei Teilmengen derselben Gruppe vereinigt werden. Die obere Schranke wird

(8)

angenommen, wenn φ

^(kl)

= 0 und damit zwei Gruppen mit unkorrelierten Faktoren zusammengelegt werden.

Die Analyse des partitionierenden Algorithmus unterstreicht die Bedeutung einer geeigneten Initialisierung. Wenn bei Gruppen mit unkorrelierten Faktoren der Algorithmus ausgehend von einer guten Partition gestartet wird, genügt ein einziger Durchlauf, um die korrekte Gruppierung zu finden. Weicht die Anfangs-Partition jedoch zu stark von der wahren Partition ab, wird die korrekte Gruppierung überhaupt nicht gefunden.

Normalerweise ist die Populations-Kovarianzmatrix nicht bekannt. Das Clustern erfolgt basierend auf der empirischen Kovarianzmatrix. Die Werte der Cluster- Kriterien werden in diesem Fall mit T ˆ und ∆ ˆ T bezeichnet, da es sich um Schätzungen handelt. Zur Untersuchung der Eigenschaften der Methode CLV in diesem Fall wird zunächst die Verteilung von T ˆ und ∆ ˆ T betrachtet. Es stellt sich heraus, dass schon die Bestimmung des Erwartungswertes problematisch ist.

∆ ˆ T ist ein verzerrter Schätzer von ∆T . Die Verzerrung lässt sich zudem nicht hinreichend genau bestimmen. Unter diesem Gesichtspunkt und weil außerdem die Realisierungen von ∆ ˆ T von allen vorangegangenen Schritten des hierarchischen Algorithmus abhängen, ist es sinnvoller, die Leistungsfähigkeit der Methode CLV anhand einer Simulationsstudie zu untersuchen.

In dieser Simulationsstudie wird die Methode CLV mit anderen Methoden zum Clustern von Variablen verglichen. Es zeigt sich, dass die Leistungsfähigkeit der Methode CLV mit derjenigen von drei weiteren Methoden vergleichbar ist.

Dabei handelt es sich um den Ward-Algorithmus auf der Basis von (1 − r

²

) als Abstandsmaß (wobei r die Korrelation zwischen zwei Variablen bezeichnet), des weiteren die Prozedur Varclus des Programmpaketes SAS sowie eine Gruppierung der Variablen basierend auf den Ergebnissen einer Hauptkomponentenanalyse mit Varimax-Rotation. Es ist bemerken, dass bei all diesen Methoden in kleinen Stichproben (wie sie bei sensorischen Analysen häufig sind) nur mittelmäßige Ergebnisse zu erwarten sind.

Abschließend werden zwei Verfahren vorgeschlagen, die eine automatische Bestimmung der Gruppenanzahl erlauben. Diese beiden Verfahren werden mittels einer Simulationsstudie verglichen. Auch hier ist zu beachten, dass die Leistungsfä- higkeit bei kleinen Stichproben nicht zufriedenstellend ist. Aufgrund der Ergebnisse der Simulationsstudien kann man raten, bei sensorischen Profilprüfungen möglichst viele Produkte zu verwenden, falls die Analyse auch zur Auswahl von Deskriptoren für zukünftige Studien dienen soll.

Ein Vorteil der Methode CLV im Vergleich zu anderen Methoden zum Clustern

von Variablen besteht in der Möglichkeit, externe Variablen in die Analyse einzube-

(9)

ziehen. Nachdem in dieser Arbeit die Gleichwertigkeit der Methode CLV mit bekann-

ten Methoden festgestellt wurde, wäre eine sinnvolle Erweiterung eine statistische

Analyse der externe Variablen zulassenden Optionen der Methode CLV.

(10)

Remerciements

Mes remerciements vont tout d’abord à mes directeurs de thèse de l’université de Rennes 2, le Professeur Michel Carbon, et de l’université de Dortmund, le Professeur Joachim Kunert. Je remercie ensuite l’équipe du laboratoire de sensométrie et de chimiométrie de l’ENITIAA / INRA Nantes qui m’a accueillie. Tout particulière- ment, je remercie les Professeurs El Mostafa Qannari et Evelyne Vigneau pour leur encadrement, et Mohamed Hanafi, Stéphanie Ledauphin et Véronique Cariou pour les multiples échanges et conseils.

ix

(11)

Dans tout le texte, les notations suivantes sont utilisées : p : le nombre de variables.

K : le nombre de groupes.

G

⁽¹⁾

, G

⁽²⁾

, . . . , G

^(K)

: les groupes de variables.

p

^(k)

: le nombre de variables du groupe G

^(k)

. n : le nombre d’individus.

x

_j

, j = 1, . . . , p : la j

^eme^`

variable aléatoire.

x = (x

₁

, . . . , x

_p

)

⁰

: le vecteur aléatoire.

x

^(k)_j

k = 1, . . . , K, j = 1, . . . , p

^(k)

: la j

^`^eme

variable du groupe G

^(k)

. x

^(k)

=

x

^(k)₁

, . . . , x

^(k)_p(k)

⁰

: le vecteur aléatoire des variables du groupe G

^(k)

. X (n × p) : la matrice des données observées.

x

_j

: la j

^eme^`

colonne de X (les n réalisations de x

_j

).

X

^(k)

n × p

^(k)

: les colonnes de X qui correspondent aux variables du groupe G

^(k)

. Σ : la matrice de variance-covariance.

λ

₁

: la plus grande valeur propre de Σ.

Σ

^(k)

: la matrice de variance-covariance des variables du groupe G

^(k)

. λ

^(k)₁

: la plus grande valeur propre de la matrice Σ

^(k)

.

Σ

^(kl)

: la matrice des covariances des variables du groupe G

^(k)

avec celles du groupe G

^(l)

.

S : la matrice de variance-covariance empirique.

l

₁

: la plus grande valeur propre de S.

S

^(k)

: la matrice de variance-covariance empirique des variables du groupe G

^(k)

. l

₁^(k)

: la plus grande valeur propre de la matrice S

^(k)

.

S

^(kl)

: la matrice des covariances empiriques des variables du groupe G

^(k)

avec celles du groupe G

^(l)

.

I

_p

(ou I s’il n’y a pas d’ambiguïté sur la dimension de I) : matrice identité.

1

_p

(ou 1 s’il n’y a pas d’ambiguïté sur la dimension de 1) : vecteur formé de 1.

0

_p

(ou 0 s’il n’y a pas d’ambiguïté sur la dimension de 0) : vecteur formé de 0.

x

(12)

0

p×q

(ou 0 s’il n’y a pas d’ambiguïté sur la dimension de 0) : matrice formé de 0.

Paramètres du modèle factoriel : b : le vecteur des saturations.

b

^(k)

: le vecteur des saturations des variables du groupe G

^(k)

. ψ : la variance de l’erreur.

ψ

^(k)

: la variance de l’erreur des variables du groupe G

^(k)

. ξ

^(k)

: la variable latente du groupe G

^(k)

.

φ

^(kl)

: la corrélation entre ξ

^(k)

et ξ

^(l)

.

(13)

Introduction

La classification est une méthode d’investigation de la structure des données.

Généralement, elle est utilisée pour une classification des individus. Cependant, dans des études où beaucoup de variables sont évaluées, l’intérêt peut porter sur la classification de variables. Ceci est, par exemple, le cas en analyse sensorielle où une classification de variables peut servir à déterminer des groupes de descripteurs reflétant les mêmes sensations. Par la suite, l’utilisateur peut se servir des résultats de la classification pour sélectionner une liste réduite de descripteurs à raison d’un ou plusieurs descripteurs par groupe.

Pour effectuer la classification de variables, il y a plusieurs approches possibles.

D’abord, il est possible d’utiliser une approche similaire à celle poursuivie dans le cadre de la classification d’individus en proposant un indice de dissimilarité entre variables. Une telle dissimilarité peut, par exemple, être (1 − r

²

) où r est le coefficient de corrélation. Il est aussi possible de baser un groupement des variables sur les résultats d’une analyse en composantes principales en considérant les coefficients des variables sur les axes principaux. Il y a enfin des méthodes de classification qui sont spécialement conçues pour le groupement de variables. En particulier, nous pouvons citer la procédure Varclus qui est intégrée dans le logiciel SAS. Une alternative est proposée par Vigneau et Qannari [22] et Vigneau et al.

[23] avec la méthode de classification de variables autour de composantes latentes (CLV). Cette méthode est relativement simple à programmer. Elle a pour but de former des groupes de variables ; chaque groupe étant représenté par une variable latente. La procédure comprend une classification hiérarchique ascendante suivie d’un algorithme de partitionnement. Elle permet plusieurs options en utilisant des critères différents. Pour la classification de descripteurs sensoriels, il est approprié d’utiliser l’option de la méthode CLV qui consiste à regrouper dans un même groupe les variables redondantes sans tenir compte du signe de corrélation. Dans cette option, la variable latente du groupe est la première composante principale des variables de ce groupe.

1

(14)

L’objectif de la thèse est d’entreprendre une analyse statistique de la méthode CLV afin de mieux la comprendre, d’évaluer sa pertinence et de comparer sa performance avec celle d’autres méthodes. Cette analyse est faite avec une attention particulière pour l’application aux données issues d’un profil sensoriel puisque la méthode CLV a été développée principalement dans ce cadre (voir Vigneau et Qannari [22]). Afin de répondre à l’objectif que nous nous sommes fixés, un modèle statistique est proposé pour la méthode CLV. Bien que la méthode CLV soit, à la base, conceptuellement proche de l’analyse en composantes principales (ACP), il nous a semblé plus judicieux d’adopter un modèle basé sur l’analyse en facteurs communs et spécifiques (AFCS). Après une brève description de l’ACP et l’AFCS dans le chapitre 2, où nous soulignons en particulier les liens entre l’ACP et l’AFCS dans le cas d’un seul facteur, nous formulons, dans le chapitre 3, un modèle factoriel qui est particulièrement approprié pour des données issues d’un profil sensoriel. Une étude de cas sert à illustrer le modèle et à donner des indications sur les valeurs des paramètres du modèle.

Dans le chapitre 4, la méthode CLV est brièvement décrite et ces propriétés théoriques sont analysées sur la base du modèle postulé. Les critères de classification (T et ∆T ) sont exprimés en fonction des paramètres du modèle. Cette analyse nécessite la détermination des valeurs propres d’une matrice partitionnée. Le développement original concernant cette partie est reporté en annexe afin de ne pas encombrer le lecteur de détails techniques.

En pratique, la matrice de variance-covariance théorique et, donc, les critères T et ∆T ne sont pas connus. La classification est basée sur la matrice de variance- covariance empirique pour obtenir des estimateurs T ˆ et ∆ ˆ T . Pour analyser les propriétés de cette classification, il faut d’abord connaître la distribution de T ˆ et

∆ ˆ T . Il s’avère qu’il n’est pas possible d’approcher avec suffisamment d’exactitude les espérances mathématiques des estimateurs (voir le chapitre 5). Pour cette raison, une évaluation de la performance de la méthode CLV est étudiée au moyen d’une étude de simulations. Celle-ci permet, en plus, la comparaison avec d’autres méthodes. Elle est décrite dans le chapitre 6.

Dans la procédure CLV, il est préconisé de déterminer le nombre de groupes par un examen visuel du graphique indiquant l’évolution du critère ∆T . Dans le chapitre 7, une procédure de permutations est proposée pour obtenir une décision automatique. Cette procédure est comparée à une méthode développée par Sahmer et al. [18].

Finalement, dans le chapitre 8, les diverses méthodes de classification de variables

qui se sont révelées les plus pertinentes à l’issue de l’étude de simulations sont

illustrées à l’aide d’un ensemble de données.

(15)

Analyse en composantes principales et analyse en facteurs

La classification de variables autour de composantes latentes (CLV) utilise la pre- mière composante principale comme variable latente du groupe. Il est donc approprié d’analyser la méthode CLV dans le cadre de l’analyse en composantes principales (ACP). Cependant, pour une analyse statistique, le modèle de l’analyse en facteurs communs et spécifiques (AFCS) présente des avantages. Contrairement à l’ACP, le modèle de l’AFCS suppose que le vecteur observé est formé d’une partie systéma- tique et d’une partie d’erreur (Anderson [1]). Pour cette raison, Bentler et Kano [2] estiment que le modèle de l’AFCS est presque toujours à préférer au modèle de l’ACP. Quand le modèle factoriel avec un facteur est vrai, il y a une correspondance entre les deux modèles (voir le paragraphe 2.3). Il semble donc possible d’analyser la méthode CLV, qui est à l’origine basée sur l’ACP en considérant un modèle factoriel relevant de l’analyse en facteurs communs et spécifiques. De plus, le modèle factoriel semble très approprié pour la classification de variables autour de composantes latentes. En effet, chaque groupe de variables reflète une variable latente, et la variance non expliquée par la variable latente est la variance de l’erreur. Dans les paragraphes suivants, les modèles de l’ACP et de l’AFCS sont brièvement décrits et comparés. Pour plus de détails sur les méthodes voir, par exemple, Anderson [1] et Morrison [15].

2.1 L’analyse en composantes principales

Le but de l’analyse en composantes principales (ACP) est de remplacer un ensemble de p variables corrélées x = (x

₁

, . . . , x

_p

)

⁰

par un ensemble de m variables non corrélées z = (z

₁

, . . . , z

_m

)

⁰

, m < p. Le vecteur aléatoire x est supposé avoir une espérance égale à 0. Nous définissons d’abord p variables non corrélées qui sont les p composantes principales, z

₁

, . . . , z

_p

. Ce sont des combinaisons linéaires des variables

3

(16)

d’origine :

z

_j

=

p

X

i=1

a

_ij

x

_i

, j = 1, . . . , p ou sous forme matricielle :

z = A

⁰

x (2.1)

avec A

⁰

A = AA

⁰

= I, Var(z

₁

) ≥ Var(z

₂

) ≥ . . . ≥ Var(z

_p

) et Cor(z

_i

, z

_j

) = 0 (i 6= j).

Les colonnes de A sont les vecteurs propres de Σ, la première colonne étant associée à la plus grande valeur propre, la seconde à la deuxième valeur propre et ainsi de suite. En multipliant les deux côtés de (2.1) par A, x s’écrit comme une combinaison linéaire des p composantes principales :

x = Az. (2.2)

Les composantes principales z

_j

, j = 1, . . . , p sont ordonnées selon l’importance de leurs variances. Les m premières composantes (m < p) z

m

= (z

1

, . . . , z

m

)

⁰

sont censées restituer une part importante de la variabilité de x. Si nous considérons les autres (p − m) composantes z

−m

= (z

_m+1

, . . . , z

_p

)

⁰

comme non significatives, nous réduisons le nombre de variables de p à m en ne choisissant que z

1

, . . . , z

m

. Ecrivant A = [A

_m

A

−m

] (où A est décomposé de la même manière que z), x peut s’écrire :

x = A

m

z

m

+ A

−m

z

−m

. (2.3)

L’ACP représente aussi une décomposition de la matrice de variance-covariance de x :

Σ = A

_m

Λ

_m

A

⁰_m

+ A

−m

Λ

−m

A

⁰_−m

(2.4) où Λ =

Λ

_m

0 0 Λ

−m

est la matrice diagonale ayant pour éléments diagonaux les valeurs propres de Σ rangées par ordre décroissant. Puisque les valeurs de Λ

_−m

sont plus petites que celles de Λ

_m

, le premier terme de la décomposition (2.4) contient des valeurs plus importantes que le deuxième terme. Ainsi cette décomposition qui maximise la variance restitue aussi une part importante des covariances (Jolliffe [10]).

Cependant, contrairement à la décomposition selon l’AFCS, le deuxième terme de l’expression (2.4) n’est pas une matrice diagonale.

2.2 L’analyse en facteurs communs et spécifiques

L’analyse en facteurs communs et spécifiques (AFCS) est basée sur un modèle statistique qui relie les variables manifestes (observables) aux variables latentes (non observables). Ces dernières sont appelées facteurs. La relation entre les variables manifestes x et les variables latentes ξ est une relation linéaire :

x = µ + Bξ + (2.5)

(17)

où µ = (µ

₁

, . . . , µ

_p

)

⁰

est un vecteur de paramètres et ξ = (ξ

₁

, . . . , ξ

_q

)

⁰

est un vecteur aléatoire de q variables latentes avec E(ξ) = 0, Cov(ξ) = E(ξξ

⁰

) = Φ et Var(ξ

_j

) = 1 (j = 1, . . . , q). B est une matrice (p× q). L’entrée b

_ij

est appelée la saturation de la variable i dans le facteur j (Dickes [5]). Les entrées du vecteur = (

₁

, . . . ,

_p

)

⁰

sont les erreurs de mesures. Elles sont parfois considérées comme facteurs spécifiques.

Nous imposons E() = 0 et Cov() = Ψ, où Ψ est une matrice diagonale, ce qui implique que les erreurs de mesure sont considérées comme non corrélées. De plus, il est supposé que Cov(

_i

, ξ

_j

) = 0 (i = 1, . . . , p, j = 1, . . . , q), ce qui signifie que les corrélations entre les erreurs de mesure et les facteurs sont égales à zéro. L’exigence de corrélations égales à zéro entre les erreurs d’un côté et entre les erreurs et les facteurs d’un autre côté est essentielle pour le modèle. Par contre, exiger que les facteurs aient une espérance nulle et une variance de 1 est un choix. Tout autre choix changerait simplement les paramètres µ et B et non le modèle. Nous obtenons :

E(x) = µ et

Σ = BΦB

⁰

+ Ψ. (2.6)

Si Φ est une matrice diagonale, les facteurs sont orthogonaux, sinon ils sont obliques.

Pour des facteurs orthogonaux, nous obtenons :

Σ = BB

⁰

+ Ψ. (2.7)

Pour les modèles décrits dans les paragraphes suivants, µ est supposé être égal à zéro. Ceci facilite la notation. Les résultats trouvés sont également vrais pour µ 6= 0.

Il faut noter qu’il y a une indétermination dans le modèle. En effet, si B est remplacé par B

^∗

= BC

⁰

(où C est une matrice orthonormale) et ξ est remplacé par ξ

^∗

= Cξ, le modèle ne change pas, car B

^∗

ξ

^∗

= BC

⁰

Cξ = Bξ et B

^∗

B

^∗⁰

= BC

⁰

CB

⁰

= BB

⁰

. Dans le cas oblique, une multiplication de ξ par une matrice C non singulaire (pas forcément orthonormale) et une multiplication de B par C

⁻¹

conduit au même constat. En pratique, cette possibilité de rotation est utilisée pour chercher des matrices de saturations qui sont facilement interprétables et qui reflètent une structure simple. Il y a plusieurs définitions de structures simples. Elles ont en commun la recherche d’une matrice B qui contient beaucoup de zéros et quelques valeurs importantes, mais peu de valeurs moyennes. L’idée consiste à trouver une solution dans laquelle chaque variable a une saturation non nulle dans un seul facteur ou dans très peu de facteurs.

Contrairement à l’ACP, les variables latentes ξ

i

ne sont pas des combinaisons

linéaires des variables observées. Cela rend les estimations plus difficiles. Il y a plu-

sieurs méthodes pour l’estimation de B et Ψ. Maxwell [14] cite entre autres la

méthode centroïde (centroid method), la méthode des facteurs principaux (prin-

cipal factor method), la méthode des moindres carrés généralisés (generalized least

(18)

squares method) et la méthode de maximum de vraisemblance (maximum likelihood method). Il n’existe pas de solution analytique du maximum de vraisemblance. Il faut recourir à un algorithme itératif, par exemple l’algorithme EM (expectation - maximization).

2.3 Comparaison de l’ACP et l’AFCS

Une différence évidente entre l’ACP et l’AFCS est donnée par l’approche même qui est utilisée. L’ACP est une méthode géométrique de réduction de la dimension alors que l’AFCS est basée sur un modèle statistique. Cependant, si le modèle de l’AFCS est vrai, il y a quand-même des similarités entre les deux méthodes. Ici, nous nous intéressons au cas d’un seul facteur ou d’une seule composante, car la variable latente dans chacun des groupes fournis par la classification CLV, en est la première composante principale standardisée. S’il y a une équivalence entre la première composante principale et le facteur dans un modèle factoriel à un facteur, il est possible de formuler un modèle statistique qui sera utilisé pour l’analyse de la méthode CLV. En fait, une telle équivalence existe si le modèle suivant est vrai :

x = bξ + avec la matrice de variance-covariance :

Σ = bb

⁰

+ ψ I, (2.8)

où b est un vecteur et ψ un réel avec ψ > 0. Il s’agit du modèle avec un seul facteur et des variances de l’erreur égales. Les vecteurs propres de bb

⁰

sont aussi des vecteurs propres de Σ. Il est facile de vérifier que, dans ce cas, Σ admet comme valeur propre λ

1

= b

⁰

b + ψ associée au vecteur propre b et que les autres valeurs propres de Σ sont égales à ψ. En ACP, on choisit usuellement la contrainte a

⁰

a = 1. a

₁

=

^√¹

b⁰b

b vérifie cette contrainte. Si le modèle (2.8) est vrai, les pondérations de la première composante principale sont donc proportionelles aux saturations dans le facteur. La première composante principale est donnée par

z

₁

= a

⁰₁

x = 1

√ b

⁰

b b

⁰

(bξ + ) = √

b

⁰

bξ + 1

√ b

⁰

b b

⁰

.

Sa variance est égale à λ

₁

= b

⁰

b + ψ. Sa covariance avec le facteur est donnée par Cov(z

₁

, ξ) = Cov( √

b

⁰

bξ + 1

√

b

⁰

b b

⁰

, ξ) = √ b

⁰

b

et la corrélation par

Cor(z

₁

, ξ) =

√ b

⁰

b

√ b

⁰

b + ψ .

(19)

Lorsque ψ tend vers 0, la corrélation tend vers 1.

Si les variances de l’erreur ne sont pas égales pour les différentes variables, les resultats ci-dessus ne s’appliquent pas. Cependant, Bentler et Kano [2] ont démontré un résultat asymptotique. Pour cela, ils ont considéré le modèle à un facteur :

x = bξ + avec

Σ = bb

⁰

+ Ψ

où Ψ est une matrice diagonale avec les valeurs ψ

₁

, . . . , ψ

_p

sur la diagonale. Soit λ

₁

la plus grande valeur propre de Σ et a

₁

(a

⁰₁

a

₁

= 1) le vecteur propre associé. Si

b

⁰

b → ∞ pour p → ∞ et s’il existe un ψ

0

> 0 tel que

ψ

_i

< ψ

₀

, i = 1, . . . , p, alors pour p → ∞

Cor(a

⁰₁

x, ξ) → 1 et

p λ

1

a

1

→ b.

Cela signifie que la corrélation entre la première composante principale et le facteur converge vers 1, et que les pondérations de la première composante principale sont asymptotiquement proportionnelles aux saturations.

Nous pouvons conclure que même si l’ACP ne permet pas de déterminer les paramètres du modèle factoriel à un facteur, la première composante principale est fortement corrélée avec le facteur. Ceci nous permet d’utiliser la méthode CLV sur des variables qui sont supposées suivre un modèle factoriel. Comme nous allons le démontrer dans le chapitre 4, CLV permet de trouver des groupes d’un tel modèle.

Dans le chapitre 3 nous décrivons un modèle factoriel approprié pour les descripteurs

sensoriels.

(20)

Chapitre 3

Un modèle factoriel pour les données de profils sensoriels

3.1 Le modèle général

En analyse sensorielle, et plus précisément dans l’épreuve des profils sensoriels, des produits sont évalués selon différents descripteurs sensoriels par plusieurs juges. Souvent, il y a une redondance entre les descripteurs, c’est-à-dire qu’un ou plusieurs descripteurs mesurent la même sensation. Nous pouvons considérer cette sensation comme une variable latente qui est refletée par les descripteurs.

Par exemple, les descripteurs "pimenté", "piquant", "épicé" peuvent refléter une même variable latente et former un groupe. Nous formulons un modèle statistique qui décrit ces redondances. Dans ce qui suit, l’indice i = 1, . . . , I est utilisé pour les produits, l’indice j = 1, . . . , J pour les juges et l’indice l pour les descripteurs. p

^(k)

est le nombre de descripteurs dans le groupe G

^(k)

et p := P

K

k=1

p

^(k)

. Modèle pour les descripteurs

Nous désignons la variable latente du groupe G

^(k)

par ξ

^(k)

. La valeur de la variable aléatoire qui représente le l

^ème

descripteur du groupe G

^(k)

pour le i

^ème

produit est donnée par :

y

^(k)_il

= a

^(k)_l

ξ

_i^(k)

+ z

_il^(k)

où a

^(k)_l

est un paramètre fixé (mais inconnu). z

^(k)_il

est une variable aléatoire repré- sentant la spécificité du descripteur l (le facteur spécifique). Nous exigeons que pour i = 1, . . . , n, les ξ

_i^(k)

, les z

_il^(k)

et, donc, les y

_il^(k)

sont indépendantes et identiquement distribuées (i.i.d.). Ceci signifie en particulier que toutes les corrélations entre les variables aléatoires concernant des produits différents sont égales à zéro, et que la distribution de y

^(k)_il

est égale à celle de y

_i^(k)0l

. De plus, nous supposons que :

E ξ

_i^(k)

= 0, i = 1, . . . , I, k = 1, . . . , K

8

(21)

et

E

z

^(k)_il

= 0, i = 1, . . . , I, k = 1, . . . , K, l = 1, . . . , p

^(k)

.

Pour inclure le cas où les espérances sont différentes de zéro, il suffit d’ajouter un paramètre additif µ

^(k)_l

. Cependant, dans l’analyse statistique, un tel paramètre ne joue pas de rôle puisque nous ne considérons que la matrice de variance-covariance.

Nous supposons également que, pour tout k : Var

ξ

_i^(k)

= 1.

Ceci ne représente pas une réelle contrainte puisque le paramètre a

^(k)_l

peut s’adapter en conséquence. La corrélation entre ξ

_i^(k)

et ξ

_i^(k⁰⁾

sera désignée par :

Cor

ξ

_i^(k)

, ξ

_i^(k⁰⁾

= φ

^(kk⁰⁾

.

Les variables ξ

^(k)_i

ne sont pas corrélées avec les variables z

^(k)_il

. Nous supposons aussi que

Cor

z

_il^(k)

, z

_il^(k)0

= 0 pour l 6= l

⁰

et

Cor

z

_il^(k)

, z

^(k_il0⁰⁾

= 0 pour k 6= k

⁰

.

En d’autres termes, cela signifie que les corrélations entre les descripteurs sont en- tièrement expliquées par les variables latentes. Les facteurs spécifiques sont indé- pendants les uns des autres. La variance de z

_il^(k)

sera désignée par :

Var z

_il^(k)

= σ

^(k)_l ²

, i = 1, . . . , I, k = 1, . . . , K, l = 1, . . . , p

^(k)

. La matrice de variance-covariance des p descripteurs est égale à :

Σ

_descr

=







Σ

⁽¹⁾

Σ

⁽¹²⁾

. . . Σ

^(1K)

Σ

⁽¹²⁾⁰

Σ

⁽²⁾

. .. .. .

.. . . .. . .. Σ

^(K−1,K)

Σ

^(1K)⁰

. . . Σ

^(K−1,K)⁰

Σ

^(K)







(3.1)

avec :

Σ

^(k)

= a

^(k)

a

^(k)⁰

+







σ

₁^(k)²

0 0 0 . .. 0 0 0 σ

^(k)

p^(k) 2







et

Σ

^(kk⁰⁾

= φ

^(kk⁰⁾

a

^(k)

a

^(k⁰⁾⁰

(22)

où

a

^(k)

=





 a

^(k)₁

a

^(k)₂

.. . a

^(k)_p(k)





 .

Nous pouvons considérer deux cas particuliers :

1. des variances égales pour tous les descripteurs : σ

^(k)_l ²

= σ

²

, k = 1, . . . , K , l = 1, . . . , p

^(k)

,

2. des variances proportionnelles aux paramètres a

^(k)_l

: σ

_l^(k)²

= a

^(k)_l ²

σ

²

, k = 1, . . . , K, l = 1, . . . , p

^(k)

.

Modèle qui prend en compte les juges

Les descripteurs sont mesurés par des juges. Ceci conduit à une erreur de mesure.

Nous n’observons pas y

_il^(k)

, mais le jugement x

^(k)_ijl

du juge j pour y

^(k)_il

. Nous pouvons postuler le modèle :

x

^(k)_ijl

= b

_j

y

^(k)_il

+

^(k)_ijl

= b

_j

a

^(k)_l

ξ

_i^(k)

+ z

_il^(k)

+

^(k)_ijl

.

Dans ce modèle, b

_j

> 0 désigne un facteur d’échelle propre au juge j . Les erreurs

^(k)_jl

ne sont pas corrélées avec les ξ

_i^(k)

et les z

_il^(k)

, et nous avons :

E

^(k)_ijl

= 0 ∀ i, j, k, l, Var

^(k)_ijl

= ψ

_j

, i = 1, . . . , I, j = 1, . . . , J, k = 1, . . . , K, l = 1, . . . , p

^(k)

. Les corrélations entre toutes les variables

^(k)_ijl

sont égales à zéro. Ceci implique que les erreurs d’un juge pour l’évaluation de deux produits différents sont indépendantes.

Dans ce modèle, les effets de l’ordre de présentation des produits sont donc négligés.

Par la suite, nous ne considérons plus l’indice i puisque les x

^(k)_ijl

sont distribués de manière iid. De nouveau, nous pouvons considérer deux cas particuliers :

1. des variances égales pour toutes les erreurs : ψ

j

= ψ, j = 1, . . . , J,

2. des variances proportionnelles aux paramètres b

_j

: ψ

_j

= b

²_j

ψ, j = 1, . . . , J.

A partir du modèle stipulé ci-dessus, il s’ensuit : E

x

^(k)_jl

= 0 et

Var

x

^(k)_jl

= b

²_j

a

^(k)_l ²

+ σ

_l^(k)²

+ ψ

j

.

(23)

La covariance entre deux descripteurs mesurés par le même juge est égale à : Cov

x

^(k)_jl

, x

^(k_jl0⁰⁾

= b

_j

b

_j

a

^(k)_l

a

^(k_l0⁰⁾

φ

^(kk⁰⁾

= b

²_j

Cov

y

^(k)_l

, y

_l^(k0 ⁰⁾

.

Si les deux descripteurs appartiennent au même groupe (k = k

⁰

), nous obtenons : Cov

x

^(k)_jl

, x

^(k)_jl0

= b

²_j

a

^(k)_l

a

^(k)_l0

.

La covariance associée à un même descripteur, mesuré par deux juges différents, est égale à :

Cov

x

^(k)_jl

, x

^(k)_j0l

= Cov

b

_j

a

^(k)_l

ξ

^(k)

, b

_j⁰

a

^(k)_l

ξ

^(k)

+ Cov

b

_j

z

_l^(k)

, b

_j⁰

z

^(k)_l

= b

j

b

j⁰

a

^(k)_l ²

+ σ

_l^(k)²

= b

j

b

j⁰

Var

y

^(k)_l

.

La covariance de deux descripteurs différents, mesurés par deux juges différents, est égale à :

Cov

x

^(k)_jl

, x

^(k_j0l⁰⁰⁾

= b

_j

b

_j⁰

a

^(k)_l

a

^(k_l0⁰⁾

φ

^(kk⁰⁾

.

Si les deux descripteurs appartiennent au même groupe, leur covariance est égale à : Cov

x

^(k)_jl

, x

^(k)_j0l⁰

= b

_j

b

_j⁰

a

^(k)_l

a

^(k)_l0

.

Dans ce qui précède, nous n’avons pas supposé que les descripteurs sont les mêmes d’un juge à un autre. Le cas du profil à vocabulaire fixé (mêmes descripteurs pour tous les juges) est traité dans le paragraphe suivant. Il est aussi possible que chaque juge choisisse sa propre liste de descripteurs (profil libre). Ce cas est traité dans le paragraphe 3.3.

3.2 Profil conventionnel

Pour le profil conventionnel (à vocabulaire fixé), il est d’usage de considérer, pour chaque descripteur, la moyenne sur tous les juges. Pour le descripteur l du groupe G

^(k)

, la moyenne sur tous les juges est donnée par :

¯

x

^(k)_l

= 1 J

J

X

j=1

b

_j

a

^(k)_l

ξ

^(k)

+ b

_j

z

_l^(k)

+

^(k)_jl

.

La variance de x ¯

^(k)_l

est égale à : Var

¯ x

^(k)_l

= 1 J

²

J

X

j=1

b

_j

!

2

a

^(k)_l ²

+ 1 J

²

J

X

j=1

b

_j

!

2

σ

_l^(k)²

+ 1 J

²

J

X

j=1

ψ

_j

= 1

J

X

j=1

b

_j

!

2

a

^(k)_l ²

+ σ

_l^(k)²

+ 1

J

²

J

X

j=1

ψ

_j

.

(24)

La covariance entre x ¯

^(k)_l

et x ¯

^(k_l0⁰⁾

est égale à : Cov

¯

x

^(k)_l

, x ¯

^(k_l0⁰⁾

= Cov 1 J

J

X

j=1

b

_j

a

^(k)_l

ξ

^(k)

, 1 J

J

X

j=1

b

_j

a

^(k_l0⁰⁾

ξ

^(k⁰⁾

!

= 1

J

X

j=1

b

_j

!

2

a

^(k)_l

a

^(k_l0⁰⁾

φ

^(kk⁰⁾

.

Si le descripteur l et le desripteur l

⁰

appartiennent au même groupe, nous obtenons : Cov

¯

x

^(k)_l

, x ¯

^(k)_l0

= 1 J

J

X

j=1

b

j

!

²

a

^(k)_l

a

^(k)_l0

.

La matrice de variance-covariance de

¯

x

⁽¹⁾₁

, . . . , x ¯

⁽¹⁾_p₍₁₎

, x ¯

⁽²⁾₁

, . . . , x ¯

^(K)_p_(K)

a donc la structure suivante :

Σ

_J

= 1 J

J

X

j=1

b

_j

!

2

Σ

_descr

+ 1 J

²

J

X

j=1

ψ

_j

!

I (3.2)

où Σ

_descr

est la matrice de variance-covariance des descripteurs (voir l’équation (3.1)). L’indice J indique qu’il s’agit de la matrice qu’on obtient quand il y a J juges.

Etude asymptotique : nombre infini de juges

La variance de l’erreur due aux juges tend, sous certaines conditions, vers zéro, si le nombre J de juges tend vers l’infini. Nous exigeons pour cela que

1 J

P

J j=1

b

_j

et

1 J

P

J j=1

b

²_j

sont convergents pour J → ∞.

Considérons le cas de variances de l’erreur égales pour tous les juges. La variance de x ¯

^(k)_l

est alors égale à :

Var

¯ x

^(k)_l

= 1 J

J

X

j=1

b

_j

!

²

a

^(k)_l ²

+ σ

^(k)_l ²

+ 1

J ψ.

Pour J → ∞, il s’ensuit : Var

¯ x

^(k)_l

→ c

²

a

^(k)_l ²

+ σ

_l^(k)²

où c est la limite de

_J¹

P

J

j=1

b

j

. Si la variance de l’erreur du juge est égale à b

²_j

ψ, la variance de x ¯

^(k)_l

est égale à :

Var

¯ x

^(k)_l

= 1 J

J

X

j=1

b

_j

!

2

a

^(k)_l ²

+ σ

^(k)_l ²

+ 1

J 1 J

J

X

j=1

b

²_j

!

ψ.

(25)

Ici aussi, pour J → ∞, il s’ensuit : Var

¯ x

^(k)_l

→ c

²

a

^(k)_l ²

+ σ

_l^(k)²

. La matrice de variance-covariance (3.2) converge donc vers :

Σ = c

²

Σ

_descr

.

Asymptotiquement, la matrice de variance-covariance des moyennes sur tous les juges est donc proportionnelle à la matrice de variance-covariance Σ

_descr

des descripteurs mesurés sans erreur. Le facteur c

²

n’influence pas l’analyse de la structure.

Il est donc intéressant de baser l’analyse de la méthode CLV sur un modèle stipulant la matrice de variance-covariance Σ

_descr

.

3.3 Profil libre

Considérons maintenant le cas du profil libre. Chaque juge choisit ses propres descripteurs. Un même descripteur n’est donc plus nécessairement évalué par tous les juges. De plus, il est possible que les juges ne donnent pas le même nom au même descripteur. Ici, il n’est donc ni possible ni souhaitable de baser l’analyse statistique sur la moyenne par descripteur. Nous considérons la note du j

^ème

juge pour le descripteur y

_l^(k)

:

x

^(k)_jl

= b

_j

a

^(k)_l

ξ

^(k)

+ b

_j

z

_l^(k)

+

^(k)_jl

.

Si le descripteur y

_l^(k)

n’est évalué que par le j

^ème

juge, on ne peut pas distinguer ses paramètres des paramètres du juge. Nous pouvons donc définir :

˜

^(k)_jl

:= b

_j

z

_l^(k)

+

^(k)_jl

et

˜

a

^(k)_jl

:= b

_j

a

^(k)_l

.

L’indice j est important pour indiquer qu’il s’agit du j

^ème

juge et du facteur d’échelle qui lui est associé. Cependant, il n’est pas nécessaire d’identifier ce paramètre, puisque, pour chaque descripteur y

^(k)_l

, il y a un seul paramètre b

_j

. Il est donc possible d’omettre l’indice j et d’écrire ˜

^(k)_l

à la place de ˜

^(k)_jl

et ˜ a

^(k)_l

à la place de ˜ a

^(k)_jl

. Nous obtenons :

x

^(k)_jl

= ˜ a

^(k)_l

ξ

^(k)

+ ˜

^(k)_l

. La variance de ˜

^(k)_l

est égale à :

ψ ˜

_l^(k)

= b

²_j

σ

_l^(k)²

+ ψ

_j

. (3.3)

(26)

Avec :

a ˜

^(k)

=







˜ a

^(k)₁

˜ a

^(k)₂

.. .

˜ a

^(k)_p(k)





 ,

nous obtenons la matrice de variance-covariance :

Σ =







˜

a

⁽¹⁾

a ˜

⁽¹⁾⁰

φ

⁽¹²⁾

˜ a

⁽¹⁾

a ˜

⁽²⁾⁰

· · · φ

^(1K)

˜ a

⁽¹⁾

˜ a

^(K)⁰

φ

⁽¹²⁾

a ˜

⁽²⁾

˜ a

⁽¹⁾⁰

˜ a

⁽²⁾

˜ a

⁽²⁾⁰

· · · φ

^(2K)

˜ a

⁽²⁾

˜ a

^(K)⁰

· · · · · · · · · · · · φ

^(1K)

a ˜

^(K)

a ˜

⁽¹⁾⁰

· · · · · · ˜ a

^(K)

˜ a

^(K)⁰





 +







ψ ˜

⁽¹⁾₁

0 0 0 . .. 0 0 0 ψ ˜

_p^(K)(K)





 .

Ici, les variances de l’erreur ne sont pas égales. Si nous voulons exiger qu’elles soient égales, nous devons exiger que les paramètres σ

^(k)_l

et ψ

j

soient égaux, mais aussi que les facteurs d’échelle b

_j

soient les mêmes pour tous les juges. Ceci résulte de la formule (3.3).

Pour le profil libre, le modèle à prendre en compte dans l’analyse de la méthode CLV est donc comparable à celui du profil conventionnel, à la différence près que les variances de l’erreur sont plus importantes.

3.4 Illustration

Dans ce paragraphe, le modèle décrit ci-dessus est illustré sur des données sensorielles issues d’une étude sur seize variétés de cafés. Il s’agit de l’analyse sensorielle par un des panels participant à l’étude européenne : European sensory and consumer study [7]. Ce panel était constitué de huit juges. Chaque juge a évalué chaque produit selon 23 descripteurs sur une échelle de 0 à 100. Pour illustrer le modèle développé ci-dessus, nous allons considérer des groupes de descripteurs. Ces groupes sont dé- terminés par une classification autour de composantes latentes comme décrit dans les chapitres suivants. Nous choisissons deux groupes issus de l’arbre hiérarchique, dont un groupe très homogène. Le premier groupe, disons le groupe A, comprend les descripteurs "goût doux-piquant", "goût brulé", "arrière goût amer" et "intensité du goût", le deuxième groupe, disons le groupe B, comprend les descripteurs "odeur chocolat", "odeur moisi", "odeur sucrée", "odeur chèvre" et "odeur caramel". Pour estimer les paramètres du profil conventionnel, nous considérons le tableau moyen sur tous les juges. Nous analysons les deux groupes de descripteurs séparément en nous basant sur le modèle :

y

_l^(A)

= µ

^(A)_l

+ s

^(A)_l

a

^(A)_l

ξ

^(A)

+ z

_l^(A)

, l = 1, . . . , 4 et

y

^(B)_l

= µ

^(B)_l

+ s

^(B)_l

a

^(B)_l

ξ

^(B)

+ z

^(B)_l

, l = 1, . . . , 5.

(27)

Dans un premier temps, la moyenne et la variance de chaque descripteur sont estimées. Ensuite, l’analyse en facteurs communs et spécifiques est effectuée sur la matrice de corrélation. Le groupe A est très homogène. Les corrélations entre les descripteurs de ce groupe varient entre 0,97 et 0,99. L’estimation par la méthode du maximum de vraisemblance fournit les valeurs suivantes :

ˆ a

^(A)

=





 0, 990 0, 994 0, 997 0, 981





 ,

ce qui correspond à une proportion de variance expliquée par le modèle de 0,980, 0,987, 0,993 et 0,963, et une proportion de variance de l’erreur de 0,020, 0,013, 0,007 et 0,037. A titre d’exemple, le modèle complet est donné pour le descripteur "goût doux-piquant", qui a une note moyenne de 51 et un écart-type de 13 :

y

douxpiquant

= 51 + 13 0, 994 ξ

^(A)

+ z

douxpiquant

où z

douxpiquant

a une variance de 0,020.

Le groupe B est moins homogène. En valeurs absolues, les corrélations entre les variables de ce groupe sont comprises entre 0,44 et 0,81. Nous obtenons :

a ˆ

^(B)

=







0, 857

−0, 747 0, 680

−0, 920 0, 798





 ,

ce qui correspond à une variance expliquée par le modèle de 0,735, 0,558, 0,463, 0,846 et 0,637. Les signes négatifs devant la deuxième et la quatrième saturation indiquent que ce groupe comprend des variables opposées. Les descripteurs 1, 3 et 5 ("odeur chocolat", "odeur sucrée", "odeur caramel") sont opposées aux descripteurs 2 et 4 ("odeur moisi", "odeur chèvre"). Les variances de l’erreur sont 0,265, 0,442, 0,537, 0,154 et 0,363. Pour obtenir le modèle qui prend en compte le niveau et l’étendu, il faut de nouveau considérer la moyenne et l’écart-type. Par exemple, pour le descripteur "odeur moisi", nous obtenons le modèle :

y

_moisi

= 18 + 5 −0, 747 ξ

^(B)

+ z

_moisi

où z

_moisi

a une variance de 0,442. L’analyse n’est basée que sur 16 observations (les

16 variétés de café), ce qui ne suffit pas pour des estimations précises. Cependant,

elle nous donne une idée sur le rapport entre variance expliquée par le modèle et

variance de l’erreur. En profil conventionnel, la proportion de variance expliquée

par le modèle peut atteindre 99% pour quelques descripteurs et ne pas dépasser

(28)

50% pour d’autres.

Comme décrit dans le paragraphe 3.3, les variances de l’erreur sont plus importantes dans le profil libre. Pour l’estimation de celles-ci, nous avons simulé un tableau de données sensorielles selon le profil libre en constituant un tableau ayant la structure (produits × descripteurs). Cependant, les notes d’un descripteur donné sont celles d’un juge choisi au hasard. Par exemple, les notes du descripteur

"goût doux-piquant" sont les notes du juge 5 et non plus la moyenne des notes de tous les juges. Nous obtenons ainsi des données qui s’apparentent à un profil libre.

Pour les descripteurs du groupe A, les corrélations sont comprises entre 0,48 et 0,75, et, donc, inférieures aux valeurs obtenues dans les cas du profil conventionnel.

L’analyse en facteurs communs et spécifiques selon la méthode du maximum de vraisemblance fournit les estimations suivantes :

ˆ ˜ a

^(A)

=





 0, 769 0, 955 0, 677 0, 751





 ,

ce qui correspond à une variance expliquée par le modèle de 0,591, 0,911, 0,459 et 0,564, et une variance de l’erreur de 0,409, 0,089, 0,541 et 0,436.

Pour les descripteurs du groupe B, les résultats obtenus par le profil libre ne sont

pas pertinents. La matrice de corrélation ne permet pas l’estimation d’un modèle

à un facteur. L’algorithme (proc factor dans le logiciel sas) est interrompu dans la

deuxième itération à cause d’une saturation supèrieure à 1 et donc d’une variance

de l’erreur négative. Par ailleurs, les corrélations obtenues par le profil libre ne sont

pas en accord avec les corrélations obtenues par le profil conventionnel. Par exemple,

la corrélation entre "odeur moisi" et "odeur chocolat" est négative (-0,70) pour le

profil conventionnel, tandis que la corrélation entre "odeur moisi", mesuré par le

juge 7, et "odeur chocolat", mesuré par le juge 2, est positive (0,17). Nous pou-

vons conclure que l’information sur les descripteurs obtenue par un profil libre peut

être très inexacte. Il est à conseiller de baser une analyse statistique concernant les

dépendances entre les descripteurs sur des notes obtenues par le profil conventionnel.

(29)

Matrice de variance-covariance théorique

La méthode CLV proposée par Vigneau et al. [23] est adaptée à deux cas de figure : La classification selon le critère Q est utilisée si une corrélation négative signifie une opposition entre variables. La classification selon le critère T est utilisée si une corrélation importante en valeur absolue signifie proximité entre variables sans tenir compte du signe de la corrélation. Ici, nous analysons la classification avec le critère T , puisque elle est, entre autres, adaptée à la classification de descripteurs sensoriels. En effet, deux descripteurs avec une forte corrélation négative fournissent des informations qui se recoupent. Par exemple, les descripteurs "dur" et "mou"

conduisent à une même caractérisation des produits. Après une présentation du critère T , nous allons analyser la classification avec ce critère en considérant le modèle factoriel.

4.1 La classification hiérarchique

4.1.1 Le critère T et ∆T

Etant donné un ensemble de variables aléatoires x = (x

₁

, . . . , x

_p

)

⁰

, ces variables sont découpées en K groupes G

⁽¹⁾

, . . . , G

^(K)

. A chaque groupe est associée une variable latente

c

^(k)

= d

^(k)⁰

x

^(k)

= X

j∈G^(k)

d

^(k)_j

x

^(k)_j

qui est une combinaison linéaire des variables du groupe G

^(k)

. Pour K fixé, nous cherchons la partition des p variables en K groupes et les variables latentes qui maximisent le critère T qui est défini par :

T

^(K)

=

K

X

k=1

X

j∈G^(k)

Cov

²

x

_j

, c

^(k)

. (4.1)

17