Article pp.211-232 du Vol.26 n°3 (2006)

(1)

ARTICLE ORIGINAL ORIGINAL PAPER

Validation du profil sensoriel conventionnel : un état des lieux

II. La validation interlaboratoire

F. Sauvageot

Les pages qui suivent constituent la partie II de l’article sur le profil sensoriel, dont la partie I a été publiée dans le numéro de 26/2 de Sciences des Aliments. Le lecteur est renvoyé, pour le résumé, à la partie I.

1 – INTRODUCTION

Pour FEINBERG (1996, p. 100), la validation par comparaison entre laboratoires correspond à une démarche incontournable : [dès lors que] les résultats [d’une méthode] servent de base à une expertise ou un échange commercial, il est néces- saire de compléter la validation interne par une validation externe qui aura pour but d’évaluer les performances du laboratoire ou de la méthode par rapport à d’autres.

C’est sans doute parce qu’il existe un consensus sur cette exigence que la littéra- ture dans le domaine des comparaisons inter-laboratoires est à la fois ancienne et riche. On attribue généralement à CROSS et al. (1978) la première comparaison interlaboratoires : elle portait sur 11 viandes (découpées dans le muscle Longissimus) évaluées par quatre groupes préalablement entraînés. Le profil était sommaire : il comportait seulement trois descripteurs (la tendreté, la jutosité et la quantité de tissu conjonctif restant dans la bouche en fin de mastication). Aussi certains auteurs pré- fèrent-ils attribuer la paternité de la première comparaison inter-laboratoires à CLAP- PERTON et PIGGOTT (1979) qui ont utilisé 40 descripteurs. Dans cette étude, quatre bières ont été évaluées par trois groupes de sujets entraînés à l’évaluation de la bière (et par un groupe de sujets non entraînés) avec quantification sur une échelle à 5 points et exploitation (déjà !) des résultats au moyen d’une ACP. L’étude présen- tée dans cet article est plus récente : elle remonte aux années 1995 et a été effec- tuée dans le cadre de l’ESN (European Sensory Network) ; elle a mobilisé 11 laboratoires de 8 pays différents.

Ingénierie Moléculaire et Sensorielle de l’Aliment et des Produits de Santé – Ensbana – Université de Bourgogne.

(2)

2 – L’ÉTUDE DE L’ESN SUR DES CAFÉS

Cette étude a bénéficié de la collaboration active du laboratoire de l’ICO à Lon- dres (International Coffee Organization), de deux chercheurs français de l’INRA – Dijon (S. Issanchou et P. Schlich) et d’un chercheur anglais J. McEvan qui, en particulier, a rédigé le compte-rendu final (ESN, 1996). Elle a donné matière à plusieurs publications (SCHLICH, 1996 ; SCHLICH, 1998, McEVAN, 1998) et elle a été à la naissance des études réalisées, par la suite, dans le cadre de ProfiSens (§ 4). Le lecteur trouvera dans le document de l’ESN (1996) les conditions de préparation des cafés (et de nettoyage des cafetières), les conditions de service des produits aux sujets et les listes des descripteurs propres à chaque laboratoire ; en effet, dans cette étude, chaque laboratoire a généré ses propres descripteurs. Les lignes qui suivent présen- teront seulement les échantillons et la démarche statistique adoptée avant de s’arrê- ter, plus longuement, sur les questions que cette étude suscite dans le cadre d’une problématique d’étude de validation.

2.1 Les échantillons

Au nombre de 16, ils ont été fournis gracieusement par l’ICO. Les cafés prove- naient d’Afrique, d’Asie et d’Amérique. Douze étaient des cafés formés d’une seule variété (trois différaient par la température de torréfaction). Les quatre derniers étaient des mélanges (trois différaient par la concentration, le quatrième étant un café décaféiné par extraction au CO₂).

2.2 L’analyse laboratoire par laboratoire Quatre approches ont été développées :

1) une ACP non normée effectuée sur les moyennes de tous les sujets. Les cartes obtenues (2 cartes par laboratoire : la carte 1-2 et carte 3-4) ont été comparées visuellement en vue de répondre à la question : les laboratoires ont-ils une structure commune de représentation ? Quand on examine ces cartes, […] les attributs décri- vant les flaveurs brûlé/amer ont été trouvés sur un côté des cartes, tandis que les notes acide, herbe, fruité, sucré peuvent être vues, la plupart du temps, dans une autre direction. Les attributs de ce dernier groupe sont généralement orthogonaux à l’axe brûlé/amer. Il est intéressant de noter que ces axes orthogonaux sont indépen- dants. Ceci indique, par exemple, que l’augmentation de l’amertume n’implique pas que l’acidité diminue. [… Par ailleurs] la structure obtenue réfléchit une partie des facteurs associés au choix [initial] des échantillons. Tous les laboratoires ont groupé les trois échantillons soumis à une torréfaction poussée sur la partie droite du biplot, caractérisée par les flaveurs brûlé/amer. De même, les trois cafés différant par la quantité utilisée pour préparer l’infusion augmentaient dans la même direction brûlé/

amer pour tous les laboratoires… ;

2) une ANOVA à un facteur en vue de déterminer, pour un risque égal à 10 %, le nombre de descripteurs discriminants à la fois par laboratoire et par sujet ;

3) le calcul de deux coefficients RV (I, § 4.7) en vue de déterminer l’homogénéité des sujets. Le premier est la moyenne des RV calculés entre chaque paire de sujets d’un même laboratoire ; le second est la moyenne, toujours par laboratoire, entre les RV calculés entre la configuration compromis du laboratoire (obtenue au moyen de la procédure STATIS) et chaque sujet ;

4) le calcul d’un coefficient bêta, développé dans le cadre de la méthode STATIS par Kazi-Aoual (1992), exprimant le nombre de dimensions requises pour décrire

(3)

adéquatement la structure des échantillons ; ce calcul a été effectué à la fois pour chaque sujet et pour chaque laboratoire (tous sujets confondus).

2.3 L’analyse simultanée de tous les laboratoires Elle repose essentiellement sur la technique STATIS appliquée :

– aux configurations compromis de chaque laboratoire prises 2 à 2, aboutissant au calcul de 55 (= 11 * 10/2) coefficients RV montrant, tous, des liaisons très supérieures au hasard ;

– à la matrice comportant 104 lignes (les sujets) et 1273 colonnes (les descripteurs), conduisant à un compromis appelé compromis européen ; ce compromis est en accord avec les résultats individuels puisque le coefficient RV moyen indique un haut degré d’agrément entre chacun des 104 sujets et le compromis. Comme la dimension de ce compromis européen était égale à 3,6, deux cartes compromis ont été nécessaires pour positionner les 16 cafés (une carte pour les dimensions 1 et 2 et une carte pour les dimensions 3 et 4).

On aurait pu s’attendre à ce que les auteurs de l’étude répondent explicitement à la question : les laboratoires sont ils interchangeables, par exemple en calculant les 11 coefficients RV (un par laboratoire) entre le compromis européen et le compromis de chaque laboratoire. Sans doute ont-ils jugé ce calcul trivial ! Ils ont préféré répondre à une autre question : les sujets sont-ils interchangeables entre laboratoires ? Un sujet polonais pourrait-il être placé dans un groupe français sans altérer les résultats de base ? Les auteurs ont effectué une analyse dite en Coordon- nées Principales (effectuée sur la matrice des RV individuels) suivie d’une Analyse Canonique Discriminante. Leur réponse est négative : les sujets ne sont pas inter- changeables alors que les compromis le sont. Et ils ajoutent : Ceci est une conclu- sion importante puisqu’elle confirme ce que beaucoup d’animateurs de groupes sensoriels pensent être la vérité, à savoir que le groupe dans son ensemble est meilleur que la somme de ses parties.

2.4 La place du laboratoire de l’ICO

Dans l’étude de l’ESN, le laboratoire de l’ICO avait un statut particulier : i) il était le seul à avoir une large expérience de l’évaluation des cafés ; ii) il avait fourni les cafés et ils les avait conditionnés en doses individuelles permettant de préparer un litre d’infusion ; iii) il les avait répartis en quatre groupes de 4 cafés sensiblement voisins sur le plan sensoriel afin que, lors de chaque séance d’évaluation, les laboratoires évaluent un café de chaque groupe ; iiii) il avait envoyé à chaque laboratoire, pour l’entraînement, une liste de 20 descripteurs avec les références chimiques cor- respondantes ainsi que six cafés présentant des caractéristiques sensorielles (remarquables). Il est donc logique que l’ICO ait été le laboratoire le plus homogène ; mais il peut sembler moins logique qu’il ait été également celui dont la configuration compromis a le nombre de dimensions le plus faible alors que, à l’inverse, le laboratoire le moins homogène (un laboratoire français) conduit à un compromis présen- tant le nombre de dimensions le plus élevé. Mais les auteurs récusent que cette observation était inattendue : que la qualité de l’accord entre sujets dans un labora- toire semble soit reliée négativement à la dimensionnalité du compromis ou des sujets est logique. Si des sujets ne sont pas d’accord entre eux, il faut davantage de dimensions pour construire le compromis que s’ils sont d’accord et l’image finale obtenue est [apparemment] plus complète). Une comparaison détaillée entre le labo- ratoire ICO et ce laboratoire français peut être trouvée dans SCHLICH (1996).

(4)

Dans le document de l’ESN (1996), une section de sept pages est intitulée : qu’est-ce qu’il y a d’intéressant dans le groupe de l’ICO ? Pour répondre à cette question, le plus simple aurait été de prendre appui sur les indices précédemment calculés. Mais les auteurs ont adopté une tout autre démarche comportant trois temps :

1) une recherche des descripteurs communs, c’est-à-dire des descripteurs utili- sés à la fois par l’ICO et par une partie des autres laboratoires ; elle a conduit à six descripteurs ;

2) une ACP pour chacun de ces six descripteurs (sur les résultats des laboratoires ayant utilisé ce descripteur) ; cette ACP a permis aux auteurs de répartir les 16 cafés en plusieurs groupes ; par exemple, la carte obtenue pour le descripteur amer leur a suggéré l’existence de 4 groupes de café ;

3) une recherche de tous les autres descripteurs de l’ICO ayant discriminé significativement les groupes de cafés ainsi formés ; par exemple, les descripteurs brûlé, fumé, caoutchouc, caramel et cendre pour les groupes formés à partir du descrip- teur amer. Un double postulat est à la base de cette démarche : le premier (explicite) est d’illustrer un aspect important de la science sensorielle, à savoir l’association entre descripteurs pour définir des groupes d’échantillons : ces associations aident à augmenter notre connaissance des échantillons. Le second (implicite) est qu’une association entre descripteurs est d’autant plus pertinente que ce laboratoire est compétent.

3 – LES INTERROGATIONS SUSCITÉES PAR CETTE COMPARAISON

3.1 Peut-on tolérer que, dans une comparaison inter laboratoires, tous les laboratoires ne travaillent pas strictement

dans les mêmes conditions ?

Des différences dans les conditions expérimentales peuvent être relevées. Cer- taines avaient été admises lors de la mise en place de la comparaison, d’autres non.

Mais quelle que soit leur origine, il est nécessaire d’en discuter les conséquences.

3.1.1 Les différences dans la préparation des boissons

Si tous les cafés ont été préparés avec les mêmes cafetières Melita, huit laboratoires ont utilisé de l’eau d’Evian en bouteille verre et trois de l’eau d’Evian en bouteille plastique. Cette différence est très certainement négligeable, ce qui n’est probablement pas le cas de différences, a priori surprenantes, tolérées dans d’autres travaux et (GORMLEY et al., 1986, GORMLEY et al., 1988, DRAKE et al., 2002, LOTONG et al., 2002). Par exemple, LOTONG et al. ont comparé deux groupes de sujets hautement entraînés sur des jus d’orange appartenant à sept types différents : un jus fraîchement pressé, un jus réfrigéré/pasteurisé, un jus réfrigéré obtenu à partir d’un concentré, un jus concentré congelé, un jus en canette, un jus en emballage Tetrapack et un jus longue conservation en bouteille. L’un des groupes a évalué 23 jus et l’autre 17 jus. De plus, comme les épreuves ont été effectuées, [non pas la même année, mais] au cours d’années différentes, les noms et les marques de cer- tains produits ont été différents ; seulement trois jus de la même marque ont été éva- lués par les deux panels.

(5)

3.1.2 Les différences dans les conditions de présentation des cafés

Elles portent sur la nature des « récipients » dans lesquels les cafés ont été ser- vis (par exemple tasse blanche en plastique, tasse en céramique noire, verre noir, bécher en verre), sur la présence ou non d’un verre de montre recouvrant les réci- pients, sur l’éclairage des cabines (trois laboratoires ont travaillé sous lumière rouge) et sur la maîtrise de la température des cafés. En effet si, immédiatement après infusion, la température de la boisson était la même dans tous les laboratoires ( 80 °C), la méthode pour obtenir la température de service (fixée à 50-60 °C) avait été laissée à la discrétion de chaque laboratoire. De plus, trois laboratoires seulement ont pu maintenir la température de consigne tout au long de l’évaluation de chaque café.

Pour les laboratoires qui ont effectué les évaluations seulement après mise en bouche, ces différences n’ont probablement pas eu de conséquence : la bouche a uniformisé la température et les conséquences de faibles variations de service (DRAKE et al., 2005). Mais pour les laboratoires qui ont évalué également les cafés par flairage, la conclusion est moins assurée. Dans ce cas, recouvrir ou non les tas- ses d’un verre de montre n’est pas une opération neutre. De même, il est probable que les narines diminuent moins efficacement que la bouche les différences de tem- pérature entre les échantillons.

3.1.3 Les différences dans les modes d’évaluation

Trois laboratoires (dont le laboratoire de l’ICO) ont effectué les évaluations seulement après mise en bouche des cafés alors que les huit autres laboratoires les ont également effectuées par flairage, les descripteurs olfactifs étant ou non les mêmes pour les deux modes d’évaluation. De plus, alors que le laboratoire de l’ICO avait recommandé de recracher les cafés, quatre laboratoires ont demandé à leurs sujets d’avaler les cafés et trois autres ont laissé les sujets libres de faire comme ils le désiraient. De même, les produits de « rinçage » des narines et de la bouche ont varié entre les laboratoires. Ces différences, dont les incidences sont difficiles à pré- ciser, s’expliquent sans doute par la volonté des organisateurs de l’essai de laisser les laboratoires réaliser les profils dans des conditions proches de leurs conditions habituelles de travail. Ce choix peut se comprendre dans une étude de recherche ; il ne le serait pas dans une étude de validation opérationnelle.

À noter également que deux laboratoires ont ajouté, en début de séance, l’éva- luation d’un café à des fins « d’échauffement » des sujets. Pour l’un de ces deux laboratoires, ce café (l’un des 16 cafés de l’étude) a été identique pour les douze séances : les sujets évaluaient 10 des 33 descripteurs et discutaient ensuite entre eux, ce qui leur a permis à la fois de se calibrer entre eux et de se familiariser avec le café. L’autre laboratoire a utilisé un café commercial qui a varié pendant l’essai. Par ailleurs, il ne semble pas que des consignes concernant le nettoyage de la bouche aient été données (ALLISSON et CHAMBERS, 2005).

3.1.4 Les différences d’échelle

Sept laboratoires ont travaillé avec une échelle non structurée (de longueur variable entre 90 et 120 mm) et quatre avec une échelle structurée (comportant entre 10 et 20 points).

L’effet du type d’échelle est encore controversé (JEONet al., 2004), sauf peut- être dans le cas d’épreuves hédoniques (YAO et al., 2002). De plus, les rares études qui ont mis en évidence un effet de l’échelle travaillaient avec un petit nombre de descripteurs. Or on peut penser que l’effet de l’échelle, s’il existe, a d’autant moins

(6)

d’incidence que les sujets quantifient un plus grand nombre de descripteurs, la diffi- culté pour les sujets étant alors davantage de « comprendre » les descripteurs à évaluer que de les « quantifier ». Ce point de vue est sans doute partagé par HEY- MANN (1994) qui a comparé deux groupes, l’un utilisant une échelle structurée à 10 points (0 - 9) et l’autre une échelle non structurée de 13 cm de longueur et par HUNTER et McEVAN (1998) qui ont comparé quatre laboratoires utilisant une échelle de catégorie sur papier à 7 points et trois laboratoires utilisant une échelle continue sur un écran d’ordinateur. Mais il ne le serait pas par URDAPILETTA et BROUARD

(2001), UPRIT et MISHRA (2002) ou HÉBERT (2004) qui estiment que la logique floue devrait être davantage mise à contribution pour l’interprétation des profils : le critère d’appartenance à une classe est probablement plus difficile à manipuler dans le cas d’une échelle non structurée que dans le cas d’une échelle structurée. Il ne devrait pas l’être également par les praticiens qui utilisent une échelle à 3 points : leurs sujets effectuent davantage une épreuve de catégorisation qu’une mesure d’inten- sité. À cet égard, la comparaison rapportée par NIELSEN et ZANNONI (1998) où trois laboratoires utilisaient une échelle structurées à 3 points, un laboratoire une échelle structurée à 7 points et quatre laboratoires une échelles non structurée de 15 cm de longueur semble discutable.

3.1.5 Les différences entre listes de descripteurs

Bien que tous les laboratoires aient reçu de l’ICO une liste de 20 descripteurs avec leur définition en anglais et en français ainsi qu’une référence pour chaque descripteur, les laboratoires ont eu la possibilité de générer leurs descripteurs. Tous ont utilisé largement cette possibilité de sorte que le nombre de descripteurs s’est étalé entre 14 et 46 descripteurs (et que le nombre de descripteurs communs a été apparemment faible, voir § 2.4). La décision de laisser les laboratoires libres dans le choix des descripteurs s’explique, en partie, par la difficulté de traduction et de compréhension d’un vocabulaire unique (ZANNONI, 1997). Ainsi RISVIK et al. (1992) attribuent à la langue une partie des différences observées entre leurs deux groupes ; mais cette explication semble discutable : le groupe qui discrimine le mieux est le groupe norvégien alors que le vocabulaire commun utilisé est celui développé par le groupe anglais. HUNTER et McEVAN (1998) ont un avis opposé à celui de l’ESN (1996) et plaident pour un même vocabulaire. Si, pour les descripteurs de texture, il semble qu’un accord puisse être recherché (les descripteurs de texture sont en effet, généralement, définis en référence à une manipulation particu- lière du produit (voir par exemple LAVANCHYet al., 1993), la question reste encore ouverte pour les descripteurs d’odeur et d’arôme.

Sauf si l’objet de l’étude est de comparer des listes différentes de descripteurs (BATY et al., 2003), l’utilisation d’un même vocabulaire est une pratique à privilégier lorsque les comparaisons sont effectuées à l’intérieur d’un même pays. C’est ce choix que l’ACTIA a fait pour deux comparaisons, l’une sur des chocolats et l’autre sur des compotes de pomme (PAGÈS et HUSSON, 2001). Parfois, les responsables de la comparaison peuvent autoriser les laboratoires à ajouter, à une liste commune, un ou deux descripteur(s) qui leur seront propres et qui leur semblent particulièrement judicieux (MARTIN et al., 2000, WIENBERG et al., 2000, ZAMORA et GUIRARO, 2004).

3.2 Peut-on tolérer que, dans une comparaison interlaboratoires, tous les groupes ne soient pas, a priori, comparables ?

Une deuxième famille de différences concerne les groupes. Ainsi, dans l’étude de l’ESN, les groupes ont différé par leur taille et par la durée de leur entraînement dans l’univers du café.

(7)

3.2.1 La différence de taille

L’étude de l’ESN a mobilisé 104 sujets. Pour 11 laboratoires, ce total conduit à un nombre moyen de sujets proche de 9. Le nombre de sujets le plus élevé est 12 et le plus faible 7, soit un rapport légèrement inférieur à 2. Or, pour une même popula- tion de sujets, à la fois la stabilité et le pouvoir discriminant observés augmentent avec la taille du groupe. Plus les groupes seront de taille différente, plus des diffé- rences fortuites pourront apparaître. L’idéal serait donc que les groupes aient des tailles identiques (comme dans l’étude de ZAMORA et GUIRARO, 2004 sur des vins où les deux groupes, un groupe d’experts en vins et un groupe de sujets entraînés, comportent chacun huit personnes) ; mais les aléas font que cette exigence est souvent difficile à remplir. Un principe pourrait être que les groupes ne diffèrent jamais entre eux de plus d’une ou deux unités pour une taille moyenne de 10 sujets. Toute- fois, quand un laboratoire cherche à obtenir un certificat de compétence (voir section 4), cette règle ne joue pas. En effet, dans ce cas, la comparaison ne porte pas entre deux laboratoires de même statut, mais entre un (ou plusieurs) laboratoire(s) confirmé(s) et un laboratoire candidat. Si un responsable de laboratoire demande une reconnaissance officielle pour un groupe de trop faible taille, il prend le risque de se voir refuser cette reconnaissance, mais sans que ce refus ait une consé- quence sur la validité de la comparaison inter laboratoires.

3.2.2 Les différences dans l’entraînement

Dans sept laboratoires de l’étude de l’ESN, les groupes ne comportaient que des sujets possédant une expérience de l’analyse descriptive égale, au moins, à un an alors que, dans les quatre derniers laboratoires, les groupes comportaient à la fois des sujets ayant une expérience de l’analyse descriptive et des sujets recrutés spé- cialement pour l’essai inter laboratoires. De plus, l’entraînement pour l’essai a varié en durée (entre 8 et 96 heures) et en nature. En effet, si tous les laboratoires ont uti- lisé les six échantillons qui leur avaient été envoyés à cette fin par l’ICO, sept ont également utilisé des échantillons commerciaux achetés de leur propre initiative et six ont utilisé, pour l’entraînement, les échantillons expérimentaux qu’ils devaient décrire après la phase d’entraînement.

Ces différences sont rédhibitoires pour les animateurs de groupes qui partagent l’opinion avancée dans le titre d’un article, tout récent, de LABBE et al. (2004) : Training is a critical step to obtain reliable product profiles in a real food industry context. Mais la discussion est certainement beaucoup plus ouverte que le libellé de cet article le laisserait croire ; d’ailleurs la revue bibliographique présentée aurait pu, sans même intégrer les travaux comparant profil libre et profil conventionnel, être enrichie des arti- cles de CLAPPERTOn et PIGGOTT (1979) CHAMBERS et al. (1981), APARICIO et al. (1991), HIRSt et al. (1994) ou DELANGE (1995). En effet, curieusement, les travaux publiés ne concluent pas, tous, à une grande efficacité de l’entraînement. Les divergences entre auteurs peuvent s’expliquer, indépendamment des produits comparés, par :

– les « points de comparaison » choisis : certains auteurs comparent un groupe de sujets totalement naïfs dans la description sensorielle avec un groupe de sujets entraînés alors que d’autres comparent des groupes de sujets entraînés pendant un temps plus ou moins long. L’article de LABBE et al. (2004) appartient à la première catégorie puisqu’il compare les résultats d’un groupe de 10 sujets totalement naïfs avec les résultats du même groupe après 14 séan- ces d’entraînement de 90 minutes par séance. À l’opposé, CHAMBERS et SMITH

(1993) comparent deux groupes formés de sujets qui ont tous subi un entraî- nement à l’analyse sensorielle et à l’analyse descriptive de 150 heures sur 5 mois : le premier est formé de cinq sujets, possédant 5 à 7 années d’expé-

(8)

rience de projets sensoriels divers (avec entraînement sur les produits de cha- que projet) et le second de huit sujets qui venaient seulement d’achever l’entraînement de 150 heures ;

– la taille des groupes : comme il est plus facile de recruter des sujets ne possé- dant pas ou peu d’expérience de l’évaluation sensorielle, les groupes non entraînés ou peu entraînés ont souvent une taille très supérieure à celles des groupes hautement entraînés ; une telle situation, à l’avantage des groupes peu entraînés, est fréquente dans les comparaisons profil libre – profil conventionnel ; mais elle peut également se rencontrer dans le cas de comparaisons où les groupes utilisent tous le profil conventionnel (par exemple HUS- SON et PAGÈS, 2003) ;

– la tâche demandée aux sujets ; ainsi, dans la technique du profil flash, la tâche est comparative (les sujets reçoivent tous les échantillons en même temps) alors que, dans la technique du profil conventionnel, la tâche est monadique (les sujets reçoivent un par un les échantillons) ; la supériorité de la technique du profil flash observée par DELARUE et SIFFERMANN (2004) est sans doute due à la nature de la tâche (MAZZUCCHELLI et GUINARD, 1999) ;

– la liste des descripteurs : elle peut être identique, quelle que soit la durée de l’entraînement ou, au contraire, être enrichie de termes nouveaux à mesure que la durée de l’entraînement augmente, avec le risque de créer des confusions ; ainsi, dans l’étude de WOLTERS et ALLCHURCH (1994), le nombre de descripteurs utilisés pour décrire des jus d’orange a été de 34, 70 et 97, pour une durée d’entraînement égale, respectivement, à 15, 30 et 60 heures ; – les critères choisis pour juger la qualité des résultats : ceux-ci privilégient-ils

l’accord entre les sujets, le nombre de descripteurs significatifs, la séparation des produits sur une carte factorielle, voire la lisibilité de celle-ci ? C’est sans doute là qu’il faut chercher l’origine de l’opposition, entre deux phrases écrites dans le même article par WOLTERS et ALLCHURCH (1994). La première est extraite du résumé : Bien que les hypothèses concernant l’augmentation du nombre de descripteurs discriminants et consensuels avec la durée d’entraîne- ment soient corroborées par les résultats, aucune déclaration précise ne peut être faite sur l’hypothèse générale qu’il existe une relation positive entre la durée de l’entraînement et la performance du groupe. La seconde est extraite de l’avant-dernier paragraphe de la section Conclusions et Discussion : On peut penser, sur le plan théorique, qu’il existe une relation positive entre la quantité de l’entraînement et la performance réelle ; dans l’étude qui vient d’être décrite, une certaine évidence empirique a été présentée en faveur de cette hypothèse. Le même embarras est perceptible dans un article de CHAM- BERs et al. (2004) sur la comparaison des performances d’un même groupe de sept sujets soumis à trois durées d’entraînement : (4 h + 1 h), (60 h + 2 h) et (120 h + 3 h), la première valeur indiquant la durée d’un entraînement

« général » et la deuxième celle d’un entraînement spécifique sur le produit (trois sauces à la tomate pour pâtes) et les descripteurs à utiliser. CHAMBERS

et al. ont observé que l’étendue des notes, pour un même produit, diminuait avec la durée de l’entraînement, ce qui traduisait une augmentation de l’homo- généité entre sujets et qu’il en était de même pour le carré moyen de l’erreur attachée à chaque descripteur. Mais le nombre de descripteurs discriminants (à P = 0,05) était peu affecté par cette diminution (il était respectivement égal à 8, 9 et 11 pour 15 descripteurs évalués) et les graphiques en étoiles donnés dans l’article ne sont pas plus aisés à lire. Le seul descripteur qui n’avait pas été significatif après 4 h ou 60 h d’entraînement et qui le devient après 120 h d’entraînement est le descripteur tomate fraîche ; cependant les auteurs écri-

(9)

vent imprudemment dans le corps de l’article : l’acuité discriminative du panel a augmenté après 120 h d’entraînement ; certains attributs (par exemple la tomate fraîche) n’avaient pas été identifiés comme des attributs discriminants.

En revanche, les cinq dernières lignes de leur résumé sont prudentes : Nos résultats suggèrent qu’un entraînement limité peut être suffisant pour trouver des différences entre produits pour de nombreux attributs de texture et pour certains attributs de flaveur. En revanche, un entraînement intensif peut être requis pour réduire la variation entre panélistes et augmenter leurs possibilités discriminantes ;

– la nature de l’entraînement ; il est possible que les résultats, plutôt décevants, obtenus par CHAMBERS et al. (2004) tiennent à la nature même de l’entraîne- ment auquel les sujets ont été soumis. L’entraînement général serait peu efficace, à la différence de l’entraînement spécifique. À l’appui de cette opinion, on peut verser la pratique d’un certain nombre d’animateurs de groupes profils permanents qui, lorsqu’un sujet entraîné a été absent pendant plusieurs mois, ne l’intègrent, dans leurs résultats, qu’après cinq ou six séances de travail.

3.3 Les différences dans le plan expérimental

Cette source de différences n’est pas intervenue dans l’étude de l’ESN : tous les laboratoires ont respecté le plan expérimental concernant la présentation monadique des cafés, leur ordre de présentation, le nombre de cafés par séance (égal à 4), le nombre de séances par jour (au maximum 4, avec un large temps de repos entre les séances) et le nombre de répétitions par café (égal à 3) organisées dans un dis- positif en bloc : tous les cafés devaient avoir été évalués une première fois avant que la deuxième répétition commence.

Mais il n’en est pas toujours ainsi. Parfois les différences portent sur le nombre de répétitions ; ainsi dans l’étude de HUNTER et McEVAN (1998), six laboratoires ont effectué deux répétitions et le septième a effectué trois répétitions. Parfois, les diffé- rences sont beaucoup plus graves ; ainsi FUSELIER et al. (1993) mentionnent que, sur les cinq groupes qui ont participé à leur comparaison interlaboratoires, seulement deux ont respecté le plan de dégustation qui avait été défini. Dans un groupe, tous les sujets n’ont même pas goûté tous les produits !

3.4 Est-il possible d’effectuer une comparaison interlaboratoires sans que les critères permettant de déterminer que deux laboratoires sont en accord ou en désaccord soient définis explicitement ?

Le document de l’ESN ne présente, à aucun moment, une liste de critères permettant de conclure à l’accord entre deux laboratoires. Les rédacteurs signalent seulement, à l’occasion, que tel laboratoire est plus en accord (ou moins en accord) avec tel laboratoire qu’avec tel autre. La raison en est probablement la transparence voulue par les organisateurs de l’étude. Ainsi, les noms des laboratoires ne sont pas codés, ce qui interdisait (de fait) une forme de présentation donnant l’impression d’attribuer des « bons points » à certains laboratoires (et donc des « mauvais points » à d’autres). Mais une deuxième raison peut également être invoquée : l’un des objectifs de l’étude était de mettre en évidence, au-delà des différences entre régions auxquelles appartenaient les laboratoires, l’existence d’un vocabulaire européen approprié pour le café.

Différents outils permettent une comparaison inter laboratoires. Ils peuvent être différenciés selon que les laboratoires utilisent ou n’utilisent pas le même vocabulaire.

(10)

3.4.1 Les laboratoires, au nombre de deux, utilisent le même vocabulaire Dans cette situation, le premier outil est l’ANOVA effectuée descripteur par descripteur, avec un nombre de facteurs dépendant du plan expérimental choisi. Deux modèles sont possibles. Le premier consiste à effectuer une ANOVA séparée pour chacun des deux groupes. Il conduit à un tableau où les différents descripteurs sont donnés en ligne, les colonnes donnant, pour chaque laboratoire, soit le résultat du F_produit (en termes de différences significatives et de différences non significatives), soit la probabilité attachée au F_produit (plus la probabilité est faible, plus les différen- ces entre produits sont élevées). Souvent, une colonne supplémentaire est ajoutée, donnant les résultats de l’interaction produit*sujet. L’analyse est généralement complétée par une série de comparaisons par paires permettant d’obtenir, par laboratoire, le nombre de paires de produits perçus comme significativement différentes (par exemple, CLAASSEN et LAWLESS, 1992). Mais le modèle peut également conduire à une présentation plus élaborée comme celle de PAGÈS (2002) pour qui le profil sensoriel d’un produit peut être défini comme la liste des descripteurs pour lesquels ce produit s’écarte significativement de l’ensemble des autres produits avec lesquels il est évalué. C’est pourquoi, PAGÈS et HUSSON (2001) ont proposé de calculer, par laboratoire, un coefficient produit, de l’éprouver sur le plan statistique à P < 0,05 et de distinguer quatre situations :

– une situation dite d’accord élevé quand les deux coefficients sont significative- ment différents de 0 et de même signe ;

– une situation dite d’accord quand les deux coefficients ne sont pas significati- vement différents de 0 ;

– une situation dite de désaccord quand un coefficient est significativement dif- férent de 0 et l’autre non significativement différent de 0 ;

– une situation dite de désaccord élevé quand les deux coefficients sont signifi- cativement différents de 0 mais qu’ils ont des signes contraires.

Le deuxième modèle consiste à effectuer, non pas des ANOVAs séparées par groupe, mais une seule ANOVA : réponse = f (produit + groupe + produit*groupe + sujet (groupe)). Le facteur sujet est « emboîté » ou « imbriqué » dans le facteur groupe. Le terme produit*groupe qui exprime le désaccord entre les deux groupes par rapport aux produits est éprouvé par comparaison aux variations résiduelles, c’est-à-dire à la somme des interactions produit *sujet calculées pour chacun des groupes. Un tel modèle a été utilisé par BURKE et al. (1997, un fragment du tableau des résultats est donné tableau 1), SCHLICH (1998) ou MARTIN et al. (2000).

Le second outil est le coefficient de corrélation linéaire de Bravais-Pearson. Pour qu’il soit robuste, le nombre d’échantillons doit être au moins égal à 10. Il a été uti- lisé par CARDELLO et al. (1982) sur six descripteurs et 18 filets de poisson d’espèces différentes et par APARICIO et al. (1991) sur 14 descripteurs et 24 échantillons d’huile (13 descripteurs montraient une corrélation significative à P < 0,05 et 9 une corréla- tion significative à P < 0,01). Afin d’obtenir un indice global de l’accord entre les deux groupes, la moyenne ou la médiane des coefficients obtenus pour chaque descripteur est calculée. Toutefois, cet outil présente une limite : il peut conduire (artificiellement) à un nombre élevé de descripteurs significativement corrélés lorsque les descripteurs élémentaires sont corrélés entre eux ; un problème analogue a déjà été soulevé à propos des descripteurs à introduire dans une ACD (I, § 4.6.2).

C’est pourquoi il serait certainement intéressant d’utiliser le coefficient de corrélation canonique que développe SCHLICH (2003) pour comparer, dans le cas d’un seul groupe, les configurations relevant de sensibilités différentes (par exemple sensibi- lité gustative, sensibilité olfactive, sensibilité kinesthésique…), le facteur laboratoires

(11)

remplaçant le facteur sensibilité. Par ailleurs, plutôt que d’utiliser le coefficient de Bravais-Pearson basé sur des notes, on peut utiliser un coefficient basé sur les rangs comme les coefficients de Spearman ou de Kendall (ISSANCHOU et al., 1997, Mc DONNEL et al., 2001). Enfin, quand l’un des deux groupes peut être considéré comme un groupe témoin, la meilleure technique est probablement une régression linéaire avec, en abscisse, les notes du groupe témoin et, en ordonnée, les notes du deuxième groupe ; dans ce cas, non seulement la corrélation doit être proche de 1, mais également la pente ; un exemple en est donné par Mc BRIDE et FINLAY (1989).

Tableau 1

Un extrait du tableau de BURKE et al. (1997) concernant la comparaison entre 7 laboratoires évaluant 4 bières avec un modèle prenant en compte le facteur laboratoire, le facteur produit et l’interaction laboratoire*produit.

Le profil comprenait 39 descripteurs. Pour qu’un facteur soit déclaré significatif, la probabilité devait être inférieure ou égale à 0,01 (2 astérisques).

Table 1

Summary of Anova (from BURKE et al. (1997).

Table gives the p-values for 3 factors: group (7 groups), product (4 beers) and interaction group*product for six descriptors (the vocabulary consisted in 39 descriptors).

Le troisième outil est l’ACP. Comme pour l’ANOVA, deux modalités sont possibles : soit une ACP groupe par groupe, soit une seule ACP avec identification des groupes. La deuxième modalité conduit à une carte des produits aisée à lire puisque, pour chaque produit, la distance entre les deux groupes peut être évaluée visuellement ; de plus, le tracé d’une ellipse de confiance (déjà évoqué en I, § 4.6.4) facilite encore la lecture. Mais elle perd deux informations qu’apporte l’ACP par groupe, à savoir la pertinence de chaque carte (connue par le pourcentage d’inertie expliquée par chacun des deux axes) et une explication « pure » (c’est-à-dire non affectée par l’autre groupe) de la position des produits de chaque groupe. Or la pos- sibilité d’expliquer la position relative des produits est un critère de qualité à prendre en compte : deux groupes sont en effet « en bon accord », non seulement parce qu’ils positionnent les produits de la même manière sur le plan de l’ACP, mais aussi parce qu’ils expliquent d’une manière voisine la position de ces produits. C’est pourquoi, il est conseillé d’effectuer une double analyse (une ACP par laboratoire, puis une ACP tous laboratoires confondus).

L’ACP peut travailler sur les réponses individuelles de chaque sujet. Mais la carte sensorielle est alors difficile à lire et les praticiens préfèrent travailler sur les moyennes calculées sur l’ensemble des juges de chaque groupe. L’ACP peut alors être

Probabilité attachée, sous H₀, au facteur

laboratoire produit laboratoire*produit Odeur

d’éthanol 0,000** 0,000** 0,0192

de fruits 0,000** 0,000** 0,0384

de solvant 0,000** 0,000** 0,0020**

de fleurs 0,000** 0,000** 0,0020**

d’épices 0,000** 0,0215 0,0466

de houblon 0,0768 0,2086 0,5891

…

(12)

complétée par une APG (voir § 3.4.3.1) effectuée sur les données de chacun des deux laboratoires ou des deux laboratoires (MARTIN et al., 2000) ou encore par une Classification Hiérarchique : Si les sujets de chaque groupe tendent à noter les produits de manière semblable aux autres membres de leur propre groupe et de manière différente de celle des membres de l’autre groupe, alors les membres d’un même groupe devraient se trouver regroupés ensemble. Nous pourrons alors en conclure que le facteur étudié a un impact […] différent [selon le groupe] (CHAMBERS

et SMITH, 1993).

3.4.2 Les laboratoires utilisent le même vocabulaire, mais leur nombre est supérieur à 2

Les outils présentés pour la comparaison entre deux laboratoires peuvent égale- ment être utilisés. Par exemple, HUNTER et McEVAN (1998) ont comparé les résultats de sept laboratoires au moyen du τ de Kendall avec, dans un premier temps, un coefficient pour chaque descripteur et chaque paire de laboratoires, puis, dans un deuxième temps, une moyenne de ces coefficients (tableau 2). Toutefois, l’augmentation du nombre de laboratoires entraîne une double préoccupation. La première est de disposer d’outils d’exploration synthétiques comme « l’analyse flash » de SCHLICH (1998) dont l’objectif est de répondre à deux questions :

1) comment effectuer les comparaisons pertinentes quand les différences entre produits sont significatives pour un grand nombre de descripteurs ?

2) comment présenter les différences et les ressemblances entre laboratoires ? La seconde préoccupation est de vérifier que le sens des mots est le même pour les sujets des différents laboratoires. En effet, si cette inquiétude doit déjà être pré- sente dans le cas de deux laboratoires, elle doit l’être de plus en plus à mesure que le nombre de laboratoires augmente.

Tableau 2

Un extrait du tableau de Hunter et McEvan (1998) présentant les coefficients de Kendall moyens (calculés sur 7 laboratoires).

Table 2

Kendall’s coefficients of concordance calculated on 7 laboratories for 8 descriptors (the vocabulary consisted in 26 descriptors).

Odeur

animale 0,64***

acide 0,44***

fruitée 0,60***

de crème 0,71***

de yaourt 0,38**

d’ammoniaque 0,58***

de foin 0,24 ns

Intensité de l’odeur 0,83***

ns : p > 0,05 * p > 0,01 ** p > 0,001 *** p ≤ 0,001

(13)

3.4.3 Les laboratoires utilisent un vocabulaire différent

L’étude de l’ESN sur les cafés appartient à cette catégorie. L’approche multiva- riée utilisée a été STATIS. D’autres choix auraient été possibles : l’Analyse Procrus- téenne Généralisée (ou APG) ou l’Analyse Factorielle Multiple (ou AFM).

3.4.3.1 L’Analyse Procrustéenne Généralisée

À l’origine, cet outil a été développé pour interpréter les résultats de sujets travaillant avec la méthode du profil libre. Mais elle peut être utilisée pour traiter les données d’un profil conventionnel – SCHLICH et ISSANCHOU (1990) ont proposé de donner le nom de profil libre simulé à cette approche – ainsi que pour analyser les résultats d’une comparaison interlaboratoires. Pour COURCOUX et QANNARI (2002), l’APG se rapproche de STATIS en ce sens que ces deux outils procèdent en deux étapes : dans une première étape, un tableau compromis des tableaux associés aux juges est déterminé, puis, dans une deuxième étape, une ACP est effectuée sur ce tableau compromis afin d’exhiber les tendances principales qui structurent les produits du point de vue de leurs caractéristiques sensorielles.

SCHLICH et ISSANCHOU (1990)¹ présentent l’APG dans les termes suivants. Les configurations [c’est-à-dire les tableaux] sont tout d’abord plongées dans un espace à p dimensions, p étant le nombre de dimensions du laboratoire ayant utilisé le plus grand nombre de descripteurs, ce qui impose d’ajouter aux configurations de la plupart des laboratoires un certain nombre de colonnes comportant des zéros. Puis elles sont soumises à trois transformations : les données sont tout d’abord centrées une par une sur l’origine, car les laboratoires n’évaluent pas les intensités sensoriel- les avec la même moyenne […]. Par l’application d’homothéties, chaque configura- tion sera ensuite rendue de dispersion égale car les laboratoires n’utilisent pas tous la même étendue sur l’échelle de notation. Enfin et surtout, des rotations sont appli- quées à chaque configuration, pour minimiser la somme des carrés des distances entre points homologues [c’est-à-dire entre les points produits]. Cette transforma- tion est licite puisque les axes changent de signification d’une configuration à l’autre.

Les étapes d’homothétie et de rotation sont effectuées de manière itérative pour rap- procher au mieux les configurations individuelles de la configuration moyenne. Lors- que l’algorithme converge, cette dernière représente le consensus entre les laboratoires concernant les différences entre produits.

Ces trois opérations sont, classiquement, dénommées translation (translation), contraction/dilatation (scaling) et rotation (rotation). Dans l’exemple donné par Schlich et Issanchou (1990) portant sur neuf produits, la translation, effectuée sur les sujets était l’opération la plus « importante » : elle prenait en compte 50 % de la variance initiale alors que la rotation et la contraction/dilatation prenaient en compte seulement 27 et 4 % de la variance. Il semble qu’il en soit de même quand les sujets ne sont pas des juges, mais des laboratoires (RISVIK et al., 1992, DE JONG et al., 1998, MARTIN et al., 2000). Ainsi, dans une comparaison entre deux laboratoires français MARTIN et al. (2000) ont observé que la translation réduisait la variance de 57 %, la rotation de 17 % et la contraction/dilatation de 12 %.

On trouvera figure 1 la carte factorielle obtenue par DE JONG et al. (1998) avec huit cafés et cinq laboratoires de cinq pays différents. Excepté pour les marques 8 et 15, les marques sont bien séparées. Grossièrement, elles se répartissent en trois groupes : (2, 11, 12), (8, 10, 15) et (4, 13). Comme la configuration finale, dans cette étude, apparaît très consensuelle, la signification des axes peut être recherchée en calculant, pour chaque descripteur, la corrélation entre les coordonnées des pro-

1. Pour les besoins de cet article, le terme « juges » a été remplacé par « laboratoires ».

(14)

duits sur chacune des deux premières composantes de l’APG et les scores donnés aux produits par chaque laboratoire. Il semble que le 1^er axe puisse s’expliquer par les descripteurs brûlé, amer, chimique et acide utilisés par quatre laboratoires (PL, GB, DK et D). En revanche, aucun descripteur ne semble expliquer le 2^e axe, les auteurs ne trouvant pas de descripteur commun à plusieurs laboratoires et utilisé de la même manière. Si la configuration finale avait été moins consensuelle, il aurait été nécessaire d’essayer de former des groupes de laboratoires consensuels et de rechercher une explication pour chaque configuration consensuelle ; une telle démar- che aurait été une reconnaissance implicite du désaccord entre les laboratoires.

L’APG peut être complétée, pour chaque laboratoire, par la détermination du nombre d’axes de la configuration finale conduisant à des différences significatives entre produits grâce à une ANOVA à un facteur (s’il y a au moins deux répétitions) ou à deux facteurs (les produits et les sujets) effectuée sur les coordonnées des répétitions ou des sujets « lues » sur l’axe analysé. Dans l’étude de DE JONG et al.

(1998), les dimensions sont obtenues au moyen d’une comparaison avec les résul- tats d’une étude de préférence : trois laboratoires « travailleraient » dans 2 dimensions, les deux autres laboratoires « travaillant », respectivement, dans 3 et 4 dimensions. D’autres auteurs ont cherché à analyser les « résidus », c’est-à-dire ce qui reste inexpliqué par la configuration finale.

Une autre démarche consiste à traiter, d’emblée, les résultats de tous les groupes comme s’ils étaient extraits d’un même groupe. On examine alors, sur la carte des individus, comment les sujets se positionnent les uns par rapport aux autres.

S’il existe, sur la carte, des zones où certains sujets appartenant au même groupe sont préférentiellement localisés, on en conclura qu’il existe des différences entre ce groupe et les autres groupes ; au contraire, s’il n’existe aucune zone de la carte où des sujets appartenant au même groupe d’origine sont localisés, on en conclura qu’il n’existe pas de différences entre laboratoires.

principal axis 1 (80 %)

principal axis 2 (11 %)

– 2.0 – 1.0 0.0 1.0

1.0

0.0

1.0

2.0 3.0

12 F

F

F F

D

D D

D

DK

DK DK

PL

PL PL

PL

PL PL

PL GB

GB GB

GB

GB GB

GB 11 GB

2

8 15 10

13 4

Figure 1

Carte factorielle donnant la position compromis par APG de 8 cafés codés 2, 4, 8, 10, 11, 12, 13 et 15 (de Jong et al., 1998).

La position à laquelle conduit chaque laboratoire (D, F, DK, GB et PL) est également représentée.

Average configuration of 8 coffee samples (coded 2, 4, 8, 10, 11, 12, 13 and 15) in the space of the first two components of the consensus GPA

(individual configuration superimposed).

(15)

L’APG apparaît donc offrir de multiples possibilités. Il est certain qu’elle a été, par le passé, très utilisée dans le monde anglo-saxon, du fait à la fois de son anté- riorité par rapport à l’AFM, de la présentation très didactique qu’en ont faite ARNOLD

et WILLIAMS (1986) et de sa présence dans deux logiciels développés pour l’évalua- tion sensorielle : Genstat et OP&P. Ainsi, HUNTER et McEVAN pouvaient écrire en 1998 : La méthode la plus communément utilisée pour l’analyse des matrices de données est l’Analyse Procrustéenne Généralisée. Elle est la méthode retenue dans l’approche de Profisens (voir section 4 de cet article). Ses deux limites sont :

1) d’être une méthode itérative et donc de ne pas conduire nécessairement à la configuration optimale ;

2) d’être sensible aux juges (ou laboratoires) extrêmes.

Elle est encore l’objet d’une recherche active ; par exemple l’algorithme de Pro- cruste a été utilisé en vue de sélectionner, parmi tous les descripteurs sensoriels participant à un profil, un sous-groupe de descripteurs entraînant une perte négli- geable d’information, mais conduisant à une carte sensorielle plus facile à lire (DIJKSTERHUIS et al., 2002).

3.4.3.2 L’Analyse Factorielle Multiple

Pour COURCOUX et QANNARI (2002), cet outil, dû à ESCOFIER et PAGÈS (1984), est original en ce sens qu’il ne passe par l’intermédiaire d’un tableau compromis exhi- bant des directions clefs. Il a été conçu pour tenir compte du fait que, dans une matrice possédant p lignes (p produits) et k colonnes (k variables), les colonnes peuvent souvent être groupées en sous-ensembles. Par exemple, les trois premières variables peuvent être des variables évaluées à la vue, les cinq suivantes des varia- bles évaluées par flairage, les neuf suivantes des variables gustatives et trigéminales évaluées en bouche et les dix dernières des variables olfactives rétronasales (ESCO- FIER et PAGÈS, 1998). Par exemple encore, les 24 premiers descripteurs peuvent pro- venir d’une évaluation effectuée par des sujets amateurs de vins et les 32 derniers par des experts en vins (PAGÈS, 1996). L’idée des auteurs est de comprendre l’apport de chacun de ces sous-groupes au tableau des résultats des p produits en veillant à ce qu’aucun groupe n’impose « son point de vue ». Ce phénomène pourrait, en effet, se produire si l’ACP était effectuée sur le tableau brut provenant de la juxtaposition des sous-tableaux et si les variables d’un sous-groupe étaient nom- breuses et hautement corrélées entre elles. L’AFM équilibre l’influence des groupes de variables en donnant à chaque variable un poids. Ce poids doit être le même pour toutes les variables d’un même groupe afin de conserver la structure interne de cha- que groupe. […] Il est égal à l’inverse de l’inertie de la première composante princi- pale de ce groupe, c’est-à-dire à l’inverse de la première valeur propre de ce groupe (ESCOFIER et PAGÈS, 1998, p. 132). En d’autres termes, dans la problématique d’une comparaison interlaboratoires, l’AFM est une ACP effectuée sur l’ensemble des laboratoires, les descripteurs de chaque laboratoire étant affectés d’un poids égal à l’inverse de la première valeur propre de la matrice des réponses obtenues pour chaque laboratoire. Elle conduit à deux cartes correspondant au premier plan factoriel : une carte positionnant les produits et une carte positionnant les variables.

Comme il est possible de repérer chaque laboratoire sur la carte des produits, la longueur des segments reliant le point moyen de chaque produit aux points attri- bués par chaque laboratoire donne une idée de l’accord (et du désaccord) entre laboratoires. Un exemple est donné figure 2, tiré de la comparaison sur les compotes (PAGÈS et HUSSON, 2001). Dans cet exemple, L1 était le laboratoire qui avait le pourcentage d’inertie le plus élevé (53 %) et L6 le pourcentage d’inertie le plus faible (32 %) sur la première composante principale ; leurs contributions ont donc été équilibrées dans l’ACP finale. Les auteurs commentent ainsi cette figure : D’un pro-

(16)

duit à l’autre, les sous nuages ne se chevauchent pas [...] La ressemblance entre les points homologues correspondant aux produits extrêmes était attendue. Au con- traire, cette ressemblance concernant les produits les moins caractéristiques (les compotes 3 et 5) est un résultat très satisfaisant. Toutefois, des différences entre laboratoires peuvent être notées : Par exemple, la compote 1 [Poti] était considérée comme plus caractéristique (comparée aux autres compotes) par les laboratoires 2, 3, 4 et 6 que par les laboratoires 1, 5 et 7. [... De plus], pour les laboratoires 2, 3, 4 et 6, les compotes 1 [Poti], 4 [Carrefour] et 6 [St Mamet] sont approximativement équi- distantes alors que, pour les laboratoires 1, 5 et 7, l’échelle produit est dominée par l’opposition entre les compotes 4 [Carrefour] et 6 [St Mamet].

Il serait très certainement intéressant de disposer, sur des données expérimenta- les, d’études comparatives entre les trois approches STATIS, APG et AFM dans la mesure où l’approche AFM pose comme postulat que tous les laboratoires doivent contribuer avec un poids égal à la carte finale alors que les deux autres approches posent comme postulat que le poids d’un laboratoire est fonction de son accord avec les autres laboratoires. COURCOUX et QANNARI (2002) comparent, sur le même jeu de données, STATIS, APG et INDSCAL (une autre méthode d’analyse, qui permet de s’affranchir de l’hypothèse selon laquelle les facteurs d’échelle sont unifor- mes dans toutes les directions de l’espace), mais non l’AFM bien qu’ils écrivent que cette technique est très utilisée dans le cadre de l’évaluation sensorielle¹.

Figure 2

Carte factorielle donnant la position « moyenne » obtenue par AFM de 6 compotes codées 1 : Poti, 2 : Scoup, 3 : Andros, 4 : Carrefour, 5 : Délisse et 6 : St Mamet.

Les laboratoires sont codés de L1 à L7 (Husson et Pagès, 2001).

Multiple factor analysis on the table of the averages by laboratory (7 laboratories, coded from L1 to L7): superimposed representation of the product

from the point of view of each laboratory. Partial points related to a same product are connected to their centre of gravity.

The products are compotes: 1: Poti, 2: Scoup, 3: Andros, 4: Carrefour, 5: Délisse et 6: St Mamet.

(17)

4 – L’APPROCHE PRAGMATIQUE DE PROFISENS

L’étude de l’ESN a été à la naissance du projet européen (SMT-4-CL98-2227) ProfiSens auquel ont collaboré, entre septembre 1998 et août 2001, 17 partenaires (dont 16 de la Communauté européenne). L’objectif de ce projet était de proposer une démarche permettant de démontrer la compétence d’un laboratoire réalisant des épreuves sensorielles, notamment des profils sensoriels conventionnels. En effet, le test de compétence en analyse sensorielle est une étape importante pour démontrer que les données obtenues à partir d’instruments humains sont aussi sûrs (reliable en anglais) que ce qu’on est en droit d’attendre d’un autre outil de mesure (McEVAN, 2000). Il est donc intermédiaire entre ce que FEINBERG (1996) appelle, d’une part, les tests d’aptitude ou de compétence [qui] font coopérer de nombreux participants (jusqu’à plusieurs milliers de laboratoires) qui ne répètent pas leurs mesures [et dont] l’objectif est de classer les laboratoires et de vérifier leur compé- tence pour un analyte ou pour une méthode donnée et, d’autre part, les analyses interlaboratoires ou études circulaires [qui] réunissent jusqu’à quelques dizaines de laboratoires qui doivent faire de 2 à 4 répétitions [et dont l’objectif] est d’estimer la répétabilité et la reproductibilité de la méthode.

Dans le cas du profil conventionnel, la démarche repose sur une double idée (McEVAN, 2000, 2001, McEVAN et al., 2002). La première est qu’il existe, pour les dif- férents descripteurs qui sont évalués, une valeur attendue. Ce concept de valeur attendue (ou encore de résultat attendu ou de configuration attendue quand une carte est construite) est, en quelque sorte, l’analogue du concept de valeur vraie en analyse instrumentale. Elle est déterminée par la confrontation des résultats obtenus par trois ou quatre laboratoires formés à l’analyse descriptive et dont un, au moins, doit travailler spécifiquement dans l’univers produit considéré. Cette confrontation a, également, deux autres objectifs : i) assurer la pertinence des produits susceptibles d’entrer dans le circuit de comparaison, ii) mettre en évidence l’existence de descripteurs communs qui, à côté des descripteurs propres à chaque laboratoire, devront être systématiquement utilisés. Par exemple, pour les soupes à la tomate, les descripteurs communs étaient deux descripteurs sapides (le sucré et l’acide), deux descripteurs olfactifs (l’intensité de l’odeur et l’intensité de l’arôme) et un descripteur de texture (l’épaisseur). La seconde idée est que chaque laboratoire doit recevoir une note traduisant sa compétence. À cet égard, l’esprit de la démarche de Profisens se démarque profondément de celui des études interlaboratoires effec- tuées jusque-là, qui cherchaient davantage à « voir » et à « comprendre » qu’à

« noter ». Pour les auteurs de Profisens, la note de compétence doit prendre en compte :

1) le nombre de dimensions pour lesquelles des différences significatives entre les produits évalués sont observées ; plus ce nombre est élevé, plus le groupe est efficace. La détermination de ce nombre est effectuée au moyen d’une ANOVA à 1 facteur (le facteur produit) sur les coordonnées des produits données par les dimensions successives de l’APG, le nombre d’observations par produit étant donné par le nombre de répétitions. En effet, dans la démarche de Profisens, chaque laboratoire doit nécessairement effectuer au moins deux répétitions et c’est cette valeur qui a été imposée dans la comparaison sur les vins (McEVAN et al., 2002) ;

1. Cette remarque sera obsolète lors de la publication de cet article, le logiciel libre SensoMineR développé par F. Husson et S. (http://www.agrocampus-rennes.fr/math/developpement.html) offrant la possibilité d’effectuer les trois analyses.

(18)

2) le nombre de paires de produits significativement différentes ; plus ce nombre est élevé, plus le groupe est efficace. La détermination de ce nombre est obtenue au moyen du test HSD de Tukey ; ce test est effectué sur chacune des dimensions de l’APG significatives ; mais une paire significativement différente sur deux ou trois dimensions est comptée seulement une seule fois ;

3) l’homogénéité du groupe : celle-ci est évaluée au moyen de deux coefficients RV. Le premier est égal à la moyenne arithmétique des coefficients RV calculés entre tous les couples de sujets du groupe pris 2 à 2. Le second est égal à la moyenne des coefficients RV calculés entre la configuration de chaque sujet et la configuration consensus du groupe. Plus ces deux moyennes sont élevées, plus le groupe est homogène ;

4) la qualité de l’accord entre la configuration APG du groupe et la configuration attendue ; cette qualité est jugée au moyen du coefficient RV ; plus celui-ci est élevé, plus le groupe est considéré comme « compétent ».

La pondération des différentes notes dans la note finale est déterminée au vu des résultats de l’étude préalable. Ainsi, dans l’étude de ProfiSens comportant six vins, où le nombre attendu de dimensions significatives issues de la carte APG était égal à 2, un laboratoire recevait un score égal à 2 si sa carte sensorielle conduisait à ce nombre de dimensions. Si elle conduisait à un nombre inférieur, il recevait un score inférieur (respectivement 1 et 0 pour un nombre de dimensions égal à 1 et 0).

Au contraire, si elle conduisait à un nombre de dimensions significatives supérieur, il recevait un score égal au nombre de dimensions significatives.

La somme critique permettant d’obtenir le certificat de compétence est égale- ment déterminée au vu des résultats de l’étude préalable. Ainsi, dans l’étude sur les vins, le score maximum possible était égal à 22 et le score global attendu à 15.

[Mais], comme il est possible d’admettre qu’un [bon] laboratoire obtienne, pour l’un des scores élémentaires, un point de moins que le score attendu, le score global attendu a été fixé dans la fourchette 14-15. Un groupe qui obtenait un score supé- rieur à 15 était déclaré « meilleur qu’attendu » ; celui qui obtenait un score inférieur à 14 était déclaré « moins bon qu’attendu » ; celui qui obtenait un score égal à 14 était déclaré « aussi bon qu’attendu ».

Cette démarche a été expérimentée dans le cas de deux produits : les soupes de tomate et les vins. Malheureusement, dans le cas des soupes, comme la plupart des laboratoires avaient été incapables d’obtenir le batteur spécifié pour assurer l’homogénéité des échantillons, une inquiétude est apparue concernant la qualité de la préparation des échantillons (McEVAN et al., 2002). C’est ce qui explique (probablement) que le document de McEVAN (2000) consacré à cette comparaison pré- sente davantage le principe des calculs et les méthodes statistiques possibles que les scores obtenus par les différents laboratoires aux différents indices de performance. La deuxième étude, sur les vins a connu un autre désagrément : sur les 12 laboratoires qui ont participé à la phase finale, deux seulement ont atteint le score attendu. Ces deux laboratoires avaient participé à la phase initiale de validation ; mais les deux autres laboratoires qui avaient également participé à la phase de validation n’ont pas atteint ce score. De plus, le fonctionnement des descripteurs communs (sucré, acide et amer) s’est révélé problématique : les corréla- tions entre laboratoires étaient peu élevées et certains laboratoires avaient omis d’en quantifier une partie. L’intérêt de tels descripteurs est cependant évident : ils permettent une comparaison facile entre laboratoires, par exemple au moyen d’une ANOVA ou d’un coefficient de Pearson. Mais ils doivent être définis de telle sorte qu’ils soient compris de la même manière par tous les laboratoires, condition qui seule autorise l’utilisation de mesures univariées de performances (MCEVAN, 2000).

Dans l’étude sur les vins, les organisateurs de la comparaison ont décidé d’aban-

(19)

donner l’utilisation des descripteurs communs dans la démarche à développer en vue de test de compétence. Enfin le poids des indices mesurant la concordance entre les membres du groupe est peut-être trop élevé : alors que McEVAN affirme (I, 4.5.1) que le résultat qui doit être pris en compte est celui du groupe et non des sujets, dans l’étude d’aptitude sur les vins le poids des indices de concordance est de 7 sur un total de 22 points possibles.

L’approche ProfiSens demande donc à être affinée. Elle constitue, en 2005, l’un des deux exemples connus de procédure ayant comme objectif explicite l’attribution d’un signe de compétence. L’autre exemple est celui du Conseil Oléicole Internatio- nal (ou COI) qui dispose d’un protocole d’agrément pour les laboratoires chargés d’affecter un lot d’olive vierge à l’une des quatre classes extra, vierge, courante et lampante. Ce protocole s’appuie sur les résultats d’un circuit de comparaisons interlaboratoires avec présence de doublons (ce qui permet de prendre en compte la répétabilité) et évaluation de l’accord entre la classification, pour différentes huiles, donnée par l’ensemble des groupes et la classification de chacun des groupes can- didats (GIOMO, 1999). Ainsi, 49 laboratoires européens (n’appartenant pas à une entreprise oléicole) de 11 pays différents ont été agréés pour la période du 1.11.2003 au 31.10.2004 (www.internationaloliveoil.org, 2004). Cet exemple n’a pas été développé dans cet article pour deux raisons : i) l’organisation du monde de l’huile d’olive est tellement particulière qu’il aurait, très certainement, paru

« extrême » par rapport au vécu du secteur agro-alimentaire, ii) le mode de calcul pour l’agrément n’est pas transparent : il n’a pas fait en effet l’objet d’un document public ; cependant il est connu de tous les laboratoires qui souhaitent participer aux essais circulaires organisés par le COI. À cet égard, il convient de signaler que les statistiques utilisées par le COI sont des statistiques dites robustes (s’appuyant sur le calcul de la médiane), comme le recommande l’ISO (2002).

5 – CONCLUSION

L’état des lieux qui vient d’être effectué ne doit pas conduire le lecteur à un double vertige : un vertige devant l’ampleur et la complexité des travaux déjà effectués ; un vertige devant le travail qui reste à faire pour, parmi les multiples approches, méthodes et indices possibles, choisir une démarche particulière, nécessairement imparfaite et qui deviendrait la règle (ou la norme). Rédigé à l’intention des praticiens qui « vendent » des profils sensoriels plutôt qu’à l’intention des chercheurs qui

« réfléchissent » sur l’activité descriptive, il avait pour ambition de donner à ces praticiens des éléments leur permettant de replacer leur travail dans un domaine qui peut ressembler à un maquis, difficilement pénétrable, quand on ne dispose pas du temps nécessaire permettant de rassembler et d’analyser la littérature. Ils pourront ainsi mieux comprendre à la fois l’intérêt des comparaisons interlaboratoires et les choix que doivent faire les personnes qui organisent ces comparaisons et les orga- nismes qui les recommandent.

REMERCIEMENTS

L’auteur remercie tous ceux qui ont lu et annoté, tout ou partie, des différents textes qui ont conduit à cet article, en particulier les membres du groupe de travail de la Commission Analyse Sensorielle de l’AFNOR : la mesure des performances d’un groupe sensoriel. Il n’est pas possible de les citer tous. L’auteur tient, toutefois,