• Aucun résultat trouvé

Discussion générale et perspectives

4.4 Méthodologie proposée

protéines produites. Il est donc important de ne pas utiliser un couple promoteur::rapporteur dont le taux d'induction et le rendement de uorescence sont trop faibles, sous peine de ne pouvoir diérencier la source du bruit de mesure.

Il faut ainsi tenir compte de l'optimum d'excitation/émission de chaque rapporteur, surtout dans un mélange de biosenseurs multicolores pour lequel on recherche l'estimation conjointe de chaque réponse. Pour optimiser la contribution de chaque uorochrome au signal acquis, et limiter l'atténuation progressive des signaux du bleu vers le rouge, il est préférable de travailler avec les spectres synchrones de uorescence dont les avantages sont les suivants :

 Vitesse d'acquisition plus rapide que celle d'une MEEF,

 Plage spectrale utilisable plus large par une excitation optimale de chaque source de uo-rescence,

 Signatures spectrales plus piquées que celle d'un spectre d'émission conventionnel.

Un troisième paramètre pratique, est la quantité de biosenseurs analysées. Cette quantité est dépendante du volume d'excitation, qui peut varier en fonction du support d'expérience (microplaques ou cuves) et de la croissance cellulaire qui dépend du temps d'incubation ou de mesure et de la concentration en métal (eet toxique). En ce qui concerne les expériences menées dans ce travail, l'optimum de réponse se situe dans la plage de 0,1 à 1 unité de densité optique (à 600 nm) pour un volume d'analyte compris entre 200 µL et 1 mL.

4.4 Méthodologie proposée

En nous appuyant sur les simulations et expérimentations réalisées, nous pouvons proposer une méthodologie d'étude des biosenseurs, comprenant trois étapes. Elles sont présentées au niveau de la gure 4.1.

4.4.1 Première étape : Production de données

La première étape de la méthode consiste à dénir le plan d'expérience qui permettra de générer un jeu de données trilinéaires respectant le modèle CP. La uorescence mesurée est une combinaison linéaire de F sources de uorescence dont l'intensité varie en fonction de trois paramètres modulables.

Le premier paramètre est le domaine de longueur d'onde utilisé pour la mesure spectrale. Lors du réglage du spectrouorimètre, les choix portent sur la plage de longueur d'ondes, le pas, la longueur d'onde d'excitation dans le cas d'un spectre d'émission ou le ∆λ dans le cas d'un spectre synchrone. Les choix eectués dans la dénition de ce paramètre λ conditionneront le temps de mesure et l'intensité des sources de uorescence, donc le rapport signal à bruit.

Les autres paramètres peuvent être la proportion d'élément stressant (i.e. métal), la concen-tration bactérienne, la proportion de biosenseurs, la température ou la force ionique. Même si le choix de ces paramètres est explicitement guidé par l'objectif de l'étude du biosenseur, il est cependant nécessaire d'en dénir la gamme de variation garantissant des réponses diversiées

Figure 4.1  Méthode d'analyse des biosenseurs

et linéairement indépendantes pour les promoteurs étudiés. Comme les quantités de biosenseurs bactériens évoluent dans le temps (croissance, mortalité), le paramètre temporel peut être choisi pour étudier la cinétique des réponses des diérents biosenseurs. L'emploi de mélanges controlés

4.4. Méthodologie proposée de biosenseurs est aussi une façon d'introduire une diversité dans le plan d'expérience.

Toutefois, le choix du couple promoteur::rapporteur n'est pas complétement indépendant des paramètres étudiés. Le choix des promoteurs étudiés et des marqueurs associés est intégré au processus an d'assurer une diversité susante et l'identiabilité du modèle. Il conditionne les réglages optiques du spectrouorimètre ainsi que la fréquence des mesures, qui dépend de la vitesse de maturation des protéines uorescentes.

On doit ajouter à cela un aspect pratique : la construction du plan d'expérience. De ce point de vue, les expériences en microplaque sont très faciles à mettre en ÷uvre. L'avantage des microplaques réside dans la multiplicité des puits et leur ordonnancement matriciel. Il est aisé de produire un jeu de données triparamétriques en mesurant les spectres de uorescence dans chaque puits et en croisant deux paramètres suivant les colonnes et les lignes de la microplaque. De plus, ces dispositifs sont dimensionnés pour des mesures répétitives et robotisées. Par exemple, l'utilisation d'un robot pipeteur pour remplir les microplaques assure une grande précision et répétabilité dans les volumes délivrés, et permet de produire des combinaisons multiples et variées à façon dans chaque puits. De telles combinaisons sont diciles à produire par un expérimentateur humain. Cependant, les faibles volumes contenus dans les puits des microplaques posent des problèmes de sensibilité et de détectabilité, surtout lorsque les rendements de uorescence des rapporteurs sont faibles (protéine uorescent dans le rouge ou promoteur faiblement exprimé).

4.4.2 Deuxième étape : Analyse des données

La seconde étape de la méthode consiste à analyser les données acquises. Le nombre de sources pour la décomposition CP est choisi par l'étude des variations de l'énergie résiduelle, de l'indice CorConDia et de la décroissance des valeurs singulières. L'estimation du nombre de sources permet de déterminer l'existence de sources supplémentaires inattendues (autres que celles associées aux biosenseurs).

Grâce à la construction du plan d'expérience, nous connaissons le nombre de marqueurs intégrés aux biosenseurs, mais la présence de sources autouorescentes bactériennes, de la micro-plaque ou d'éléments uorescents dans le milieu viennent augmenter le nombre de sources dans le mélange. La valeur seule de l'indice CorConDia ne permet pas de déterminer si le nombre de sources choisi est adéquat, mais une valeur proche de 100 est une condition nécessaire pour valider l'adéquation du modèle CP aux données. Il faut donc étudier la stabilité des solutions proposées pour des décompositions réalisées avec diérentes initialisations aléatoires.

Le plan d'expérience est construit de manière à ce que les sources attendues n'aient pas de colinéarités entre elles et que les conditions d'identiabilité soient respectées. Cependant, des sources inconnues peuvent être identiées ou une des sources connues peut avoir une réponse in-attendue, il est alors nécessaire de valider l'identication et de détecter les colinéarités éventuelles. Dans le cas où l'identiabilité n'est pas acquise, l'application d'une contrainte supplémentaire sur le mode non identiable peut résoudre ce problème. Sinon, il est possible de modier le plan d'ex-périence an de générer une diversité supplémentaire respectant les conditions d'identiabilité

dans le cadre d'un modèle quadrilinéaire.

4.4.3 Troisième étape : Interprétation du modèle obtenu

Le troisième étape est l'interprétation des résultats de la décomposition CP. L'estimation des réponses des biosenseurs améliore la connaissance des interactions métal-bactérie autant du point de vue physique que fonctionnel. De plus, l'utilisation des méthodes de séparation de sources per-met de s'aranchir des uorescences parasites (autouorescence) autorisant ainsi l'exploitation des données spectrales dans des systèmes naturels. Nous avons également proposé une méthode d'estimation quantitative des métaux bio-disponibles [21]. Dans ce manuscrit, nous avons pro-posé une méthode permettant l'estimation de la concentration de plusieurs métaux en utilisant des biosenseurs non spéciques. Pour surmonter le problème d'additivité des réponses des biosen-seurs, nous avons proposé d'utiliser des ajouts dosés, couplés à des mélanges de concentrations variables de biosenseurs. Un jeu de données trilinéaires est généré pour chaque polluant. En eec-tuant la décomposition CP, des données associées à une procédure d'optimisation, il est possible d'estimer les concentrations de métaux, à condition que leur nombre exact dans l'échantillon soit connu.

4.5 Perspectives

Les perspectives des méthodes d'analyse des signaux uorescents développées dans ce travail laissent entrevoir de nouvelles expériences approfondissant l'analyse des processus géochimiques aux interfaces métal-bactérie-solution ou minéral-bactérie-solution. De plus, les méthodes de spectroscopie employées autorisent des études multi-échelles des réponses de biosenseurs allant de l'étude des comportements de populations bactériennes à l'étude des comportements individuels de chaque cellule. Il est ainsi envisageable d'établir un lien entre la réponse uorescente globale de populations de biosenseurs et la distribution des réponses cellulaires donnée par l'imagerie hyperspectrale.

Les études menées sur la uorescence des biosenseurs ont également montré un décit mé-thodologique qui nécessite des travaux complémentaires, tant au niveau des algorithmes de dé-composition CP, que du point de vue expérimental. Pour la méthode CP, nous avons montré que la prise en compte des interactions pouvait avoir une grande importance dans l'étude des réponses des gènes promoteurs, notamment pour une utilisation en milieu complexe. La néces-sité d'un indicateur de l'information/divernéces-sité a également été identié, an d'établir des plans d'expériences facilitant la décomposition et assurant l'extraction des sources de uorescence. Du point de vue expérimental, une méthode de génération de tableaux multidimensionnels creux permettrait de réduire le plan d'expérience ou d'augmenter le nombre de paramètres étudiés simultanément. L'utilisation de dictionnaires regroupant les réponses et spectres de uorescence préétablis réduirait le temps de calcul et améliorerait l'estimation des réponses.

4.5. Perspectives

4.5.1 Détection de la présence de métaux par des biosenseurs non spéciques

Nous pouvons proposer une méthodologie d'étude des biosenseurs autorisant l'utilisation de mélanges de biosenseurs dans des milieux complexes, et ouvrant la perspective du développement de capteur in situ de détection de polluants métalliques multiples par des senseurs non spéciques, comme le montre la simulation suivante.

Expérience multimétaux

B1 B2 B3

M1 a1 - a3

M2 b1 b2 b3

M3 c1 c2

-Table 4.1  Représentation des réponses attendus (ai,bi,ci) des biosenseurs non spéciques Bi en pré-sence de diérents métaux lourds (M1,M2,M3). Le biosenseur B1répond aux trois métaux, alors que B1,B2 sont insensibles à un d'entre eux.

En considérant que ces biocapteurs répondent de manière quasi-binaire à la présence d'un métal, on associe à chaque biosenseur une valeur nulle en l'absence de métal ou présence d'un métal auquel il ne réagit pas et une valeur unitaire en présence d'un métal. Pour les diérents mélanges de métaux possibles, on obtient le système de codage suivant :

Expérience multimétaux

Composition du mélange B1 B2 B3 Aucun des trois métaux 0 0 0

M1 1 0 1 M2 1 1 1 M3 1 1 0 M1+ M2 2 1 2 M1+ M3 2 1 1 M2+ M3 2 2 1 M1+ M2+ M3 3 2 2

Table 4.2  Système de codage engendré par les diérents mélanges de métaux faisant réagir les biosen-seurs Bi.

Ces combinaisons de biosenseurs non spéciques permettraient de déterminer la présence d'un ou plusieurs métaux. Par exemple, un biosenseur B1 non spécique construit sur la base d'un gène promoteur de type czc (gène induit par le cadmium, le zinc et le cobalt) ne permet pas d'assurer l'estimation de la concentration d'un élément dans un milieu complexe (contenant ces trois métaux). En y ajoutant une combinaison de deux autres biosenseurs non spéciques (B2 et B3) bien choisis, c'est-à-dire répondant soit au Cd et Zn, soit au Zn et Co (tableau 4.1), la présence ou l'absence respective de chaque métal est estimable. La gure 4.2 montre les réponses de ces biosenseurs en fonction des métaux présents en solution.

4500 500 550 600 5 10 Longueur d’onde (nm) Fluorescence relative 4500 500 550 600 5 10 Longueur d’onde (nm) 4500 500 550 600 5 10 Longueur d’onde (nm) 4500 500 550 600 5 10 Fluorescence relative Longueur d’onde (nm) 4500 500 550 600 5 10 Longueur d’onde (nm) 4500 500 550 600 5 10 Longueur d’onde (nm) 4500 500 550 600 5 10 Fluorescence relative Longueur d’onde (nm)

Figure 4.2  Simulation des réponses potentielles de la combinaison de biosenseurs non spéciques (B1,B2,B3) à des mélanges de métaux.

4.5.2 Capteurs de polluants in situ à base de biosenseurs bactériens

Au-delà de l'approche en laboratoire, on peut envisager l'utilisation des biosenseurs pour la détection in situ de polluants. Cette utilisation nécessite encore de nombreux travaux autant dans le domaine de la microbiologie que du point de vue de l'instrumentation. Pour pouvoir utiliser les biosenseurs dans des milieux naturels, il est nécessaire de mieux dénir leurs comportements face à des stress environnementaux plus complexes comme la présence de particules minérales et/ou de composés organiques.

Du point de vue des instruments de mesure, l'utilisation de capteurs CCD et de bres optiques réduirait l'encombrement des spectrouorimètres. Leur miniaturisation faciliterait la mesure in situ voire rendrait possible l'implantation pérenne d'un dispositf complet de mesure, incluant le spectrouorimètre et un procédé d'immobilisation des cellules bactériennes. Des supports chimi-quement inertes, comme des gels de silice, constituerait un point d'ancrage pour les biosenseurs bactériens dont la viabilité serait assuré par la composition du support.

David Brie, Sebastian Miron CRAN, Nancy-Universit´e, CNRS Boulevard des Aiguilletes BP 70239 54506 Vandœuvre-l`es-Nancy, France

Fabrice Caland, Christian Mustin LIMOS, Nancy-Universit´e, CNRS Boulevard des Aiguilletes BP 70239 54506 Vandœuvre-l`es-Nancy, France

ABSTRACT

In this paper we investigate the uniqueness of the 4-way CANDE-COMP/PARAFAC (CP) model in the case where the only possible linear dependencies between the columns of the loading matrices take the form of collinear loadings. For this special configuration we state a necessary and sufficient condition for having full column rank of the Khatri-Rao product of two loading matrices. This al-lows to derive a sufficient condition for uniqueness of the 4-way CP model with collinear loadings in at most three modes. The result is illustrated by analyzing 4-way fluorescence data.

Index Terms— Multilinear algebra, CANDECOMP/PARAFAC,

4-way array, uniqueness, collinear loadings.

1. INTRODUCTION

When dealing with multidimensional signals organized as tensors of orderN , a crucial question is to decompose them into a limited

num-ber of components from which the main characteristics of the data can be recovered. For order2 tensors, i.e. matrices, this leads to a

matrix factorization problem which is known to be ill-posed since an infinite number of possible decompositions yields the same data. In that case, additional constraints such as orthogonality, indepen-dence, non-negativity or sparseness have to be imposed to ensure an unique factorization of the data matrix. ForN > 2, a number of

multidimensional extensions of matrix factorizations have been pro-posed among which we may cite CANDECOMP/PARAFAC (CP) decompositions [1]. A key point in the development of this multi-dimensional decomposition comes from the fact that adding dimen-sions, also referred to as diversities, results in multidimensional de-compositions admitting an unique solution under mild conditions. This explains the growing interest of these multidimensional decom-positions for a wide range of applications including psychometrics, chemometrics and more recently signal and image processing.

Considering the 3-way CP model, the most general uniqueness result is due to Kruskal [2] which provides a sufficient condition. This has been extended to the N-way CP case by Sidiropoulos and Bro in [3]. Ten Berge and Sidiropoulos [4] showed that for the 3-way CP decomposition, Kruskal’s sufficient condition is also necessary for tensors of rank 2 and 3. Liu and Sidiropoulos [5] derived general necessary conditions for uniqueness of N-way CP decompositions.

In this paper, we address the CP uniqueness problem when the only possible linear dependencies on the columns of the loading ma-trices take the form of collinear loadings. This has many practical applications in signal processing [6, 7], chemometrics [8], etc.

THIS WORK HAS BEEN SUPPORTED BY THE FRENCH ANR PROGRAM THROUGH GRANT ANR-09-BLAN-0336-04

When a 3-way CP model has two or more collinear factors, uniqueness is no longer achieved [9]. In that case, partial uniqueness, as introduced by Ten Berge [10], can be obtained. It is worth noting that this partial uniqueness is similar to the block Parafac decom-position in (L, L, 1) terms uniqueness introduced by De Lathauwer

[11, 12].

Interestingly, the case of 4-way, and more generally N-way CP decomposition with collinear factors is less problematic, since uniqueness can still be achieved. However, to the best of our knowledge, this point has not been studied explicitly, motivating the present work. The paper is organized as follows : in section 2, we introduce the 4-way CP model with Collinear Loading Only

(CLO). Sections 3 and 4 present the main results of the paper. More

precisely, in section 3 we state the necessary and sufficient condition under which the Khatri-Rao product of two CLO matrices is full column rank. Then in section 4, we give a sufficient condition for having the uniqueness of a 4-way CP model with collinear loadings in three modes. Finally, section 5 gives an illustrative example con-sisting in analyzing 4-way fluorescence data that mimic the response of bacterial bio-sensors to environmental agents.

2. PROBLEM STATEMENT

2.1. Models and Notations

Consider anI× J × K × L 4-way array X with typical element xi,j,k,land the quadrilinear CP decomposition of orderF

xi,j,k,l=

F

X

f =1

ai,fbj,fck,fdl,f (1)

for all i = 1,· · · , I, j = 1, · · · , J, k = 1, · · · , K and l =

1,· · · , L. The equation (1) expresses the 4-way array as the sum

ofF rank-1 4-way arrays. Similarly to the matrix case, the rank of

X is defined as the minimum number of rank-1 4-way arrays needed

to decomposeX.

Defining the matricesA, B, C, D as :

A = [a1· · · aF] (I× F )

B = [b1· · · bF] (J× F )

C = [c1· · · cF] (K× F )

D = [d1· · · dF] (L× F )

whereaf, bf, cf and df are column vectors of dimension (I ×

◦ the outer product, the model (1) can be expressed as : X = F X f =1 af◦ bf◦ cf◦ df. (2)

For shortening the notations, we will also write model 2 as :

X = A|B|C|D. (3)

The 4-way array can be transformed in a matrixX of dimension

(IJK× L) by the unfolding operation. Depending on the ordering

of the unfolding and of the columns, the matrix form ofX can yield

different matricesX (see [13] for details). For notational simplicity,

in the sequel, the order of the columns in the unfolding operations is lexicographic. Thus, model (1) or (2) yields :

X = (A⊙ B ⊙ C) DT

(4) where⊙ stands for the Khatri-Rao product which is a column-wise

Kronecker product denoted by⊗, that is :

A⊙ B = [a1⊗ b1· · · aF⊗ bF] (5)

It can be noticed thatA⊙ B contains the columns 1, F + 2, 2F +

3,· · · , (F − 1)F + F of the Kronecker product A ⊗ B which is of

dimension(IJ× F2). An important notion used in the paper is the

Kruskal-rank (k-rank) of a matrix A defined as the largest number kA such that every subset ofkA columns of the matrix is linearly independent.

2.2. The Collinear Loadings Only (CLO) assumption

We assume that none of the loading matrices has a null column. Let us now introduce the class of 4-way CP model where the possible dependencies causing rank deficiency of the loading matrices can only take the form of collinear loadings. In this context, a loading matrixA is rank deficient if and only if one (or more columns) of

the loading matrix is (or are) proportional to another column. In that case :

∃ n 6= m such as an= λam (6)

which results inkA = 1. As a consequence, under the ”Collinear

Loadings Only” (CLO) assumption, thek-rank of the loading matrix

can only be equal to eitherF or 1 while its rank may vary between 1 and F .

3. RANK OF THE KHATRI-RAO PRODUCT WITH COLLINEAR LOADINGS ONLY

In this section, a necessary and sufficient condition ensuring the full column rank of the Khatri-Rao product of two CLO matrices is pro-vided. This rank is upper-bounded byrA⊙B≤ rA· rB. Thus, from now on we assume thatF≤ rA·rB. First we prove a necessary and sufficient condition under which two vector Kronecker products are collinear.

Proposition 1 Letx, y, u, v be non zero vectors. x⊗ u 6= λy ⊗ v

iffx6= αy or u 6= βv.

This proposition is a direct consequence of rank property of the Kro-necker product of two matricesX and Y: rX⊗U= rX· rU. Con-siderX = [x y] and U = [u v], then their Kronecker product

isX⊗ Y = [x ⊗ u x ⊗ v y ⊗ u y ⊗ v].

-rX⊗U= 4 ⇐⇒ rX= rU= 2 ⇐⇒ x 6= αy, u 6= βv. In

particular,x⊗ u 6= λy ⊗ v

-rX⊗U = 2 ⇐⇒ (rX = 2, rU = 1) or (rX = 1, rU =

2) ⇐⇒ (x 6= αy, u = βv) or (x = αy, u 6= βv). Then, for the

first case :X⊗ U = [x ⊗ βv x ⊗ v y ⊗ βv y ⊗ v]. The vectors

x⊗ v and y ⊗ v being respectively collinear to x ⊗ βv and y ⊗ βv

and, asrX⊗U= 2, we have x⊗ u 6= λ(y ⊗ βu) = λy ⊗ v. The

second case yields the same conclusion

Now, we give the lemma stating the condition under which the Khatri-Rao product of two matrices satisfying the CLO assumption is full column rank.

Lemma 1 Consider the two matricesA = [a1· · · aF] and B =

[b1· · · bF] of size (I× F ) and (J × F ) satisfying the CLO

as-sumption. A⊙ B is full column rank iff ∀n 6= m, an 6= αamor

bn6= βbm.

The proof is done by induction. Suppose thatAkandBkare two matrices of dimension(I× k) and (J × k) such as

(

Ak⊙ Bkis full column rankk,

∀n 6= m, an6= αam, or bn6= βbm

(7)

LetAk+1 = [Ak ak+1] and Bk+1 = [Bk bk+1] such as

rAk+1⊙Bk+1 = k (rank deficient). Combined with the CLO

as-sumption, this implies that∃ n such as :

ak+1⊗ bk+1= γan⊗ bn, γ6= 0, (8)

which, due to proposition 1, is equivalent toak+1= αanand bk+1= βbn. In other words we have proven that ifAk andBkare two matrices of dimension(I× k) and (J × k) such as Ak⊙ Bkis full column rankk and satisfies condition (7) then Ak+1⊙ Bk+1is full column rank iff∀n, ak+1 6= αan, or bk+16= βbn, from which it turns out that condition (7) is also satisfied byAk+1andBk+1. The