• Aucun résultat trouvé

H(A−i,k|Ak, Sk(ai)) + log2χi− κI(S0; Vk)A

< 0 (4.26)

La démonstration de ce théorème se trouve en Annexe D, Section D.2.

4.4 Application aux jeux répétés

Considérons le dilemme du prisonnier répété avec matrice de paiements donné dans le Ta-bleau 4.2. Nous avons donc |A| = 4, et nous fixons |S0| = |Vk| = 3, k = 1, 2. Notre but est de voir quelles sont les stratégies mixtes compatibles avec la contrainte d’information (4.18). Pour simplifier, nous supposons κ = 1 (ou de manière équivalente n = m).

L R

T (3, 3) (0, 4)

B (4, 0) (1, 1)

Tableau 4.2 – Matrice de paiements du Dilemme du prisonnier.

a1 a1 a2 a2 s2 s2 s1 s1 1− δ 2 1− δ 2 1− δ2 1− δ 2 δ 2 δ 2 T

Figure 4.3 – Structure d’observation privée T qui dépend du paramètre δ ∈ [0, 1]. Deux

signaux privés s1 et s

1 sont observés par l’Agent 1 avec une certaine probabilité conditionnelle

par rapport aux deux actions de l’Agent 2 a2 et a

2. Il en est de même pour s2 et s

2pour l’Agent

2.

Dans l’esprit de [60], nous considérons la même structure d’observation T décrite en Figure

4.3: avec probabilité 1−δ

2, δ ∈ [0; 1], l’Agent k, k = 1, 2, observe le bon signal sket avec probabi-lité δ

2 il observe le mauvais signal s

k. Dans cette configuration, les deux structures d’observation (celles de chaque agent) sont orthogonales.

4.5. Conclusion du chapitre Pour la partie canal de diffusion, nous considérons la structure d’observation décrite en Figure

4.4 : avec probabilité 1 − α

2, α ∈ [0; 1], l’Agent k, k = 1, 2, reçoit la bonne sortie du canal, avec probabilité α

2 il reçoit la mauvaise sortie du canal, et ne reçoit pas la troisième sortie (probabilité 0). Dans cette configuration, les deux structures d’observation sont également orthogonales.

s′′0 s0 s0 vk′′ vk vk 1−α2 1−α2 α 2 1−α2 α 2 α 2 TC

Figure 4.4 – Structure du canal de diffusion TC qui dépend du paramètre α ∈ [0, 1].

Dans ce contexte, la contrainte d’information (4.24) peut être réécrite de manière à être

uti-lisée pour des simulations. Cette formulation est explicitée en Section D.3 de l’AnnexeD.

Nous considérons ici trois valeurs pour le paramètre δ : δ ∈ {0.2, 0.31, 0.35, 1}. Pour le para-mètre du canal de diffusion, nous prenons α = 0.01. Nous comparons les régions d’utilité obtenues avec la contrainte d’information (4.24) et celle obtenue dans [60], qui est :

max

i∈K, ai∈Ai

J max

k∈K H(A−i,k|Sk(ai), Ak) + log2χi

K

− log2|S0| < 0 (4.27)

La comparaison est faite en Figure 4.5.

Nous voyons que les régions d’utilité avec la contrainte (4.24) sont plus petites que celles avec la contrainte (4.27), qui est une condition moins restrictive. Le fait d’avoir un bruit sur le canal de diffusion réduit la taille des régions d’utilité.

4.5 Conclusion du chapitre

Nous avons étudié ici un jeu muni d’une structure d’information arbitraire, où chaque agent reçoit un signal privé via une structure d’observation fixée ainsi qu’un signal additionnel privé via l’ajout d’un encodeur qui utilise un canal de diffusion. L’encodeur observe lui parfaitement les actions passées de tous les agents. L’encodeur aide à la reconstruction de l’observation parfaite pour tous les agents. Nous avons étendu les résultats de [60].

D’autres extensions peuvent être considérées, comme par exemple rétablir la condition « 2-connected observation graph », qui est moins restrictive que la condition d’observation parfaite. Considérer des déviations de plusieurs agents et non d’un unique agent, et étudier l’ensemble des équilibres forts du jeu répété est une extension à étudier avec le formalisme mis en place dans ce chapitre. Nous pouvons également penser à enlever l’hypothèse d’orthogonalité entre le canal

d’observation T et le canal de diffusion additionnel TC, et supposer par exemple que chaque agent

ne reçoit qu’un seul et unique signal privé qui dépend à la fois du canal d’observation fixé et des choix de l’encodeur. Enfin, une des extensions possibles serait de considérer des stratégies de

comportement pour les agents. C’est-à-dire que les éléments des séquences d’actions an

k, k ∈ K, seront dépendants les uns des autres.

Figure 4.5 – Comparaison des régions d’utilités entre la contrainte d’information (4.24) (en rouge) et la contrainte (4.27) (en bleu) pour les valeurs des paramètres δ ∈ {0.2, 0.31, 0.35, 1} et α = 0.01. L’enveloppe convexe des utilités possibles est en verte. Les traits noirs représentent les niveaux minmax.

Chapitre 5

Conclusion et perspectives

« Nobody ever figures out what life is all about, and it doesn’t matter. Explore the world. Nearly everything is really interesting if you go into it deeply enough. »

– Richard P. Feynman.

Le but principal de cette thèse était l’étude de différentes structures d’information et des moyens d’optimiser l’utilisation des ressources d’information en fonction de ces structures. Pour cela, plusieurs modèles ont été étudiés : un modèle à deux agents, intérêts communs et commu-nication coûteuse ; un modèle à deux agents, intérêts divergents et commucommu-nication sans coût ; ainsi qu’un modèle avec un nombre d’agents quelconques où l’essentiel pour les agents est d’avoir l’observation parfaite des actions passées des autres agents. Dans ces modèles, nous avons sup-posé une asymétrie d’information : un agent a de l’information sur l’état du système qu’un autre agent n’a pas. Nous avons donc caractérisé, pour ces modèles, la manière optimale de coordon-ner les différents agents du système. Pour cela, nous avons utilisé des outils de la théorie de l’information et en particulier nous avons fait du codage de source. En plus du challenge théo-rique de ces problèmes, nous avons appliqué nos résultats à des cas pratiques de communication sans fil, notamment au problème de contrôle de puissance. Notre nouvelle approche, le contrôle de puissance codé, est complètement générale et nous montrons qu’elle permet d’obtenir le bon compromis entre transmission d’information et maximisation de l’utilité. Elle apparaît comme très prometteuse par rapport à des algorithmes classiques utilisés jusqu’alors.

Nous avons également développé une application aux réseaux de véhicules électriques. Notre approche sur un modèle de base permet de bien comprendre les enjeux et amène des pistes de réflexion pour une gestion intelligente de l’information dans ces réseaux.

Ces modèles sont relativement simples mais sont essentiels à la compréhension des méca-nismes d’optimisation des ressources de communication, et permettent d’avoir une vision de base pour étudier des modèles plus généraux. En effet, en plus d’amener une nouvelle approche de résolution de problème d’optimisation et de théorie des jeux via des outils de théorie de l’in-formation, cela permet de penser d’une manière différente les algorithmes et codes qui seront implémentés en pratique pour des problèmes de communication sans fil.

Les perspectives de cette thèse sont d’étudier des modèles plus généraux pour pouvoir se rapprocher au mieux de modèles pratiques réalistes et renforcer un peu plus les liens entre deux des théories scientifiques les plus importantes de ces dernières décennies. Nous pouvons par exemple considérer les extensions suivantes :

• Augmenter le nombre d’agents pour les modèles des chapitres 2 et 3 paraît essentiel. En

augmentant ce nombre, il faudra redéfinir l’asymétrie d’information et préciser la connais-sance qu’ont les agents sur l’état du réseau ;

• Pour les modèles avec deux agents puis dans un deuxième temps pour des modèles à K ∈ N agents, nous pouvons supposer que chaque agent possède une information partielle sur l’état du système et étudier une structure d’information bidirectionnelle. Le modèle de théorie de l’information de Shannon [80] ainsi que les modèles de théorie des jeux [73],[77],[7] ou [9] pourront servir de base de travail ;

• Nous pouvons également considérer un modèle avec un espion et caractériser la nouvelle contrainte qui permettra d’être robuste à l’espionnage ;

• Ajouter plusieurs phases de communication plutôt que l’envoi d’un unique message pourra également être une extension à considérer. Ceci permettra de réduire au moins partiellement le biais entre les utilités des agents ;

• Enfin, passer d’espaces discrets à des espaces continus est un axe de travail qui est à l’étude et qui donnera lieu à une soumission à la conférence de contrôle européenne (ECC 2015). Le passage du discret au continu doit être fait avec attention, à commencer par la définition des entropies différentielles. Cet article permet de faire le lien entre discret et continu. Nous appliquons de plus ces résultats au problème bien connu de Witsenhausen.

D’un point de vue pratique, en plus des applications en communication sans fil et aux Smart Grids correspondant aux extensions théoriques ci-dessus, nous pensons qu’il est possible d’appliquer ces modèles à d’autres contextes notamment pour la transmission d’information en économie ou au sein d’une entreprise pour optimiser la gestion de l’information. En conclusion, nous pouvons affirmer que ce domaine qui regroupe des problèmes à la croisée de deux théories n’en est qu’à ses débuts et est très prometteur.

Annexe A

Théorie de l’information

« You should call it entropy, for two reasons. In the first place your uncertainty func-tion has been used in statistical mechanics under that name, so it already has a name. In the second place, and more important, no one really knows what entropy really is, so in a debate you will always have the advantage. »

– Suggestion de John von Neumann à Claude Shannon à propos du nom à donner à sa nouvelle « mesure d’incertitude », Scientific American 224, (September 1971).

A.1 Définitions et propositions de base

Avant d’aller dans les notions propres à la théorie de l’information, nous faisons un détour par la théorie des probabilités et définissons les notions suivantes :

Définition A.1 (Distance totale de variation). La distance de variation totale entre deux

dis-tributions de probabilité P et Q définies sur un ensemble X est la moitié de la distance L1 entre

ces deux distributions, définie par :

||P − Q||V T !#

x∈X

1

2|P (x) − Q(x)| (A.1)

Définition A.2 (Distance de Hamming). Soit A un alphabet et F l’ensemble des suites de

longueur n à valeur dans A. La distance de Hamming dH entre deux éléments a = (ai)1≤i≤n et

b = (bi)1≤i≤n de F est le nombre d’éléments de l’ensemble des images de a qui diffèrent de celle de b :

Nous commençons donc maintenant la théorie de l’information à proprement parlé et définis-sons les notions d’Entropie, d’Entropie Conditionnelle, ainsi que certaines propositions de bases sur ces notions :

Définition A.3 (Entropie). L’entropie d’une variable aléatoire Z de distribution de probabilité

Q sur l’ensemble fini Z est notée HQ(Z) ou H(Z) s’il n’y a pas d’ambiguïté sur la distribution

de probabilité considérée, et est définie par :

HQ(Z) = H(Z)! −#

z∈Z

Q(z) log2Q(z). (A.3)

Définition A.4 (Entropie conditionnelle). L’entropie conditionnelle d’une variable aléatoire Z

par rapport à une variable aléatoire Y lorsque ces deux variables ont pour distribution conjointe de probabilité Q sur (Y × Z) est notée HQY Z(Z|Y ) ou H(Z|Y ) s’il n’y a pas d’ambiguïté sur la distribution de probabilité considérée, et est définie par :

HQ(Z|Y ) = H(Z|Y ) ! − #

(y,z)∈(Y×Z)

Q(y, z) log2 Q Q(y, z)

z′∈ZQ(y, z). (A.4)

L’entropie mesure l’incertitude d’une variable aléatoire, et l’entropie conditionnelle mesure l’incertitude d’une variable aléatoire en tenant compte de la connaissance d’une autre variable aléatoire (possiblement corrélée à la première). Cette mesure est bornée comme le montre la proposition suivante :

Proposition A.5 (Borne sur l’entropie). Pour toute variable aléatoire Z prenant ses valeurs

dans l’ensemble fini Z :

0≤ H(Z) ≤ log2 |Z| (A.5)

Une des propriétés de base qui lie l’entropie et l’entropie conditionnelle est la suivante :

Proposition A.6 (Règle de chaîne pour l’entropie). Pour une distribution conjointe Q sur (Y ×

Z) et la distribution marginale QY !Qz∈ZQ(y, z), l’équation suivante est toujours vérifiée :

HQ(Y, Z) = HQY(Y ) + HQ(Z|Y ) (A.6)

L’entropie et l’entropie conditionnelle sont aussi liées par la notion d’information mutuelle :

Définition A.7 (Information mutuelle). L’information mutuelle entre deux variables aléatoires

Y et Z lorsque ces deux variables ont pour distribution conjointe de probabilité Q sur (Y × Z) est notée IQ(Y ; Z) ou I(Y ; Z) s’il n’y a pas d’ambiguïté sur la distribution de probabilité considérée, et est définie par :

IQ(Y ; Z)! #

(y,z)∈(Y×Z)

Q(y, z)· log2

Q(y, z) Q

A.1. Définitions et propositions de base L’information mutuelle est une mesure de corrélation moyenne entre deux variables aléatoires ayant une certaine distribution conjointe de probabilité. Les notions d’entropie et d’information mutuelle sont connectées via la proposition suivante :

Proposition A.8 (Information mutuelle et entropie).

IQ(Y ; Z) = HQY(Y )− HQ(Y|Z) (A.8)

= HQZ(Z)− HQ(Z|Y ) (A.9)

= HQY(Y ) + HQZ(Z)− HQ(Y, Z) (A.10)

L’information mutuelle a la propriété d’être toujours positive (pour des variables aléatoires discrètes), ce qui nous amène à la proposition suivante :

Proposition A.9 (Le conditionnement réduit l’entropie).

IQ(Y ; Z)≥ 0 ⇔ HQ(Y|Z) ≤ HQY(Y ) (A.11)

Nous avons aussi la notion d’information mutuelle conditionnelle :

Définition A.10 (Information mutuelle conditionnelle). L’information mutuelle conditionnelle

entre deux variables aléatoires Y et Z conditionnellement à une troisième variable X lorsque ces trois variables ont pour distribution conjointe de probabilité Q sur (X × Y × Z) est notée IQ(Y ; Z|X) ou I(Y ; Z|X) s’il n’y a pas d’ambiguïté sur la distribution de probabilité considérée, et est définie par :

IQ(Y ; Z|X) ! # (x,y,z)∈(X ×Y×Z) Q(x, y, z)· log2 Q(x, y, z)· QX(x) Q z′∈ZQ(x, y, zQy′∈YQ(x, y, z) (A.12) avec QX(x)! # (y,z)∈(Y×Z) Q(x, y, z) (A.13)

Ainsi qu’une règle de chaîne pour l’information mutuelle :

Proposition A.11 (Règle de chaîne pour l’information mutuelle).

IQ(Y ; Z, X) = IQY Z(Y ; Z) + IQ(Y ; Z|X) (A.14)

Une dernière proposition utile dans les démonstrations réciproques notamment, est la sui-vante :

Proposition A.12 (Inégalité de traitement des données ou « Data-processing inequality » ).

Soit X, Y et Z trois variables aléatoires qui vérifient la chaîne de Markov

X→ Y → Z (A.15)

Alors l’inégalité suivante est vérifiée :