• Aucun résultat trouvé

Densités d’homomorphismes de graphes partiellement étiquetés

2.4 Résultats du Chapitre 4

2.4.2 Densités d’homomorphismes de graphes partiellement étiquetés

Dans cette partie, nous allons étendre la notion de densité d’homomorphismes de graphes à des graphes partiellement étiquetés. Nous nous intéresserons ensuite aux résultats asympto- tiques de mesures aléatoires construites à partir de ces densités d’homomorphismes pour des graphes aléatoires générés à partir d’un graphon.

Notations préliminaires Soit n ∈ N∗ et k ∈ [n]. On définit l’ensemble Sn,k des [n]-mots

de longueur k dont tous les caractères sont distincts, voir (4.7) pour une définition exacte. On a |Sn,k| = Ak

n= n!/(n − k)!.

Homomorphismes de graphes partiellement étiquetés

La notion d’homomorphismes de graphes s’étend de manière naturelle aux graphes par- tiellement étiquetés. Un graphe partiellement étiqueté est un graphe simple fini dont certains de ses sommets sont étiquetés par différents entiers.

Soient F, G ∈ F deux graphes simples tels que V (F ) = [p] et V (G) = [n]. On suppose que n ≥ p > k ≥ 1. Soient ` ∈ Sp,kl’ensemble des k sommets étiquetés de F et α ∈ Sn,kl’ensemble

des k sommets étiquetés de G. On définit l’ensemble Inj(F`, Gα) des homomorphismes injectifs f de F dans G tels que f(`i) = αi pour tout i ∈ [k], ainsi que sa densité :

tinj(F`, Gα) = |Inj(F`, Gα)| Ap−kn−k ·

F

`

G

α `1 `2 α2 α1

Figure 2.5 – Exemple d’homomorphisme injectif pour des graphes partiellement étiquetés..

Remarque. Il est facile de voir, en sommant sur tous les étiquetages de k sommets de G, que l’on a l’égalité suivante :

tinj(F, G) = 1 |Sn,k| X α∈Sn,k tinj(F`, Gα). (2.9)

54

Chapitre 2. Fonctionnelles de graphes aléatoires échantillonnés à partir d’un graphon Une probabilité aléatoire

On définit la probabilité aléatoire ΓF,`n sur ([0, 1], B([0, 1])), où B([0, 1]) est la tribu boré-

lienne sur [0, 1], par : pour tout g ∈ B+([0, 1]) : ΓF,`n (g) = 1 |Sn,k| X α∈Sn,k gtinj(F`, Gαn)  . (2.10)

Remarque. Afin de simplifier les résultats de convergence, la mesure a été définie pour des fonctions g d’une variable mais on peut également la définir pour des fonctions g à d variables avec d ≥ 1 en considérant non plus un seul graphe simple F mais une suite de d graphes simples F = (Fm : 1 ≤ m ≤ d) ∈ Fd. Les résultats multidimensionnels se trouvent dans le

chapitre 4.

Résultats asymptotiques

Nous avons la convergence presque sûre suivante : Théorème C. La suite



ΓF,`n (dx) : n ∈ N∗



de mesures aléatoires sur [0, 1] converge presque sûrement pour la topologie de la convergence étroite de mesures sur [0, 1] vers la probabilité déterministe ΓF,`(dx).

Afin de simplifier la lecture, nous avons choisi de ne pas donner l’expression exacte de la probabilité limite ΓF,` qui s’exprime en fonction des densités d’homomorphismes de graphes partiellement étiquetés dans des graphons (qui sont des généralisations naturelles des densités d’homomorphismes de graphes simples dans des graphons, voir la partie 4.2.3 du chapitre 4

pour une définition précise), voir l’équation (4.42) du chapitre4. En particulier, ce théorème permet d’obtenir les résultats suivants :

• Par le théorème de Portmanteau, on a presque sûrement, pour toute fonction g ∈ C([0, 1]), limn→+∞ΓF,`n (g) = ΓF,`(g).

• Si on prend g = Id dans (2.10), on retrouve la convergence donnée par (2.7) puisque l’on a d’après (2.9) : tinj(F, Gn) = 1 |Sn,k| X α∈Sn,k tinj(F`, Gαn),

et ΓF,`(Id) = t(F, W ), voir remarque4.8 du chapitre4.

• Si on prend g = 1[0,D(y)] avec y ∈ (0, 1) et F = K2 dans (2.10), on a, grâce à l’expression

de ΓF,` donnée dans la remarque4.8du chapitre4, avec • un des sommets de K2, que :

ΓK2,•

n (g) = Πn(y) et ΓK2,•(g) = y.

Si on suppose que D est strictement croissante sur (0, 1) alors le théorèmeCimplique la convergence presque sûre de Πn(y) vers y pour tout y ∈ (0, 1). En utilisant le théorème de Dini, on obtient la convergence presque sûre de Πnvers la fonction identité sur [0, 1]

pour la norme uniforme, voir remarque4.22 du chapitre4.

Nous obtenons également les fluctuations associées à cette convergence presque sûre. Théorème D. Pour toute fonction g ∈ C2([0, 1]), on a la convergence en loi suivante :

nΓF,`n (g) − ΓF,`(g) −−−−−(d)→

n→+∞ N



0, σF,`(g)2, avec σF,`(g)2= Var (UgF,`) et UgF,` définie par l’équation (4.43) du chapitre4.

2.4. Résultats du Chapitre 4 55

Pour g = Id, on retrouve le théorème central limite énoncé par Féray, Méliot et Nikeghbali [84].

Par contre, comme g = 1[0,D(y)] n’appartient pas à l’ensemble C2([0, 1]), on ne peut pas appliquer directement le théorème précédent (avec F = K2 et k = 1) pour obtenir la conver- gence en loi du processus (√n(Πn(y) − y) : y ∈ [0, 1]) vers (χ(y) : y ∈ [0, 1]) donnée dans le

théorème B. C’est pour cette raison que d’autres techniques ont dû être mises en place pour démontrer le théorème B.

Comme corollaire immédiat du théorèmeD énoncé en dimension supérieure, voir le théo- rème 4.11 du chapitre 4, on établit la convergence en lois finies-dimensionnelles (en fait, du processus puisque l’ensemble F est dénombrable) suivante :

Proposition E. On a la convergence en lois finies-dimensionnelles : √

n (tinj(F, Gn) − t(F, W )) : F ∈ F

 (lf d) −−−→

n→∞ Θinj,

où Θinj = (Θinj(F ) : F ∈ F ) est un processus gaussien centré de fonction de covariance Kinj

donnée, pour F, F0 ∈ F , par : Kinj(F, F0) = X q∈V (F ) X q0∈V (F0) t (F ./ F0)(q, q0), W − v(F )v(F0) t(F, W )t(F0, W ).

En particulier, on retrouve le théorème central limite donné par Féray, Méliot et Nikeghbali [84]. Ce dernier résultat nous permet aussi d’obtenir le théorème central limite pour les densités d’homomorphismes de graphes quantiques (voir la convergence (4.52)) et pour les densités d’homomorphismes induits, voir le corollaire4.15du chapitre 4.

2.4.3 Extensions possibles

Convergence du processus du théorème B

Dans le théorème B, nous avons établi la convergence au sens des lois finies dimension- nelles du processus (√n (Πn(y) − y) : y ∈ (0, 1)) vers le processus (χy : y ∈ (0, 1)). On aimerait

pouvoir montrer la convergence du processus pour la topologie de Skorokhod. Pour ce faire, un argument de tension est nécessaire. On pourrait par exemple calculer les moments croi- sés d’ordre 4 du processus. Les techniques développées dans le chapitre 4 devraient pouvoir fonctionner en utilisant des développements d’Edgeworth pour des sommes de vecteurs aléa- toires indépendants de variables de Bernoulli corrélées. Cependant, cette approche semble très technique et il nous apparaît préférable de trouver une méthode alternative.

Résultats asymptotiques pour des FDR empiriques associées à d’autres petits graphes comme les triangles

On pourrait établir un résultat plus général sur les asymptotiques de FDR empiriques associées non plus seulement aux degrés de la suite de W -graphes aléatoires (Gn(W ) : n ∈ N∗), i.e. au graphe complet à deux sommets K2 mais à des graphes simples finis quelconques F .

On pense notamment aux triangles ou aux graphes étoilés à deux arêtes (i.e. un sommet connecté par deux arêtes à deux autres sommets, « two-stars » en anglais). Pour F ∈ F tel que V (F ) = [p] et ` ∈ Sp,k, on pourrait s’intéresser au processus suivant :

  1 |Sn,k| X α∈Sn,k 1{tinj(F`,Gαn)≤tx(F`,W )} : x ∈ (0, 1) k  , où tx(F`, W ) = Etinj F`, G[k]n  (X1, . . . , Xk) = x 

d’après (4.31) et la seconde égalité de (4.37), dans le chapitre 4.

Deuxième partie

CHAPITRE

3

FONCTIONNELLES DE COÛT DE GRANDS ARBRES

ALÉATOIRES (UNIFORMES ET SIMPLEMENT GÉNÉRÉS)

Version non modifiée de l’article [54]

Cost functionals for large (uniform and simply generated) random trees

paru dans Electronic Journal of Probability. Des notes de bas de page ont été ajoutées pour corriger quelques inexactitudes et préciser certaines conventions.

Abstract. Additive tree functionals allow to represent the cost of many divide-and- conquer algorithms. We give an invariance principle for such tree functionals for the Catalan model (random tree uniformly distributed among the full binary ordered trees with given number of nodes) and for simply generated trees (including random tree uniformly distributed among the ordered trees with given number of nodes). In the Catalan model, this relies on the natural embedding of binary trees into the Brownian excursion and then on elementary L2 computations. We recover results first given by Fill and Kapur (2004) and then by Fill and Janson (2009). In the simply generated case, we use convergence of conditioned Galton- Watson trees towards stable Lévy trees, which provides less precise results but leads us to conjecture a different phase transition value between “global” and “local” regimes. We also recover results first given by Janson (2003 and 2016) in the Brownian case and give a gener- alization to the stable case.

3.1

Introduction

Ordered trees have many applications in various fields such as computer science for data structures or in biology for genealogical or phylogenetic trees of extant species. Related to those applications, the study of large trees has attracted some attention. In this paper, we shall consider asymptotics in the global regime for general additive functionals of large trees corresponding to the Catalan model and some simply generated trees. Such additive functionals give indexes of trees which are used in computer science, physics or biology to summarize some properties of trees.

For instance, the total path length P (t) of a tree t, see (3.1) and (3.2) for a precise definition, which sums the distances to the root of all nodes, in the context of binary search trees, counts the number of key comparisons needed by Hoare’s sorting algorithm Quicksort to sort a list of randomly permuted items, see Rösler [172]. Its convergence towards the Airy distribution was first established by Takács [183], see also Aldous [9, 10] and Janson [113] for binary trees under the Catalan model, Régnier [166], Rösler [172] for binary search trees under the random permutation model (RPM) and Fill and Kapur [90, 91] for m-ary search

60

Chapitre 3. Fonctionnelles de coût de grands arbres aléatoires (uniformes et simplement générés) trees.

The Wiener index W (t) of a tree t, see again definitions (3.1) and (3.2) for a precise definition, which sums the distances between all pairs of nodes of t, was introduced by the chemist Wiener [193] in 1947. It was initially defined as the number of bonds between all pairs of atoms in an acyclic molecule. It also plays an important role in physicochemical properties of chemical structures (boiling points, heat of formation, crystal defects, ...), see Dobrynin, Entringera and Gutman [66] or Trinajstic [185], chapter 10. Its asymptotics has been studied by Janson [113] for binary trees under the Catalan model, Neininger [152] for binary search trees under the RPM and recursive trees and Janson [113] for simply generated trees.

The study of additive functionals associated with monomials, that is f (x) = xβ−1 in (3.1) or equivalently bn = nβ in (3.4), with β > 0, is interesting because many usual additive functionals can be expressed in terms of those elementary functionals. Moreover, a phase transition in the limiting behavior appears when β varies, see Fill and Kapur [89], Fill and Janson [88] for uniform binary trees, Neininger [151] for binary search trees under RPM and Fill and Kapur for m-ary trees [90,91].

Additive functionals also appears naturally for the study of phylogenetic trees (rooted binary trees with n labeled leaves corresponding to species and n − 1 internal vertices). When the number of species in studies of phylogenies grows, it can be interesting to look at the shapes of these trees through indices. Among these indices, we can cite the Sackin index S(t) of a tree t, see definition (3.7), introduced in 1972 by Sackin [175] and also studied in computer science for binary search trees (named as external path length), see Régnier [166] and Rösler [172]. Blum, François and Janson [27] studied its asymptotics. We can also consider the Colless index C(t) of a tree t, see definition (3.6), introduced by Colless [50] in 1982. Its asymptotics have also been studied by by Blum, François and Janson [27]. The cophenetic index Co(t) of a tree t was introduced in 2013 by Mir, Rosseló and Rotger [146] and Cardona, Mir and Rosseló [42] who studied its limiting behavior.

We stress that additive functionals in the local regime, such as the total size, the number of leaves, the number of protected nodes, the number of sub-trees or the shape functional (take f (x) = log(x)/x in (3.1) or bn = log(n) in (3.4)) are not covered by our results. See

Wagner [191], Holmgren et Janson [108], Janson [115] and Ralaivaosaona and Wagner [165] for asymptotic results in the local regime.