• Aucun résultat trouvé

pre de Floquet de la dynamique de population, avec la contrainte que le taux de croissance de la population de cellules saines reste au dessus d’un seuil de toxicit´e donn´e. Le but est de trouver des programmes de chimioth´erapie p´eriodiques qui sont viables sur le long terme et efficaces dans la lutte contre le cancer. Quand nous discr´etisons le probl`eme, les valeurs propres de Floquet sont approch´ees par les valeurs propres de Perron de matrices positives creuses. Nous avons mis en place une m´ethode des multiplicateurs pour l’optimisation locale des taux de croissance, qui profite d’une propri´et´e de petit rang du gradient de la valeur propre de Perron. L’algorithme d’optimisation de la valeur propre s’appuie sur l’algorithme d´evelopp´e dans le chapitre 7. Nous avons calcul´e le gradient de la fonction objectif en jeu. Nous avons impl´ement´e la m´ethode des multiplicateurs pour r´esoudre le probl`eme, o`u les probl`emes d’optimisation non contraints internes sont r´esolus par l’algorithme couplant les it´erations puissance et gradient.

1.8

Organisation

Dans le chapitre 2, nous pr´esentons les r´esultats ant´erieurs pour l’optimisation du PageRank et quelques algorithmes de classement de pages utilisant la structure d’hyperliens du web.

Dans le chapitre 3, nous donnons des r´esultats nouveaux sur la r´esolution effective des probl`emes de d´ecision markoviens bien d´ecrits avec un nombre d’actions qui peut ˆetre expo- nentiel ou des espaces d’actions convexes. Le th´eor`eme 3.1 a ´et´e publi´e dans [FABG13].

Dans le chapitre 4, nous montrons que le probl`eme d’optimisation du PageRank peut ˆetre r´esolu en temps polynomial en le r´eduisant `a un probl`eme de coˆut moyen esp´er´e en horizon infini sur un processus de d´ecision markovien bien d´ecrit. Nous donnons un algorithme tr`es efficace pour r´esoudre le probl`eme d’optimisation : nous montrons qu’optimiser le PageRank n’est pas fondamentalement plus difficile que le calculer. Ensuite, nous traitons des probl`emes avec des contraintes qui couplent le comportement de plusieurs pages. Ce chapitre suit les lignes de [FABG13].

Dans le chapitre 5, nous nous appuyons sur nos r´esultats sur l’optimisation du PageRank pour d´evelopper un nouvel algorithme de classement appel´e MaxRank fait pour combattre le spam de liens.

Dans le chapitre 6, nous ´etudions la convergence de l’algorithme HOTS de Tomlin. Ces r´esultats ont ´et´e soumis dans [Fer12a].

Dans le chapitre 7, nous ´etudions les probl`emes d’optimisation de la valeur propre et du vecteur propre de Perron. Nous donnons un algorithme efficace pour le calcul de la matrice des d´eriv´ees partielles du crit`ere, qui utilise la propri´et´e de petit rang de cette matrice. Nous donnons un algorithme qui passe `a l’´echelle qui couple les it´erations gradient et puissance et donne un minimum local du probl`eme d’optimisation du vecteur de Perron. Nous prouvons la convergence en le consid´erant comme une m´ethode de gradient approch´e. Nous appliquons ensuite ces r´esultats `a l’optimisation de HITS de Kleinberg et HOTS de Tomlin. Ces r´esultats ont ´et´e soumis dans [Fer12b].

Dans le chapitre 8, nous pr´esentons une autre application de l’optimisation de la valeur propre de Perron `a la chimioth´erapie. Ce travail a ´et´e publi´e dans [BCF+11a, BCF+11b,

CHAPTER

2

Web ranking and (nonlinear) Perron

Frobenius theory

2.1

Google’s PageRank

One of the main ranking methods relies on the PageRank introduced by Brin and Page [BP98]. It is defined as the invariant measure of a walk made by a random surfer on the web graph. When reading a given page, the surfer either selects a link from the current page (with a uniform probability), and moves to the page pointed by that link, or interrupts his current search, and then moves to an arbitrary page, which is selected according to given “zapping” probabilities. The rank of a page is defined as its frequency of visit by the random surfer. It is interpreted as the “popularity” of the page.

The PageRank has motivated a number of works, dealing in particular with computational issues. Classically, the PageRank vector is computed by the power algorithm [BP98]. There has been a considerable work on designing new, more efficient approaches for its computa- tion [Ber05, LM06]: Gauss-Seidel method [ANTT02], aggregation/disaggregation [LM06] or distributed randomized algorithms [NP09, IT10, ITB12]. Other active fields are the develop- ment of new ranking algorithms [BRR05] or the study of the web graph [BL04].

We recall here the basic elements of the Google PageRank computation. We call web graph the directed graph with a node per web page and an arc from page i to page j if page i contains a hyperlink to page j. We identify the set of pages to [n] :={1, . . . , n}.

34 Chapter 2. Web ranking and (nonlinear) Perron Frobenius theory all i∈ [n], meaning that every page has at least one outlink. Then, we construct the n × n stochastic matrix S, which is such that

Si,j =

(

Ni−1 if page j is pointed to from page i

0 otherwise (2.1)

This is the transition matrix of a Markov chain modeling the behavior of a surfer choosing a link at random, uniformly among the ones included in the current page and moving to the page pointed by this link. The matrix S only depends of the web graph.

We also fix a row vector z ∈ Rn

+, the zapping or teleportation vector, which must be

stochastic (so, P

j∈[n]zj = 1), together with a damping factor α∈ [0, 1] and define the new

stochastic matrix

P = αS + (1− α)ez (2.2)

where e is the (column) vector in Rnwith all entries equal to 1.

Consider now a Markov chain (Xt)t≥0 with transition matrix P , so that for all i, j ∈ [n],

P(Xt+1 = j|Xt= i) = Pi,j. Then, Xt represents the position of a websurfer at time t: when

at page i, the websurfer continues his current exploration of the web with probability α and moves to the next page by following the links included in page i, as above, or with probability 1− α, stops his current exploration and then teleports to page j with probability zj.

When some page i has no outlink, Ni= 0, and so the entries of the ith row of the matrix

S cannot be defined according to (2.1). Then, we set Si,j := zj. In other words, when visiting

a page without any outlink, the websurfer interrupts its current exploration and teleports to page j again with probability zj. It is also possible to define another probability vector Z

(different from z) for the teleportation from these “dangling nodes”.

The PageRank π is defined as the invariant measure of the Markov chain (Xt)t≥0 repre-

senting the behavior of the websurfer. This invariant measure is unique if α < 1, or if P is irreducible.

Typically, one takes α = 0.85, meaning that at each step, a websurfer interrupts his current search with probability 0.15 ≃ 1/7. The advantages of the introduction of the damping factor and of the teleportation vector are well known. First, it guarantees that the power algorithm converges to the PageRank with a geometric rate α independent of the size (and other characteristics) of the web graph. In addition, the teleportation vector may be used to “tune” the PageRank if necessary. By default, z = eT/n is the uniform stochastic vector. We will assume in the sequel that α < 1 and zj > 0 for all j ∈ [n], so that P is irreducible.

The graph on Figure 2.1 represents a fragment of the web graph. We obtained the graph by performing a crawl of our laboratory with 1500 pages. We set the teleportation vector in such a way that the 5 surrounding institutional pages are dominant. The teleportation probabilities to these pages were taken to be proportional to the PageRank (we used the Google Toolbar, which gives a rough indication of the PageRank, on a logarithmic scale). After running the PageRank algorithm on this graph, we found that within the controlled site, the main page of this author has the biggest PageRank (consistently with the results provided by Google search).

Documents relatifs