• Aucun résultat trouvé

1.8 Diagrammes récapitulatifs

2.1.1 Probablement Approximativement Correct

2.1.3 Identification à la limite avec probabilité 1 . . . 44

2.2 Algorithmes d’apprentissage . . . . 45

2.2.1 Méthodes itératives . . . 45 2.2.2 Méthodes par fusion d’états . . . 46 2.2.2.1 Algorithmes pour les PDFA . . . 47 2.2.2.2 Extension aux autres familles de langages stochas-

tiques . . . 48 2.2.3 Méthode des moments . . . 50 2.2.3.1 Décomposition de faible rang . . . 50 2.2.3.2 Optimisation convexe . . . 53 2.2.3.3 Décomposition en matrices non-négatives . . . 55 2.2.3.4 Modèles à opérateurs jointement factorisés . . . 56 2.2.3.5 Autres modèles . . . 58 2.2.3.6 Initialisation d’algorithmes itératifs . . . 58

Ce chapitre est dédié à l’inférence de séries formelles rationnelles et commence par présenter différents modèles d’apprentissage. Parmi eux, le modèle Probably Approximately Correct (PAC) est le plus adapté à l’apprentissage. En effet, il définit à la fois des contraintes sur la complexité temporelle et sur le nombre d’échantillons. Cependant, dans sa formulation première, même les familles simples de langages stochastiques ne sont pas apprenables.

Bien que les autres modèles d’apprentissage présentés sont moins adaptés à l’apprentissage, ils définissent des conditions nécessaires à la satisfaction du modèle PAC. Des résultats positifs et négatifs dans ces modèles ont été établis pour l’inférence de certains sous-ensembles de langages stochastiques. Ces résultats permettent de cerner quels types de langages stochastiques sont apprenables dans un modèle PAC relâché, ou pseudo-PAC.

En effet, une fois plusieurs contraintes relâchées, le modèle PAC permet d’établir des résultats positifs pour les langages stochastiques rationnels tout en restant intéres- sant d’un point de vue pratique. Ainsi, l’obtention d’algorithmes pour l’inférence de familles riches de langages stochastiques satisfaisant le modèle pseudo-PAC est une des motivations principales de cette thèse. En conclusion, on verra qu’autoriser un appren- tissage impropre permet d’obtenir des garanties PAC pour les langages stochastiques rationnels. Cependant, un apprentissage impropre peut être problématique pour les applications qui nécessitent de vraies distributions. Par exemple, utiliser en planifica- tion une mesure non borné comme noyau de transition peut faire diverger l’algorithme d’itération de la valeur.

En deuxième partie, on propose de revoir les algorithmes d’inférence existants en les classant en trois grandes familles : les méthodes itératives, les méthodes par fusion d’états et les algorithmes issus de la Méthode des Moments ou, Method of Moments (MoM). On s’intéresse en particulier à la MoM dont sont issus les algorithmes présentés dans cette thèse.

2.1

Modèles d’apprentissage

Les modèles d’apprentissage consistent en des cadres théoriques que doivent respecter des algorithmes d’inférence. Ils définissent certains bons comportements que doit avoir l’algorithme.. Obtenir des algorithmes satisfaisant ces contraintes, comparé à de bonnes performances empiriques, n’est pas une fin en soi. En effet, on observe que les bornes théoriques sur l’erreur sont souvent trop pessimistes. Néanmoins, ces modèles témoignent des capacités de généralisation des algorithmes. Il existe dans la littérature des modèles d’apprentissage plus ou moins restrictifs. Dans un modèle trop restrictif, les problèmes d’inférence compliqués risquent ne pas avoir de solution algorithmique. Au contraire, un modèle trop laxiste ne se traduira pas en algorithmes efficaces et performants dans les applications pratiques. En fonction de la richesse du type de langages stochastiques, on relâchera certaines contraintes afin d’obtenir des garanties.

2.1.1

Probablement Approximativement Correct

Dans le modèle PAC de Valiant [1984], un algorithme apprend un concept à partir d’un nombre fini d’exemples tirés aléatoirement, et doit retourner, dans la plupart des cas, une hypothèse proche du concept. On note D l’ensemble des distributions définissant le type de langages stochastiques que l’on souhaite apprendre. Dans notre cas, on étudie des sous-ensembles de langages stochastiques comme Srat

K (Σ), S

[[Res]] IR+ (Σ)

ou encore SIRRes+(Σ). On note SN, un ensemble de N mots tirés aléatoirement selon

la distribution p ∈ D. L’ensemble d’hypothèses, noté H, forme la classe des modèles retournés par l’algorithme A, par exemple les PNFA, les PRFA ou encore les PDFA. La qualité de l’hypothèse M ∈ H retournée par A est mesurée par la distance ou divergence, d(pM, p), entre le langage stochastique p et la série formelle réalisée par M . Définition 46 (Modèle d’apprentissage PAC pour les langages stochastiques).

Un ensemble de distributions D est efficacement apprenable par A dans le modèle PAC, si pour tout  > 0 et tout 1 ≥ δ ≥ 0, il existe N0 ∈ IN, tel que pour tout

N ≥ N0, l’algorithme A retourne une hypothèse M calculée à partir d’un ensemble DN d’exemples tirés selon p ∈ D vérifiant

P (d(pM, p) ≤ ) ≥ 1 − δ,

sous la contrainte que A s’exécute un temps t(−1, δ−1, |Σ| , |H|) et que le nombre d’exemples soit supérieur à N0 = s(−1, δ−1, |Σ| , |H|), où s et t sont des polynômes.

Ci-dessus, |H| indique une mesure de complexité de la classe H, par exemple, le nombre d’états de l’automate.

Historiquement, D décrit l’ensemble des distributions sur Σl et la définition des

polynômes t et s est étendue pour dépendre de l. Les travaux plus récents étudient le cas plus difficile où D décrit l’ensemble des distributions sur Σ?.

Le choix de la distance d est primordiale pour obtenir une analyse pertinente. Par exemple, la distance `définie par `(p, q) = maxu∈Σ?|p(u) − q(u)| est trop

permissive. Elle permet à un algorithme apprenant par cœur en construisant l’arbre des préfixes de montrer que S(Σ) est apprenable dans le modèle PAC [Esposito, 2004]. Lorsque la divergence Kullback-Leibler (KL) [Kullback et Leibler, 1951] est utilisée on qualifiera le modèle par KL-PAC et par extension `p-PAC pour la distances `p. La

divergence KL apparait comme étant la plus restrictive car elle borne de nombreuses distances sur les distributions, tout en étant elle-même non bornée.

On termine par la définition de quelques propriétés que posséder le modèle PAC.

Définition 47 (Modèle PAC distribution-free).

On qualifie le modèle PAC de distribution-free lorsque l’on ne fait aucune hypothèse sur la distribution ayant généré les exemples servant à l’apprentissage. Dans ce cas, on contrôle l’erreur de l’hypothèse apprise M à la meilleure hypothèse Mopt =

argminMopt∈Hd(pMopt, p) au travers de la relation

Pd(pM, p) − d(pMopt, p) ≤  

≥ 1 − δ.

On note PH les distributions réalisées par l’ensemble d’hypothèses H.

Définition 48 (Apprentissage propre ou impropre).

Si PH = D, on qualifie l’apprentissage de propre. À l’inverse, si D ( PH l’apprentissage

est impropre. On dira alors que D est PAC-apprenable par H.

On remarque que si PH ( D, alors à part dans le modèle distribution-free, aucun algorithme ne peut avoir de garanties PAC.

Le modèle PAC distribution-free a été étudié pour l’inférence de PNFA par Abe et Warmuth [1990]. Dans leur travail, ils considèrent l’inférence des paramètres de PNFA quand la structure est donnée. Sous l’hypothèse que RP 6= NP, Abe et Warmuth [1990] montrent que la complexité temporelle d’un algorithme ne peut pas être polynomiale dans le modèle KL-PAC pour les PNFA à deux états, bien qu’un nombre polynomial d’exemples soit suffisant. En d’autres termes, les PNFA ne peuvent

pas approximer toutes les distributions. Plus tard, Kearns et collab. [1994] ont mis de côté l’aspect distribution-free pour définir un modèle pour les PDFA en supposant que D = SRes

IR+(Σ). Même dans ce modèle simplifié, ils prouvent que S

Res

IR+(Σ) n’est pas KL-PAC-apprenable par réduction à l’inférence de fonction de parité en présence de bruit uniforme. L’identification de fonctions de parité bruitées est reconnue difficile en cryptographie. En effet, seuls des algorithmes super-polynomiaux sont connus pour ce problème. Ce résultat a été étendu au modèle `1-PAC dans la thèse de Guttman [2006]. De plus, l’auteur montre que la réduction à l’inférence de fonction de parité ne s’applique pas dans les modèles `p-PAC pour p ≥ 1. C’est pourquoi, dans la suite,

on s’intéresse principalement à la divergence KL et à la distance `1. Les travaux précédemment cités considèrent uniquement les distributions sur Σlmais leurs résultats

se généralisent directement aux distributions sur Σ?.

Documents relatifs