Lese ondparadigmed'apprentissagequenousutiliseronsestdûàAngluin[Ang88b ℄.
Dans e adred'apprentissage,l'apprenant doittoujours trouverunlangage iblemais,
pour s'aider, il peut interroger un ora le qui onnaît e langage. Il peut alors poser
des questionsà l'ora le sous forme de diérents types de requêtes et e dernier doit y
répondresansmentir.
L'intera tion ora le-apprenant rappelle alors l'intera tion mère-enfant lorsque e
dernier apprend à parler. En eet, lorsque sa mère lui parle, nous pouvons dire que
l'enfantreçoit desexemples positifs.Demême, sil'enfantessaie defaire desphrasessa
mèrelui dira sisaphraseest orre teou non.
L'apprentissageàpartirderequêtesestalorsintéressantd'unpointdevuepratique.
Par exemple, plutt que de demander à un expert d'étiqueter tout un ensemble de
données, un apprenant pourra lui demander d'étiqueter seulement quelques exemples
qu'ilaura hoisi. Lefaitquel'ora lepuisseêtreunhumainnouspermet de omprendre
quelorsdel'apprentissageàpartirderequêtes, equivavraiment ompterestlenombre
derequêtes que l'apprenant fait.
2.3.1 Les requêtes usuelles
Depuis[Ang88b ℄,denombreux typesde requêtesont étédénis(sous-ensemble,
ex-haustivité,...).Toutefois,beau oupdetravauxamenantàdesrésultatsd'apprenabilité
(et d'inapprenabilité) n'en utilisent seulement que deux : les requêtes d'appartenan e
et ellesd'équivalen e.
Dénition 22 (Requêtes d'appartenan e) Soit
L
une lasse de langages et soit le langage ibleL ∈ L
onnu parl'ora le et que l'apprenant essaie de trouver.Lesrequêtesd'appartenan e,ou membershipqueries(notées mq),permettentà
l'ap-prenant de soumettre un mot
w ∈ Σ∗
à l'ora le. La réponse de elui- i, notéeM q(w)
, est alors :Ouisi
w ∈ L
, Non siw /∈ L
.Dénition 23 (Requêtes d'équivalen e) Soient
L
une lasse de langagesetL ∈ L
lelangage ible onnu par l'ora le que l'apprenant essaie detrouver.
Lesrequêtesd'équivalen e, ou equivalen equeries(notéeseq ), permettentà
l'appre-nantdesoumettreunehypothèse
H
(enfaitunereprésentationdulangageH
)àl'ora le. La réponse de e dernier, notéeEq(H)
, estOuisi
H
est équivalentàL
,un ontre-exemple sinon, 'est-à-dire un mot dela diéren e symétrique
L ⊕ H
. En plus du temps de al ul global de l'apprenant, e qui justie qu'un algorithmeestmeilleur qu'unautre estle nombre total derequêtes ee tuées :
Dénition 24 SoitQuerunensemblederequêtes pouvant êtreutilisées.Une lasse
G
est polynomialementidentiableàpartirdeQuers'ilexisteunalgorithme Alg apable
d'identier haque
G ∈ G
et tel que, à haque appel de requêtes, le nombre total de requêtes ainsi que le temps utilisé jusqu'à et appel par Alg est polynomial enkGk
et enla taille del'information présentée par l'ora le jusqu'à e point.Exemple 19 Prenons une sous- lasse de
S
:S′ = {Sn : n = 9k + 1, ∀k ∈ N}
. Les langages deS′
sont don disjoints deuxà deux et pour toutj ∈ N+
,aj
appartient à un unique langage deS′
:S9∗⌊j/9⌋+1
.Nous allons montrer que
S′
n'est pas apprenable ave un nombre polynomial de
requêtes d'équivalen e et d'appartenan e. La preuve de la non apprenabilité repose sur
une te hnique utilisée par Angluin dans [Ang90℄ : l'ora le est un adversaire jouant le
rled'un ora le malveillant. Il peut avoira ès à l'algorithmedel'apprenant et lefor e
à faire le plus grand nombre de requêtes possibles en maintenant à jour l'ensemble
X
des hypothèses onsistantes ave les données.
Audébut,
X
ontientl'ensembledes langages deS′
.Pour haque requête
d'apparte-nan e
M q(w)
,l'ora lerépondNon .Siw
ontientlalettreb
,au un langagen'estenlevé deX
. Siw = aj, j ∈ N+
, un seullangage est enlevé de
X
(S9∗⌊j/9⌋+1
). Demême, pour haque requête d'équivalen eEq(Sn)
, la réponse de l'ora le est Non éliminant unique-mentSn
deX
.Pour haque requête, un seul langage au maximum est enlevé de
X
, forçant ainsi l'apprenantàfaireunnombreexponentielderequêtes.S′
n'estdon paspolynomialement
apprenable ave des requêtes d'appartenan e et d'équivalen e.
Danslapreuve i-dessus,lesrequêtesd'équivalen equisont faitessontdesrequêtes
dites propres : les langages hypothèses soumis à l'ora le sont des langages pouvant
Souvent,lefaitd'avoirledroitdefairede tellesrequêtespermetune identi ationplus
fa ile:
Exemple 20 Reprenons le langage
Sn= {ai : n ≤ i ≤ n + 9}
et la lasse delangagesS
omprenant tous les langagesSn, ∀n ∈ N+
. Soit l'algorithmesuivant :1. Faire la requête d'équivalen e
Eq{λ}
, soientu
le ontre-exemple etj = |u|
sa longueur.2. Faire la requête d'appartenan e
M q(aj−1)
.3. Si l'ora le répond Oui,
j ← j − 1
puisaller en2. 4. Sinon,retournerSj
.Cet algorithme identiealors à la limite
S
enfaisant au plusune eq et10
mq.Exemple 21 Toujours pour la même lasse de langages,soit l'algorithme suivant:
1. Faire la requête d'équivalen e
Eq(∅)
, soientu
le ontre-exemple etj = |u|
sa longueur.2. Faire la requête d'équivalen e
Eq(Sj−5)
(sij − 5 ≤ 0
,faire la requêteEq(Sj)
). 3. Si l'ora le répond Oui,l'inféren e s'arrête. Sinon, soientu
etv
leplus petit et leplusgrand ontre-exemples retournés par l'ora le.
4. Poser
j = ⌈|u|+|v|2 ⌉
et aller en 2.Cet algorithme identiealors à la limite
S
enfaisant uniquementdes eq .Nouspouvonsnoterunesimilaritéentre etalgorithmeet eluiidentiant
S
entemps Ipepolynomial.Nousverronsparlasuitequelesdeux on eptssontee tivementreliésdans ertaines preuves d'identi ation.
De nombreux résultats et te hniques d'apprentissage utilisant seulement es deux
typesde requêtes ont ététrouvés [Ang01, ASA01, Sak90 ,HPRW96℄. Toutefois, les
re-quêtes d'équivalen e sont rarement utilisables en pratique. En eet, si nousreprenons
l'exemple de lamère et de l'enfant, il esttout àfait on evablequ'un enfant demande
à sa mère si telle ou telle phrase est orre te ( ela orrespondrait à une requête
d'ap-partenan e); enrevan he lesrequêtes d'équivalen e sont plusproblématiques.Eneet,
une requête d'équivalen e reviendrait àune question de l'enfant demandant à samère
s'il onnaîtlefrançais.Question àlaquelleilseraitbiendi ile derépondre.Demême,
en inféren e grammati ale, la question de l'équivalen e entre deux langages n'est pas
toujourspossible.Unmoyende ontourner eproblèmeestalorsd'utiliseruneméthode
dite d'é hantillonnage (ou sampling) [Ang87℄ oùnous remplaçons les eq par un tirage
aléatoires de mots qui servent à poser desrequêtes d'appartenan e. Dans bien des as
2.3.2 Les requêtes de orre tion
Si la requêted'équivalen e est souvent troppuissante et peu naturelle, un
ompor-tement se rappro hant plus de la réalité est le suivant : un enfant pose une question :
Est- e que J'ai vu deux hevals est une phrase orre te?, sa mère, plutt que
de lui répondre uniquement non ( e qui serait le as d'une requête d'appartenan e),
va plutt lui dire quelque hose omme : Non, e n'est pas français. Par ontre, tu
peuxdire J'ai vu deux hevaux.. En eet, l'enfant n'apprend pasuniquement ave
des exemples positifs ou des exemples négatifs, mais aussi à partir de orre tions de
ses phrasesfausses. C'est à partir de e onstat quedes travauxont ommen é surun
nouveau type derequête, les requêtes de orre tion [BBBD05℄:
Dénition 25 (Requêtes de orre tion) Soient
L
une lasse de langages etL ∈ L
lelangage ible onnu par l'ora le que l'apprenant essaie detrouver.
Les requêtes de orre tion permettent à l'apprenant de soumettre un mot
w ∈ Σ∗
à l'ora le. La réponse de elui- i, notéeCq(w)
, est alorsOuisi
w ∈ L
(ouΘ
selon lestravaux), une orre tion dew
relativement àL
sinon.Les requêtesde orre tion ont onnuun rapidesu èset plusieurs travauxont
pro-posésdesmodèles de orre tion diérent :
Dans[BBBD05℄,la orre tion orrespondaupluspetitmot
v
tel quewv ∈ L
.La orre tion estdon baséesur lepréxe.Dans[TK07 ℄,la orre tionestlamêmemaisellebornelalongueurdela orre tion.
Dans[Kin08 ℄,Kinberproposeune orre tionlapluspro hepossibledelarequête
enterme dedistan ed'édition,tellequela orre tionn'ait jamaisétévue,qu'elle
soit sipossible de même longueur,sinon lapluspetite selon l'ordrehiérar hique.
Nous avons proposé dans [BBdlHJT07 ℄ des requêtes de orre tion basées sur la
distan ed'édition.
Dans les deux premiers as, la orre tion est basée sur le préxe. Ce modèle n'est
alors pastrès pertinent du point de vue de la langue naturelle. Dans le troisième as,
les orre tionsdel'ora le sont hoisiesde façon àaider l'apprenant. Lesrelations entre
esvariantes ont étéétudiéesdans[Tir08 ℄.
Les requêtes de orre tion proposées dans [BBdlHJT07 ℄ et basées sur la distan e
d'édition semblent don à la foisplus naturelles et plus pertinentes. C'est elles- i que
nousutiliserons par lasuite :
Dénition 26 (Requêtes de orre tion ( q
Edit
)) Soient
L
une lassedelangages etL ∈ L
lelangage ible onnu par l'ora le que l'apprenant essaie detrouver.Les requêtes de orre tion basées sur la distan e d'édition, ou orre tion queries
( q Edit
),permettent à l'apprenant de soumettre un mot
w ∈ Σ∗
à l'ora le. La réponse de elui- i, notéeCq(w)
, est alorsune orre tion pro he de
w
relativement àL
sinon, 'est-à-dire un motw′
appar-tenantau langage et à distan e d'édition minimum de
w
:Cq(w) = argmin
w′∈L
d(w, w′).
Lorsque plusieurs réponses sont envisageables, l'ora le en hoisit une. De plus, elui- i
est onsistant : même si plusieurs réponses sont possibles pour un mot
w
,Cq(w)
sera toujoursla même orre tion.Exemple 22 Soit
L = {a, b, aa, ab, ba, bb, aaaa, babbab}
un langage ible. La réponse à la requête de orre tion du motab
estCq(ab) =
Oui. Le motbaab
étant à distan e d'édition2
desmotsaa, ab, ba, bb, aaaa
etbabbab
,l'ora le hoisiraunde esmots omme orre tion, par exempleaa
, ettoutes lesréponses aux requêtes dumotbaab
serontalorsCq(baab) = aa
.Exemple 23 Reprenons lelangage
Sn= {ai : n ≤ i ≤ i + 10}
et la lasse delangagesS
omprenant tous les langagesSn, ∀n ∈ N+
. Soit l'algorithmesuivant :1. Faire la requête
Cq(λ)
, soientu
la orre tion etj = |u|
salongueur. 2. RetournerSj
.Cet algorithme identie alors à la limite
S
en faisant une unique requête de or-re tion. En eet, la orre tion obtenue étant la plus pro he possible deλ
, ela ne peut qu'être leplus petit motdu langage ibleSj
, 'est-à-direaj
.Si à la pla e de
λ
nous avions demandé la orre tion d'un motw
et que elui- i appartenait au langage, il surait de demander la orre tion dewa10
. Supposons queak = Cq(wa10)
soit ette orre tion, le langage ible est alorsSk−10
.Dans notre dénition, la orre tion donnée par l'ora le est potentiellement laplus
mauvaise possible pour l'apprenant :si l'ora leestmalveillant,ilpourraitavoir a èsà
l'algorithmed'apprentissage, etproposer,lorsque plusieurssontpossibles,la orre tion
lamoinspertinente dupoint devueapprentissage, 'est-à-dire elleapportant lemoins
d'information(parexempleunmotdontl'apprenantsaitdéjàqu'ilestunexemple
posi-tif).Lorsde l'apprentissage,ilfaudradon toujours s'intéresser aunombre de requêtes
ee tuées danslepire as.
Si nousnous intéressonsmaintenant auxutilisations possiblesdes requêtes de
or-re tion,ilestànoterque ontrairement auxrequêtes d'équivalen e,ellessont bienplus
fa iles à simuler à partir du moment où nous onnaissons le langage ible. De plus,
elles existent déjà dans ertaines appli ations. En eet, sur la plupart des moteurs de
re her he surinternet, lorsque noustaponsdes mots quele moteur ne onnaît pas, ou
lorsqu'ils ne sont pas fréquents, e dernier propose une alternative aux mots- lés que
nousavonstapéspré édéed'unVouliezvousdireouEssayezave l'orthographe.
Demême,lefon tionnementdeprogrammesde orre teursorthographiquetelqu'ispell,