• Aucun résultat trouvé

Protocole d'évaluation

Dans le document Nuages arborés et analyse textuelle (Page 94-117)

Protocole d'évaluation

Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :

Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives

Partition obtenue en découpant les arêtes les plus longues comparée avec une partition de référence

Protocole d'évaluation

Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :

quelles données ?

Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives

Partition obtenue en découpant les arêtes les plus longues comparée avec une partition de référence

Protocole d'évaluation

Base de données Polymots

Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles

Gala & Rey, TALN'08 http://polymots.lif.univ-mrs.fr

Protocole d'évaluation

Base de données Polymots

Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles

+ partitions sémantiques des familles de 20 mots

(arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,

meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Base de données Polymots

Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles

+ partitions sémantiques des familles de 20 mots

(arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,

meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).

Exemple pour la famille de art :

{ {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur},

{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} }

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre :

nombre d'affixes communs

degré de cooccurrence dans

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique,

artistiquement, artificier, artificiel, artifice,

artificiellement, artillerie, artilleur, art}}

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique,

artistiquement, artificier, artificiel, artifice,

artificiellement},

{artillerie, artilleur, art}}

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

2

Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement, artificier, artificiel, artifice,

artificiellement},

{artillerie, artilleur, art}}

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

2 3

Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement, artificier, artificiel, artifice,

artificiellement}, {artillerie, artilleur}, {art}}

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

3 4

Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice, artificiellement},

{artillerie, artilleur}, {art}}

2

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

3 4

5

Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice, artificiellement},

{artillerie, artilleur}, {art}}

2

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

3 4

5 6

Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice, artificiellement},

{artillerie, artilleur}, {art}}

2

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

3 4

5 6

7

Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice}, {artificiellement},

{artillerie, artilleur}, {art}}

2

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

3 4

5 6

7

Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice}, {artificiellement},

{artillerie, artilleur}, {art}}

2

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

1

3 4

5 6

7

Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice}, {artificiellement},

{artillerie, artilleur}, {art}}

Comparer les partitions !

(indice de Rand, Rand corrigé) 2

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice}, {artificiellement},

{artillerie, artilleur}, {art}}

Comparer les partitions !

(indice de Rand, Rand corrigé)

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice}, {artificiellement},

{artillerie, artilleur}, {art}}

rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

Idée :

Construire une représentation arborée des mots de la famille

Découper les k arêtes les plus longues de l'arbre pour obtenir Pk

La partition obtenue est-elle proche de la partition “manuelle” ?

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}

Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,

artistiquement},

{artificier, artificiel, artifice, artificiellement},

{artillerie, artilleur}, {art}}

rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894

Gala, Hathout, Nasr, Rey, Seppälä, TALN'11

Protocole d'évaluation

ensemble de mots

partition manuelle

matrice de distances

arbre

formule 1 formule 2 formule 3

réévaluation des longueurs d'arêtes

arbre 1 arbre 2 arbre 3

découpage de l'arbre par longueur d'arête décroissante partition 1 partition 2 partition 3

score 1 score 2 score 3

comparaison de la meilleure partition parmi P0, P1, P2...

triples length

Ratio quartets cooccurrence dans le TLFI + affixes communs

méthodes NJ, UPGMA

• Interprétation visuelle

• Formules de longueurs d'arêtes

• Protocole d'évaluation

• Résultats

• Visualisations

• Perspectives

Calcul des longueurs d'arêtes

arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne 0

0,2 0,4 0,6 0,8 1

1,2 triples

lengthRatio computedLength agreementPairs quartets

arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne 0

0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

1 triples

lengthRatio computedLength agreementPairs quartets

Dans le document Nuages arborés et analyse textuelle (Page 94-117)

Documents relatifs