Protocole d'évaluation
Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :
Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives
Partition obtenue en découpant les arêtes les plus longues comparée avec une partition de référence
Protocole d'évaluation
Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :
quelles données ?
Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives
Partition obtenue en découpant les arêtes les plus longues comparée avec une partition de référence
Protocole d'évaluation
Base de données Polymots
Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles
Gala & Rey, TALN'08 http://polymots.lif.univ-mrs.fr
Protocole d'évaluation
Base de données Polymots
Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles
+ partitions sémantiques des familles de 20 mots
(arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Base de données Polymots
Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles
+ partitions sémantiques des familles de 20 mots
(arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).
Exemple pour la famille de art :
{ {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} }
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre :
• nombre d'affixes communs
• degré de cooccurrence dans
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique,
artistiquement, artificier, artificiel, artifice,
artificiellement, artillerie, artilleur, art}}
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique,
artistiquement, artificier, artificiel, artifice,
artificiellement},
{artillerie, artilleur, art}}
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
2
Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement, artificier, artificiel, artifice,
artificiellement},
{artillerie, artilleur, art}}
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
2 3
Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement, artificier, artificiel, artifice,
artificiellement}, {artillerie, artilleur}, {art}}
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
3 4
Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice, artificiellement},
{artillerie, artilleur}, {art}}
2
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
3 4
5
Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice, artificiellement},
{artillerie, artilleur}, {art}}
2
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
3 4
5 6
Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice, artificiellement},
{artillerie, artilleur}, {art}}
2
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
3 4
5 6
7
Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice}, {artificiellement},
{artillerie, artilleur}, {art}}
2
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
3 4
5 6
7
Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice}, {artificiellement},
{artillerie, artilleur}, {art}}
2
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
1
3 4
5 6
7
Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice}, {artificiellement},
{artillerie, artilleur}, {art}}
Comparer les partitions !
(indice de Rand, Rand corrigé) 2
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice}, {artificiellement},
{artillerie, artilleur}, {art}}
Comparer les partitions !
(indice de Rand, Rand corrigé)
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice}, {artificiellement},
{artillerie, artilleur}, {art}}
rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
Idée :
• Construire une représentation arborée des mots de la famille
• Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
• La partition obtenue est-elle proche de la partition “manuelle” ?
Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique,
artistiquement},
{artificier, artificiel, artifice, artificiellement},
{artillerie, artilleur}, {art}}
rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894
Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
ensemble de mots
partition manuelle
matrice de distances
arbre
formule 1 formule 2 formule 3
réévaluation des longueurs d'arêtes
arbre 1 arbre 2 arbre 3
découpage de l'arbre par longueur d'arête décroissante partition 1 partition 2 partition 3
score 1 score 2 score 3
comparaison de la meilleure partition parmi P0, P1, P2...
triples length
Ratio quartets cooccurrence dans le TLFI + affixes communs
méthodes NJ, UPGMA
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Calcul des longueurs d'arêtes
arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne 0
0,2 0,4 0,6 0,8 1
1,2 triples
lengthRatio computedLength agreementPairs quartets
arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne 0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1 triples
lengthRatio computedLength agreementPairs quartets