Nouvelle fonction objective PSO basée sur la pondération des instances

Approche hybride combinant l’apprentissage actif et l'algorithme PSO pour la classification des images

2. Approche hybride combinant l’apprentissage Actif avec PSO (AL PSO)

2.2. Nouvelle fonction objective PSO basée sur la pondération des instances

Afin d'évaluer les particules, une nouvelle fonction objective est proposée utilisant une nouvelle mesure d'incertitude. Cette fonction mesure l'incertitude du classifieur à l'aide du concept de pondération des instances. Avant de détailler les paramètres de la fonction objective utilisée, nous introduisons la notion de pondération des instances (instances weighting).

2.2.1 Pondération des instances

Dans le cas d'un apprentissage automatique supervisé, le but est de générer une fonction de généralisation précise à partir d'un ensemble d'instances étiquetées d'apprentissage. Étant donné que dans la plupart des cas, tout ce qui est connu d'une tâche est contenu dans l'ensemble des instances d'apprentissage, au moins initialement, les instances d'un ensemble de données sont généralement considérées de manière égale. Cependant, certaines instances ne sont pas informatives pour qu’elles soient incorporées au modèle de données. Par exemple, les instances aberrantes ou les instances mal étiquetées ne sont pas aussi bénéfiques que les instances de frontière et sont souvent non informatives dans de nombreux cas. De plus, pour d'autres instances même si elles sont étiquetées correctement et ne sont pas aberrantes, elles restent non bénéfiques.

Un effet possible de considérer tous les cas également, y compris les instances incertaines, lors de la génération du modèle est montré dans l'ensemble de données bidimensionnelles de la figure 5.2a. La ligne continue représente la limite de classification « réelle » et la ligne en pointillés représente une limite de classification induite. Les instances A et B sont des instances incertaines qui « extraient » la frontière de décision de la frontière réelle et provoquent une erreur de classification. Un algorithme d'apprentissage peut modéliser plus précisément les données en considérant les instances différemment au cours de l'apprentissage pour supprimer les effets des instances d’apprentissage incertaines.

Figure 5.2. Ensemble de données bidimensionnelles avec deux instances incertaines (Instances A et B) avec deux cas : (a) Traite toutes les instances de façon égale dans un ensemble de données avec des instances incertaines qui peuvent affecter la frontière de classification. (b) la façon dont une instance peut être incertaine dépend des autres instances

d'un ensemble de données.

La façon dont une instance est incertaine est estimée en fonction de sa relation avec les autres instances de l'ensemble de données. Par exemple, l'instance A de la figure 5.2a représente une instance incertaine en tant que valeur aberrante dans une région avec des instances d'une classe différente. En revanche, l'instance A de l'ensemble de données illustré à la figure 5.2b n'est pas aussi incertaine compte tenu des instances supplémentaires de la même classe dans la même région. Pareil pour décider si une instance présente un certain degré d'incertitude, nous calculons la pondération des instances dans un ensemble de données par leur probabilité d'être mal classées. L'instance A de la figure 5.2a, par exemple, a une forte probabilité d'être mal classée tandis que l'instance B peut avoir une probabilité plus faible d'être mal classée. La pondération des instances limite l'influence d'une instance proportionnelle à sa mesure d’incertitude. Un poids associé à une instance permet de quantifier l’importance relative de cette instance par rapport aux autres. Nous présentons dans ce qui suit une méthodologie théoriquement motivée pour estimer la probabilité qu'une instance soit mal classée.

2.2.2 Description de la fonction objective

Une fonction objective basée sur une nouvelle mesure d’incertitude est proposée dans notre contribution. Cette fonction détermine le plus petit poids associé à l'instance afin que le classifieur change sa prédiction. La pondération des instances est généralement utilisée dans le processus de classification, en particulier dans le cas de problèmes de données déséquilibrées (donnant plus de poids aux instances de classes minoritaires) [Jiang 2007 ; Bouguelia 2016]. Dans cette approche, un poids est associé à chaque instance. Comme chaque particule se compose de plusieurs instances, la valeur de la fonction objective de celle-ci est alors donnée par la moyenne pondérée des instances constituant cette particule. Une petite valeur de la fonction objective démontre que la prédiction du classifieur peut changer, ce qui la rend incertaine et l'expert est interrogé pour donner la vraie étiquette de classe de ces instances. Les poids sont obtenus en appliquant l'algorithme k-Plus Proche Voisins (k-Nearest Neighbor (kNN)) [Jiang 2007 ; Bouguelia 2016], pour dériver une probabilité d'appartenance à ses deux classes les plus probables. La différence entre ces deux probabilités constitue le poids de chaque instance. Par conséquent, la fonction objective proposée peut être formulée ainsi :

Soit 𝑘𝑁𝑁(𝑠_𝑖) = {൫𝑦1, 𝑐𝑦1൯, … , (𝑦𝑘, 𝑐𝑦𝑘)} les k-voisins les plus proches de 𝑠𝑖 sélectionnés

dans le modèle ℳ, triés par ordre croissant en fonction de leur distance à 𝑠_𝑖. P (c|s) est la probabilité que l'instance 𝑠_𝑖appartienne à la classe c, sera déterminée comme suit :

𝑃(𝑐|𝑠_𝑖) = ∑(𝑦𝑖,𝑐_𝑦𝑖)∈𝑘𝑁𝑁(𝑠𝑖)𝑓൫𝑦𝑖, 𝑐𝑦𝑖൯ 𝑘 (5.5) Où 𝑓൫𝑦𝑖, 𝑐𝑦𝑖൯ = { 1 𝑖𝑓 𝑐_𝑦_𝑖 = 𝑐 0 𝑒𝑙𝑠𝑒 (5.6)

Comme nous traitons un problème de classification binaire, une probabilité unique P doit être générée de la manière suivante :

Pour chaque instance 𝑠_𝑖, 𝑐₁ = 𝑎𝑟𝑔𝑚𝑎𝑥_𝑐𝑃(𝑐|𝑠_𝑖) et 𝑐₂ = 𝑎𝑟𝑔𝑚𝑎𝑥_𝑐≠𝑐₁𝑃(𝑐|𝑠_𝑖).

𝑐₁ et 𝑐₂sont respectivement la première et la deuxième classe les plus probables de 𝑠_𝑖 avec 𝑃(𝑐1|𝑠𝑖) ≥ 𝑃(𝑐2|𝑠𝑖)

Soit 𝜑_𝑖le poids approprié de l'instance 𝑠_𝑖, calculée comme suit : 𝜑_𝑖൫_𝑐

1, 𝑐2ห𝑠𝑖൯ = 𝑃(𝑐1|𝑠𝑖) − 𝑃(𝑐2|𝑠𝑖) (5.7)

Une instance avec une petite valeur 𝜑 est plus incertaine car les probabilités 𝑃(𝑐₁|𝑠_𝑖) et 𝑃(𝑐₂|𝑠_𝑖) sont proches les unes des autres. En d'autres termes, le plus proche 𝜑_𝑖൫𝑐

1, 𝑐2ห𝑠𝑖൯à 0, indique que la classe d'instance 𝑠_𝑖 est incertaine et, dans ce cas, 𝑠_𝑖 est considéré comme informative. Connaître la vraie classe d'une telle instance serait utile pour le modèle ℳ afin de mieux discriminer entre ces classes.

Comme une particule est composée de plusieurs instances, la fonction objective de chaque particule est alors calculée comme suit :

ℱ𝒫 = ∑ 𝜑_𝑖൫𝑐 1, 𝑐2ห𝑠𝑖൯ 𝑛 𝑖=1 𝑛 (5.8)

Où n est le nombre d'instances dans chaque particule.

Il est souvent difficile de définir un seuil α pour lequel la vraie classe d'instance est demandée à l'expert, car elle dépend fortement des données d'entrée. Lorsque α est trop élevé, plusieurs instances doivent être étiquetées par l’expert, bien que la plupart d'entre elles ne soient pas forcément informatives. De même, lorsque α est trop petit, peu d'étiquettes seront demandées, ce qui peut entraîner une frontière mal formée pour le classifieur. Pour cette raison, une valeur de confiance α est définie pour décider si la classe d'une nouvelle instance 𝑠𝑖 doit

être demandée, si 𝜑_𝑖൫𝑐

1, 𝑐2ห𝑠൯< 𝛼 la vraie étiquette de classe de 𝑠𝑖 est demandée ; sinon, l'instance 𝑠𝑖est classée comme 𝑐𝑖 (sa classe la plus probable).

Dans le document Techniques d’apprentissage pour la sélection d’attributs : Application à la reconnaissance des formes (Page 134-138)