• Aucun résultat trouvé

4.2 Effectuer l’exploration de textes

4.2.3 Effectuer l’exploration de textes (Modéliser)

4.2.3.2 Analyse des liens du texte

Cette analyse de statistique descriptive permet d’identifier les relations entre les concepts dans les données de texte. Les relations et les associations sont identifiées et extraites par la découverte de modèles au sein des données texte. L’analyse des liens peut se faire à différents niveaux, soit par exemple au niveau des domaines de droit individuellement, soit au niveau du corpus complet.

La première analyse, celle des liens du texte sur un domaine de droit permet de mieux comprendre le domaine et ainsi, en aval, aider l’analyse de segmentation de ce domaine.

Une première sélection est effectuée pour utiliser les données d’un seul domaine. Les données sélectionnées proviennent du domaine de droit « assurance » (DomaineA = C / DomaineR = Assurance). Il n’y a pas d’échantillonnage effectué puisque le corpus est limité et que le besoin est d’obtenir les concepts d’un domaine pour un usage ultérieur de segmentation. La sélection du corpus parmi les quatre est basée sur les connaissances générales du chercheur qui a déjà travaillé dans le domaine assuranciel. Deux méthodes s’offrent à l’explorateur dans l’application SPSS : « interactive et directe ». La méthode interactive (flux TLA) permet à l’explorateur de reclasser les concepts extraits par le nœud précédent à l’intérieur de catégories

nouvelles catégories peuvent alors dans la session interactive être utilisées pour visualiser leurs interrelations. Par exemple, dans le domaine de droit « assurance » les catégories : « assureur, assuré, demandeur, défendeur et tribunal » pourraient être créées et contenir des concepts extraits par le nœud d’analyse de textes. Cette analyse requiert une connaissance du domaine poussé afin de bien regrouper sous les bonnes catégories les concepts extraits.

Une comparaison entre la méthode avec méthode directe sans le nœud d’analyse des liens du texte et avec a été effectuée. Sur les 500 concepts extraits, 71 étaient différents et ce, puisque le nœud d’analyse permet une sélection du type de concepts extraits, ainsi 68 concepts autres « unknown » ont été extraits par la méthode directe (6 currency, 44 date, 7 location, 6 organization, 5 person). Les trois concepts « unknown » après une analyse se retrouvent extraits différemment, par exemple : « location crédit ford » est un concept pour l’un et « location » et « crédit ford » deux concepts pour l’autre. Une sélection peut être effectuée pour éliminer les concepts de type : « date, location, nom de personne, etc. ». Ces concepts n’ont pas de valeurs ajoutées dans le cadre de ce mémoire puisque je m’intéresse au domaine en général, mais une utilisation temporelle, géo spatiale et autre des données pourrait avoir une valeur ajoutée aux documents pour certains clients. Le seul type conservé est « unknown ». Ce type de concept existe puisque le dictionnaire de base de l’application n’a pas de classification pour les termes francophones et est ainsi classifié comme « unknown ». L’avenue de la méthode directe, qui extrait et groupe

automatiquement les concepts, est donc retenue en ayant en amont un nœud d’analyse des liens du texte et de sélection afin d’affiner la recherche.

Figure 8 : Concepts extraits – Analyse de textes – Domaine Assurance

L’analyse et l’interprétation de l’analyse des liens du texte ont déjà débuté précédemment afin de s’assurer de la qualité des données pour les étapes d’analyse de classification supervisée et de segmentation. Puisque l’analyse requiert une connaissance du domaine poussé afin de bien regrouper sous les bonnes catégories les concepts extraits. Nous allons explorer les résultats à un haut niveau.

Regardons, les trois concepts ayant la plus grande fréquence dans le domaine de droit assurance (figure 8). Les trois plus grands concepts sont : tribunal (N : 772 et % 1.313), article (N : 620 et % 1.054) et assuré (N : 403 et % 0.685). Les deux premiers concepts sont reliés au droit tandis que le troisième, le concept assuré, est fort peu étonnant pour le domaine de l’assurance. L’assureur et l’assuré sont lié par contrat, et

il semble normal que soit le défendeur ou le demandeur soit l’un ou l’autre des parties en cause. Continuons avec le corpus complet.

La seconde analyse des liens du texte, sur le corpus complet, permet de comprendre les concepts de droit. Une première opération est effectuée pour partitionner les données puisque le corpus complet est utilisé. Le besoin est de ressortir les concepts pour l’analyse de classification supervisée. Pour l’analyse, les deux méthodes présentées précédemment s’offrent encore à l’explorateur soit : « interactive et directe ». L’avenue de la méthode directe est réutilisée pour les mêmes raisons que l’analyse précédente.

Figure 9 : Concepts extraits – Analyse de textes – Corpus complet

Observons les trois concepts ayant la plus grande fréquence dans les domaines de droit confondus (figure 9). Ils sont : tribunal (N : 2393 et % 2.638), juge (N : 2056 et

% 2.266) et article (N : 1910 et % 2.105). Ces trois concepts, et même subséquent, sont tous reliés au droit en général. Même si nous continuons la liste, les concepts les plus fréquents semblent tous venir du jargon juridique.

Nous obtenons aussi des résultats semblables entre les deux séries (corpus complet et domaine assurance). Dans les 15 premiers concepts, il y en a 8 communs : « tribunal, article, preuve, loi, demanderesse, défendeur, demandeur et juge ». Ce sont donc des concepts forts dans les textes. Les 7 autres concepts, bien que différents, se ressemblent. Nous pouvons remarquer les parties impliquées : « assuré, assureur et défenderesse » de l’analyse du corpus assuranciel et « accusé et personne » du corpus global. De plus, le litige ressort des deux côtés : « pièce, assurance, contrat et obligation » pour l’assurance et « question, dossier et demande » pour le corpus complet. Ces ressemblances dans la fréquence des concepts provient peut être de la structure des résumés et de l’énoncé des faits.

Ces analyses apportent peu d’information sans la présence d’un dictionnaire, nous ne pouvons pas faire ressortir de sentiment, de domaine ou autres. Continuons par l’analyse par segmentation.