• Aucun résultat trouvé

Constitution du corpus et Outils

mai 55 严重 a, 肺炎 disease 和 c 呼吸道疾病 disease 发病率 Dns 增高 v.

3.6.2 Présentation des dictionnaires personnalisés

Nous avons créé et ajouté trois dictionnaires personnalisés : « Dictionnaire de dénomination de brouillard de pollution », « Dictionnaire toponymique des villes/régions de Chine » et « Dictionnaire des maladies et symptômes ». L’iden- tification des différentes dénominations du brouillard de pollution est réalisée à partir des annotations effectuées à l’aide du « Dictionnaire de dénomination de brouillard de pollution » (60 entrées, cf. section3.6.2.3 Présentation du « Diction- naire de dénomination de brouillard du pollution »). Ces dénominations consti- tuant ensemble l’isotope /brouillard de pollution/ nous serviront à procéder à l’étude du repérage de thème (voir section 5.2 Méthode de travail pour l’identi- fication du thème) au Chapitre 5. À l’aide du « Dictionnaire toponymique des villes/régions de Chine » (116,402 entrées, cf. section 3.6.2.1 Présentation du « Dictionnaire toponymique des villes/régions de Chine ») et du « Dictionnaire des maladies et symptômes » (31,295 entrées, cf. section 3.6.2.2 Présentation du « Dictionnaire des maladies et symptômes »), nous observons la distribution géographique et la distribution régionale des maladies/symptômes causés par le brouillard de pollution, et l’évolution temporelle de certains problèmes de santé. Dans la partie suivante, nous allons présenter de manière détaillée les trois dic- tionnaires, notamment sur la composition et le choix des étiquettes associées aux mots concernés. Un exemple concret qui combine les trois types de tags extraits de notre corpus sera donné à la fin.

3.6.2.1 Présentation du « Dictionnaire toponymique des villes/régions de Chine »

Le dictionnaire des toponymes que nous avons récupéré depuis la plateforme est exhaustif : avec 116,402 d’entrées, il englobe toutes les subdivisions de l’orga- nisation territoriale de la Chine, de la province jusqu’au village naturel56. Comme

qu’une ville est citée et détectée, JIEBA associe le tag « city » au mot.

55. JIEBA annote le corpus en fonction du dictionnaire des maladies et symptômes rajouté. Lorsqu’une maladie est citée et détectée, JIEBA associe le tag « disease » au mot.

56. Les subdivisions de l’organisation territoriale de la Chine sont classées de manière hiérar- chique du plus grand — les provinces (ou les régions autonomes) —, au plus petit — les villages naturels.

montré dans le tableau (voir Annexe 18 Tableau de subdivision de la structure territoriale de la Chine57), il y a cinq niveaux au total dans l’organisation terri-

toriale de la Chine. Nous n’avons sélectionné que le premier niveau, c’est-à-dire le niveau provincial, qui représente 31 items au total58, pour étudier la distri-

bution géographique du brouillard de pollution ainsi que les problèmes de santé causés par ce dernier. Afin de simplifier l’appellation de différentes subdivisions de l’organisation territoriale, nous les appelons toutes « région » dans les par- ties suivantes. Il faut noter que notre groupe « région » appartenant au niveau provincial englobe non seulement des provinces, mais aussi des municipalités et des régions autonomes. Ainsi, en ce qui concerne les noms des tags des topo- nymes, nous avons gardé leur appellation initiale en anglais : « province » pour 22 provinces, « city » pour les 4 municipalités et « autoreg » pour les régions autonomes, le reste des subdivisions est étiqueté comme « NC » (non concerned).

Fig. 3.16 – Capture d’écran du résultat de conversion de dictionnaires « Sub- division de l’organisation territoriale de Chine.scel » en format du texte

58. Les 31 régions sont composées de 22 provinces, 4 municipalités, et 5 régions autonomes. Par manque de données accessibles, la province de Taiwan et les 2 villes administrativement spéciales ne sont pas prises en compte, et nous allons concentrer nos recherches sur la Chine continentale.

3.6.2.2 Présentation du « Dictionnaire des maladies et symptômes » En étudiant notre corpus, nous avons remarqué qu’un certain type de mala- dies est souvent associé à des symptômes correspondants, par exemple la maladie respiratoire (呼吸系统疾病) apparaît souvent avec des symptômes comme 咳嗽 (tousser/toux), 喘息 (haleter/halètement), 上呼吸道感染 (infection de l’appareil respiratoire supérieur), etc. Nous avons donc décidé de mettre les maladies et les symptômes dans un même dictionnaire avec des étiquettes différentes. En sui- vant le même processus de traitement que pour le premier dictionnaire des villes, nous avons téléchargé et converti le dictionnaire ICD-10 疾病编码 (Classification Internationale des Maladies ICD-10) et 各类基本医学词汇 (Glossaire des termes standards médicaux ) sur SOGOU59, et en avons fait notre deuxième diction-

naire : « Dictionnaire de maladies et symptômes » avec 31,295 entrées. Lors de la révision manuelle du résultat d’étiquetage de ces deux dictionnaires profession- nels, nous avons constaté que certains vocabulaires quotidiens employés dans le corpus WEIBO sont absents de notre dictionnaire. Nous l’avons donc complété avec ces 105 termes. Quatre étiquettes ont été définies : « disease » pour les ma- ladies, par exemple 呼吸系统疾病 disease (maladie respiratoire), « symptom » pour les symptômes, tel que 咳嗽 symptom (toux/tousser), « Dns » pour les terminologies médicales, par exemple 呼吸道 Dns (voie respiratoire), « Dv » pour les locutions verbales relatives, par exemple 看病 Dv (voir le médecin) (cf. Tableau 3.2 Tableau des catégories des tags).

3.6.2.3 Présentation du « Dictionnaire de dénomination de brouillard du pollution »

Contrairement aux procédures supervisées (automatique et manuelle) de la production des deux dictionnaires précédents, la création du « Dictionnaire de dénomination du brouillard de pollution » est entièrement manuelle. En plus des 6 mots-clés : 雾霾 (brouillard de pollution), 霾 (smog), 大气污染 (pollution atmosphérique), 空气污染 (pollution de l’air), PM2o5 et PM10 dont nous avons parlé plus haut, nous avons retrouvé 54 mots désignant le brouillard de pollution avec indépendamment 雾 (brume) ou 霾 (brouillard). Nous avons ainsi obtenu 60 mots dans le dictionnaire de dénomination du brouillard de pollution. Les 59. Ces dictionnaires sont disponibles sur le sitehttps://pinyin.sogou.com/dict/detail/ index/654.

intitulés des tags sont donnés soit en fonction du pinyin du mot, par exemple 大(brume) est taggé avec «denowu», soit selon la traduction en anglais, 空气 污染 denopollu (pollution de l’air).

Le tableau ci-dessous résume les trois catégories de dictionnaires, les tags définis pour chacun ainsi que des exemples concrets extraits du corpus.

Tab. 3.2 – Tableau des catégories des tags Catégorie de mot-

clé Tags Example

Terme de Maladie

disease : mot+disease 肺炎 disease (pneumonie) terminologie

médicale : mot+Dns60 呼 吸 道toire) Dns (voie respira-

看病 Dv (voir le médecin) ville/province city : mot+cityprovince : mot+province 南京河北 city (nanjing)province (hebei) dénominations de smog brouillard de pollu- tion : mot+denowumai 雾霾denowumai (brouillard de pollution)

brume : mot+denowu 大雾 denowu (brume)

brouillard de pollu- tion : mot+denomaidenomai (brouillard de pollution) pollution de l’air : mot+denopollu 空气污染 denopollu (pollu- tion de l’air)

particule fine mot+denopm PM2o5denopm (Particule fine Ø 2,5 um)