Constitution du corpus et Outils
mai 55 严重 a, 肺炎 disease 和 c 呼吸道疾病 disease 发病率 Dns 增高 v.
3.6.2 Présentation des dictionnaires personnalisés
Nous avons créé et ajouté trois dictionnaires personnalisés : « Dictionnaire de dénomination de brouillard de pollution », « Dictionnaire toponymique des villes/régions de Chine » et « Dictionnaire des maladies et symptômes ». L’iden- tification des différentes dénominations du brouillard de pollution est réalisée à partir des annotations effectuées à l’aide du « Dictionnaire de dénomination de brouillard de pollution » (60 entrées, cf. section3.6.2.3 Présentation du « Diction- naire de dénomination de brouillard du pollution »). Ces dénominations consti- tuant ensemble l’isotope /brouillard de pollution/ nous serviront à procéder à l’étude du repérage de thème (voir section 5.2 Méthode de travail pour l’identi- fication du thème) au Chapitre 5. À l’aide du « Dictionnaire toponymique des villes/régions de Chine » (116,402 entrées, cf. section 3.6.2.1 Présentation du « Dictionnaire toponymique des villes/régions de Chine ») et du « Dictionnaire des maladies et symptômes » (31,295 entrées, cf. section 3.6.2.2 Présentation du « Dictionnaire des maladies et symptômes »), nous observons la distribution géographique et la distribution régionale des maladies/symptômes causés par le brouillard de pollution, et l’évolution temporelle de certains problèmes de santé. Dans la partie suivante, nous allons présenter de manière détaillée les trois dic- tionnaires, notamment sur la composition et le choix des étiquettes associées aux mots concernés. Un exemple concret qui combine les trois types de tags extraits de notre corpus sera donné à la fin.
3.6.2.1 Présentation du « Dictionnaire toponymique des villes/régions de Chine »
Le dictionnaire des toponymes que nous avons récupéré depuis la plateforme est exhaustif : avec 116,402 d’entrées, il englobe toutes les subdivisions de l’orga- nisation territoriale de la Chine, de la province jusqu’au village naturel56. Comme
qu’une ville est citée et détectée, JIEBA associe le tag « city » au mot.
55. JIEBA annote le corpus en fonction du dictionnaire des maladies et symptômes rajouté. Lorsqu’une maladie est citée et détectée, JIEBA associe le tag « disease » au mot.
56. Les subdivisions de l’organisation territoriale de la Chine sont classées de manière hiérar- chique du plus grand — les provinces (ou les régions autonomes) —, au plus petit — les villages naturels.
montré dans le tableau (voir Annexe 18 Tableau de subdivision de la structure territoriale de la Chine57), il y a cinq niveaux au total dans l’organisation terri-
toriale de la Chine. Nous n’avons sélectionné que le premier niveau, c’est-à-dire le niveau provincial, qui représente 31 items au total58, pour étudier la distri-
bution géographique du brouillard de pollution ainsi que les problèmes de santé causés par ce dernier. Afin de simplifier l’appellation de différentes subdivisions de l’organisation territoriale, nous les appelons toutes « région » dans les par- ties suivantes. Il faut noter que notre groupe « région » appartenant au niveau provincial englobe non seulement des provinces, mais aussi des municipalités et des régions autonomes. Ainsi, en ce qui concerne les noms des tags des topo- nymes, nous avons gardé leur appellation initiale en anglais : « province » pour 22 provinces, « city » pour les 4 municipalités et « autoreg » pour les régions autonomes, le reste des subdivisions est étiqueté comme « NC » (non concerned).
Fig. 3.16 – Capture d’écran du résultat de conversion de dictionnaires « Sub- division de l’organisation territoriale de Chine.scel » en format du texte
58. Les 31 régions sont composées de 22 provinces, 4 municipalités, et 5 régions autonomes. Par manque de données accessibles, la province de Taiwan et les 2 villes administrativement spéciales ne sont pas prises en compte, et nous allons concentrer nos recherches sur la Chine continentale.
3.6.2.2 Présentation du « Dictionnaire des maladies et symptômes » En étudiant notre corpus, nous avons remarqué qu’un certain type de mala- dies est souvent associé à des symptômes correspondants, par exemple la maladie respiratoire (呼吸系统疾病) apparaît souvent avec des symptômes comme 咳嗽 (tousser/toux), 喘息 (haleter/halètement), 上呼吸道感染 (infection de l’appareil respiratoire supérieur), etc. Nous avons donc décidé de mettre les maladies et les symptômes dans un même dictionnaire avec des étiquettes différentes. En sui- vant le même processus de traitement que pour le premier dictionnaire des villes, nous avons téléchargé et converti le dictionnaire ICD-10 疾病编码 (Classification Internationale des Maladies ICD-10) et 各类基本医学词汇 (Glossaire des termes standards médicaux ) sur SOGOU59, et en avons fait notre deuxième diction-
naire : « Dictionnaire de maladies et symptômes » avec 31,295 entrées. Lors de la révision manuelle du résultat d’étiquetage de ces deux dictionnaires profession- nels, nous avons constaté que certains vocabulaires quotidiens employés dans le corpus WEIBO sont absents de notre dictionnaire. Nous l’avons donc complété avec ces 105 termes. Quatre étiquettes ont été définies : « disease » pour les ma- ladies, par exemple 呼吸系统疾病 disease (maladie respiratoire), « symptom » pour les symptômes, tel que 咳嗽 symptom (toux/tousser), « Dns » pour les terminologies médicales, par exemple 呼吸道 Dns (voie respiratoire), « Dv » pour les locutions verbales relatives, par exemple 看病 Dv (voir le médecin) (cf. Tableau 3.2 Tableau des catégories des tags).
3.6.2.3 Présentation du « Dictionnaire de dénomination de brouillard du pollution »
Contrairement aux procédures supervisées (automatique et manuelle) de la production des deux dictionnaires précédents, la création du « Dictionnaire de dénomination du brouillard de pollution » est entièrement manuelle. En plus des 6 mots-clés : 雾霾 (brouillard de pollution), 霾 (smog), 大气污染 (pollution atmosphérique), 空气污染 (pollution de l’air), PM2o5 et PM10 dont nous avons parlé plus haut, nous avons retrouvé 54 mots désignant le brouillard de pollution avec indépendamment 雾 (brume) ou 霾 (brouillard). Nous avons ainsi obtenu 60 mots dans le dictionnaire de dénomination du brouillard de pollution. Les 59. Ces dictionnaires sont disponibles sur le sitehttps://pinyin.sogou.com/dict/detail/ index/654.
intitulés des tags sont donnés soit en fonction du pinyin du mot, par exemple 大 雾 (brume) est taggé avec «denowu», soit selon la traduction en anglais, 空气 污染 denopollu (pollution de l’air).
Le tableau ci-dessous résume les trois catégories de dictionnaires, les tags définis pour chacun ainsi que des exemples concrets extraits du corpus.
Tab. 3.2 – Tableau des catégories des tags Catégorie de mot-
clé Tags Example
Terme de Maladie
disease : mot+disease 肺炎 disease (pneumonie) terminologie
médicale : mot+Dns60 呼 吸 道toire) Dns (voie respira-
看病 Dv (voir le médecin) ville/province city : mot+cityprovince : mot+province 南京河北 city (nanjing)province (hebei) dénominations de smog brouillard de pollu- tion : mot+denowumai 雾霾denowumai (brouillard de pollution)
brume : mot+denowu 大雾 denowu (brume)
brouillard de pollu- tion : mot+denomai 霾 denomai (brouillard de pollution) pollution de l’air : mot+denopollu 空气污染 denopollu (pollu- tion de l’air)
particule fine mot+denopm PM2o5denopm (Particule fine Ø 2,5 um)