Application du Data Mining pour l analyse des risques liés à la chirurgie cas de la création d'une fistule artério-veineuse

(1)

Application du Data Mining pour l’analyse des risques liés à la chirurgie cas de la création d'une fistule artério-veineuse

Khaouja Imane ¹, Zoullouti Bouchra ^2, Amghar Mustapha ³, Sbiti Nawal ⁴

1 Laboratoire d’automatique et d’informatique industrielle, Ecole Mohammadia d’ngénieurs EMI Rabat, +212 6 42 46 47 85, [email protected]

2 Laboratoire d’automatique et d’informatique industrielle, Ecole Mohammadia d’Ingénieurs EMI Rabat, [email protected]

Résumé : Cette étude a utilisé les techniques de Data Mining afin de démontrer leur utilisation dans l’analyse du risque de mortalité postopératoire lié à la chirurgie et ainsi d’évaluer les facteurs de risques. Plus particulièrement à la réalisation d’une fistule artério-veineuse qui peut apporter des complications entrainant le décès du patient. L’analyse Data Mining a été réalisée en examinant la performance de deux algorithmes d’arbres de décision sur un ensemble de 1990 cas. Les facteurs de risque les plus dominants découverts, à partir de l’analyse des règles de classification, sont le sexe, le diabète, l'hypertension et un antécédent de maladie cardiovasculaire. Ces facteurs de risque découverts sont confirmés par d’autres travaux dans la littérature.

Mots clés : Analyse des risques, chirurgie, Système hospitalier, Data Mining.

Abstract: This study examined the characteristics of the knowledge discovery and Data Mining algorithms to demonstrate how they can be used to predict the postoperative risk of mortality in arteriovenous fistula creation surgery and assess the risk factors in order to reduce deaths among renal failure patients. Specifically, this study validated the predictive power of Data Mining algorithms by comparing the performance of two decision tree algorithms using the information about 1990 cases. Dominant risk factors as extracted from the classification rules analysis include gender, diabetes, hypertention and an history of cardiovascular disease.

The discovered risk factors are mostly confirmed by the literature, which corroborates the value of the methods.

Key-words: Risk analysis, surgery, Hospital system, Data Mining.

(2)

Introduction

Le système de soins est un système complexe (processus imbriqués multiples, missions, métiers et activités …), exposé aux divers risques qui peuvent mettre en danger la vie des patients. Dans ce système, la sécurité est une dimension primordiale. C’est pour cela qu’un intérêt de plus en plus important est accordé à la gestion des risques ces dernières années par les établissements de santé. La sécurité des patients nécessite la mise en place d’un service de santé de qualité efficace et sûr.

L’apparition du risque peut conduire à la mise en cause de la sécurité des personnes ce qui peut nuire à l’image de l’hôpital. Un organisme qui connaît bien les risques auxquels il est exposé peut les réduire, et par suite maîtriser leurs conséquences.

Le bloc opératoire est un lieu où s’exerce une activité complexe qui implique plusieurs acteurs de différents domaines. Cette complexité met en cause la sécurité des patients. Selon l’organisation mondiale de la santé [Organisation Mondiale de la Santé, 2008], cinq faits concernant la sécurité chirurgicale sont précisés :

 Des complications post-opératoires surviennent chez près de 25% des patients hospitalisés;

 Le taux brut de mortalité enregistré après un acte chirurgical important est compris entre 0.5 et 5%;

 Dans les pays industrialisés près de la moitié des événements indésirables qui causent des préjudices aux patients hospitalisés sont liés à des soins chirurgicaux;

 Au moins la moitié des cas de préjudice causés par la chirurgie sont évitables;

 Les principes connus de sécurité chirurgicale sont appliqués de manière incohérente, même dans les services les plus perfectionnés.

A noter que le nombre d’interventions chirurgicales majeures effectuées chaque année dans le monde entier est estimé à 234 millions. Ces interventions peuvent causer des décès et des complications [Organisation Mondiale de la Santé, 2008].

Le risque dans la chirurgie peut venir du patient lui-même : l’impact et la durée de la maladie, l’état de santé, l’âge du patient et ses habitudes augmentent le risque de survenue de complication. Comme il peut être lié aux ressources de l’hôpital (les compétences des intervenants, l’anesthésie, la qualité des dispositifs médicaux…).

Le risque est également lié à l’acte opératoire.

Selon [Jiber et al.,2015], Les complications des fistules artério-veineuses pour l'hémodialyse chronique sont la principale cause de morbidité chez les patients hémodialysés, il est donc important de s'impliquer lors de leur création, et de donner un maximum d'attention quand ils sont manipulées. Ils suggèrent aussi la mise en place d'un programme de surveillance de ces fistules en raison de l'impact des complications sur la morbi-mortalité du patient hémodialysé.

Le Data Mining et la découverte de connaissances sont des approches qui aident à apprendre à partir des données et à analyser les risques. Plusieurs techniques ont été mises au point pour l'analyse des données et l’extraction des informations utiles à partir des données. Ces techniques comprennent principalement le clustering, la classification, les règles d'association et la prédiction.

Dans ce travail, nous allons analyser le risque de mortalité des patients dans une année postopératoire. Pour cela, nous utilisons un ensemble de données collecté auprès des organismes de sécurité sociale. Cette étude aide à mieux comprendre le risque lié à la chirurgie et au patient.

(3)

Analyse des risques et le Data Mining :

Les techniques de Data Mining sont des outils puissants pour l’analyse et l’évaluation des risques. [Ivancevic et al., 2015] ont utilisé les règles d’association pour analyser le risque de la carie précoce d’enfance. Les facteurs dominants découverts à partir d’un ensemble de données analysé ont été confirmés par la littérature, ce qui montre l’utilité de la méthode.

[Raju et al., 2015] soulignent l’importance de l’utilisation des données du système de soins de santé pour prédire le risque de l’ulcère de pression. Ils montrent que les techniques de Data Mining et particulièrement la méthode Random Forests sont bénéfiques pour le développement des modèles de risque basés non seulement sur le score de Braden mais spécifiques à la population des patients.

[Easton et al.,2014] illustrent les avantages de l’utilisation du Data Mining pour l’analyse des données cliniques.

Ils ont utilisé l’algorithme de classification naïve bayésienne pour prédire la probabilité de mortalité post-AVC en fonction du nombre de jours d’hospitalisation.

[Chae et al.2001] ont utilisé les outils de Data Mining afin de démontrer leur utilisation pour la prédiction de l’hypertension et de fournir une politique pour la gestion de l'hypertension dans le domaine de l’assurance maladie.

1 Matériels et méthodes

1.1 Data Mining

Le Data Mining est un processus d’aide à la décision où les utilisateurs cherchent des modèles d’interprétation dans des données [Fayyad et al., 1996]. Le Data Mining est un processus complexe permettant l’identification, au sein des données, des motifs valides et nouveaux, potentiellement intéressants et les plus compréhensibles possibles [Kodratoff et al.,2001]. Le Data Mining est un processus interactif et itératif d’analyse d’un grand ensemble de données brutes et d’extraction des connaissances exploitables par des utilisateurs-analystes qui jouent un rôle central [Parsaye et al.,1989].

1.2 La collection des données

La collection de données contient des données d’une période s’étalant de 2005 à 2015 pour des patients ayant subi une intervention chirurgicale de type réalisation d’une fistule artério-veineuse. Le nombre des patients est 1990 (N=1990). Les patients sont des deux sexes et de tout âge. Nous avons pris en considération des variables qui peuvent décrire l’état du patient. Ces variables sont des variables booléennes qui décrivent la présence ou non d’une maladie de longue durée(ALD). Le risque est considéré présent si le décès est enregistré dans l’année postopératoire. Le nombre des patients décédés au cours de l’année postopératoire est de 164. Ce qui représente un pourcentage de presque 8.5% par rapport au nombre des patients opérés.

Pour nettoyer les données, les champs ont été identifiés, les duplications ont été supprimées et les données ont été codées.

La table 1 liste les variables et leurs codages utilisés dans la collection des données.

TABLE 1 : Liste des variables utilisées dans la collection des données

Champs Code1 Code2 Code3 Code4 Code5

SEXE F : Femelle M : Male

AGE 1 : 0-5ans 2 :5-17ans 3 :17-

45ans

4 : 45- 65ans

5 :65ans et plus

(4)

ALD_CARDIOVASCULAIRE 0 : Patient sans maladie cardiovasculaire

1 :Patient avec maladie

cardiovasculaire ALD_HTA 0 : Patient sans hypertension 1 :Patient avec

hypertension ALD_DIABETE 0 : Patient sans diabète 1 : Patient avec

diabète

ALD_TM 0 : Patient sans tumeur 1 :Patient avec

tumeur

RISQUE 0 : Non présent 1 : présent

L’histogramme suivant montre que le risque de mortalité d’une année postopératoire après l’intervention chirurgicale de type création d’une fistule artério-veineuse est plus important chez les hommes (12%) que les femmes (8%).

Cet échantillon de données a été subdivisé aléatoirement en une partition d’apprentissage et une partition de test afin de réaliser la classification du risque.

1.3 Prétraitement des données

L’objectif de cette recherche est d’analyser le risque du décès postopératoire du patient suite à la réalisation d’une fistule artério-veineuse en analysant son âge, son sexe, ses antécédents de maladies et ses maladies chroniques.

Etant donné que les cas avec ce risque sont peu représentés dans l’ensemble de données, certes leur proportion ne dépasse pas les 15% ce qui pose un problème de déséquilibre des classes. Le déséquilibre des classes se réfère au fait que les différentes catégories ne sont pas représentées de manière égale [Chawla, 2010].le déséquilibre des classes est un problème commun dans les domaines cliniques et médicaux, puisque la prévalence de certains diagnostic ou maladie est très faible dans la population [Mazurowski et al., 2008]. Par exemple, l’incidence du taux de cancer du sein est de 0,124% par an, selon les statistiques de l'Institut national du cancer des Etats-Unis [l'Institut national du cancer 2012]. Dans de tels cas, les modèles de Data Mining seront axés sur la classe négative, ce qui n’est pas le groupe d'intérêt de la recherche. Par conséquent, les

0 20 40 60 80 100

Femme Homme

91,76 87,74

8,24 12,26

Nombre des patients par sexe

sans risque avec risque

(5)

modèles de classification pour ces problèmes ont pour but de compenser l'impact des ensembles de données déséquilibrées.

Généralement, il existe deux stratégies de compensation qui sont utilisées pour obtenir des classes équilibrées dans le Data Mining: le sur-échantillonnage et le sous-échantillonnage. Le sur-échantillonnage crée plus d'entrée de la classe minoritaire, alors que le sous-échantillonnage supprime certaines entrée de la classe majoritaire [Chawla, 2010]. Dans cette étude, une technique aléatoire de sur-échantillonnage est mise en œuvre dans laquelle les observations de la classe sous-représentées sont échantillonnées au hasard et répliquées afin de créer un équilibre entre les deux classes. Quant au sous-échantillonnage, il comprend le risque de perdre des données importantes d’où le choix de la stratégie de sur-échantillonnage [Mazurowski et al., 2008],[Zheng et al.,2015].

1.4 L’algorithme de l’arbre de décision CART

CART est une méthode de partitionnement récursif utilisée à la fois pour la régression et la classification. CART est construit en divisant les sous-ensembles de l'ensemble de données. Cette division est réalisée en utilisant toutes les variables prédictives afin de créer deux nœuds enfants à plusieurs reprises, en commençant par la totalité de l'ensemble des données. Le meilleur indicateur est choisi en utilisant des mesures d'impuretés ou de la diversité (Gini, association par paire, association par paire ordonnée et la déviation des moindres carrés). Le but est de produire des sous-ensembles de données qui sont aussi homogènes que possible par rapport à la variable cible [Breiman et al., 1984]. Dans cette étude, nous avons utilisé la mesure d’impureté de Gini qui est utilisé pour les variables cibles catégorielles.

Mesure d’impureté Gini:

L'indice de Gini au nœud t, g (t), est défini comme : 𝑔(𝑡) = ∑ p(j

𝑗≠𝑖

|𝑡)𝑝(𝑖|𝑡)

Où i et j sont les catégories de la variable cible, et 𝑝(𝑗|𝑡) est la proportion du nœud (c.à.d. les cas t appartenant à la classe j). [Ture el al.,2009]

1.5 L’algorithme de l’arbre de décision C5.0

L’algorithme de C5.0 fonctionne en divisant l'échantillon selon le champ qui fournit le maximum d'entropie ou de gain d'information. La division d'un nœud produit deux ou plusieurs descendants directs. Chaque descendant issu de la première division est ensuite divisé à nouveau en fonction d'une autre variable, ensuite le processus est répété jusqu'à ce que les descendants ne puissent plus être divisés [Quinlan, 2014].

En effet il utilise l’approche ‘diviser pour mieux régner’ dans le développement des arbres de décision |T'SOU et al., 2000]

1.6 Mesures de performance

Afin d'évaluer la performance de nos résultats nous avons utilisés les mesures suivantes : la précision est le taux de classification correcte et il est défini comme suit :

Précision =VP + VN/VP + FP + VN + FN où

 Vrai positif (VP): correctement classifié comme positif

 Faux positif (FP): incorrectement classifié comme positif

 Vrai négatif (VN): correctement classifié comme positif

(6)

 Faux négatif (FN): correctement classifié comme négatif

A noter qu’un modèle positif se réfère à un patient décédé, tandis qu'un modèle négatif se réfère à un patient non-décédé durant l’année postopératoire.

La sensibilité indique la capacité d'un classificateur pour identifier les tendances positives [Seliya et al., 2009].

Elle est définie comme suit:

Sensibilité = VP / VP + FN

La spécificité indique la capacité d'un classificateur à identifier les modèles négatifs et est définie comme suit : Spécificité = TN / VN + FP

Le support est le nombre de cas vérifiant la règle (ou prédit correctement); c’est à dire on a la règle X & Y →Z, le support est la probabilité qu'un enregistrement contient {X, Y, Z} [Han et al., 2001].

La confiance est le nombre de cas où la règle est vérifiée (ou prédit correctement), exprimée en un pourcentage englobant la totalité des cas vérifiant la règle, c’est à dire si nous avons la règle X & Y →Z, la confiance est la probabilité conditionnelle qu'un enregistrement ayant {X, Y} contient également Z [Han et al., 2001].

2 Résultats et discussion

2.1 Comparaison de la prédiction des arbres de décision

Dans un premier lieu les algorithmes des deux arbres de décision ont été appliqués sur la partition d’apprentissage en prenant la donnée risque de décès comme la variable cible.

Nous avons étudié le risque de décès dans une année et 2 années postopératoires. En effet [Minetti et al.,1985] ont estimé l’espérance de vie des patients effectuant l’hémodialyse ou ayant eu recours à une transplantation de rein à 10 ans. Cette estimation a été le résultat d’une étude effectuée en Angleterre donc l’intervalle choisi se focalise en particulier sur le risque postopératoire. Ensuite les mesures de performances ont été relevées afin de comparer la performance des deux arbres.

Quant au risque de décès postopératoire, la précision, la sensibilité et la spécificité ont un meilleur taux par rapport au risque de décès dans une année postopératoire (cf. table 2).Plus précisément l’algorithme CART apporte un meilleur taux par rapport à celui de C5.0. La mesure la plus significative est la sensibilité car notre travail est centré sur la classification du risque.

91,76%

87,74%

8,24%

12,26%

1an 2ans

Pourcentage du risque postopératoire

sans risque avec risque

(7)

TABLE 2 : Comparaison des taux de prédiction des arbres de décision utilisés

Risque durant l’année postopératoire Risque durant les 2 années postopératoire

CART C5.0 CART C5.0

Précision 65.3% 63.1% 62.96% 62.3%

Sensibilité 60.73% 59.74% 59.42% 59.32%

Spécificité 75.29% 70.45% 71.73% 69.64%

2.2 Règles extraites à partir des arbres de décision

Chaque arbre de décision fournit un ensemble de règles. Toutefois ces règles sélectionnées ont été évaluées selon leur support qui doit être supérieur à 20% et leur confiance qui doit respecter un seuil supérieur à 60%

(cf. table 3).Ainsi les règles avec un petit nombre d’enregistrements ont été ignorées. L’analyse des règles a été portée sur le modèle ayant le plus grand taux de la sensibilité.

TABLE 3 : Règles extraites de CART pour risque=1 (basé sur le codage donné dans la Table 2) Sexe Age ALD_DIABETE ALD_HTA ALD_CARDIOVASCULAIRE ALD_TM Confiance

F 2 ; 5 0 * 0 * 60.9%

F 2 ; 5 1 1 0 * 62.1%

M 2 ; 4 ;

5

* * * * 63.1%

*Non signifiant

Ainsi la deuxième ligne de la table 3 se lit comme suit : si le sexe est féminin dont l’âge appartient au groupe 2 ou 5 avec existence de diabète, de l’hypertension artérielle et sans antécédents cardiovasculaires le risque de décès durant l’année postopératoire est de 62.1%.

Nous modifions le modèle de classification en enlevant le champ « sexe » pour analyser le risque sur les patients sans distinction de sexe, nous réexécutons le modèle CART en enlevant la variable discriminante et on obtient un arbre de classification avec les taux 62.22% ; 60.02% et 67.38% respectivement pour la précision, la sensibilité et la spécificité. De même les règles sont extraites et évaluées (cf. table 4).

(8)

TABLE 4 : Règle extraite du modèle précédent modifié pour risque=1 (basé sur codage donné dans la Table 2)

Age ALD_DIABETE ALD_HTA ALD_CARDIOVASCULAIRE ALD_TM Confiance

4 * * 1 * 70%

2.3 Discussion

Les facteurs de risques les plus importants extraits à partir de l’analyse des règles des classificateurs sont : le sexe, l’âge, le diabète, l’hypertension artérielle et les antécédents cardiovasculaires. Ces facteurs ont été aussi surlignés par d’autres travaux.

Notamment [Churchill et al.1992] ont montré que le vieillissement et les antécédents cardiovasculaires sont associés à une grande probabilité de mortalité dans le cadre d’une étude déterminant les probabilités de mortalité parmi les patients ayant recours à une hémodialyse.

[Mailloux et al.,1991 ] ont trouvé que la mortalité durant les 4 premières années est composée en grande partie des décès suite à une infection et des problèmes cardiaques.

Quant à [Woods et al.,1997] les résultats de leur analyse des facteurs déterminant la survie des patients utilisant un accès vasculaire pour l’hémodialyse indiquent que le vieillissement, l’augmentation de la prévalence des patients atteints de diabète , et une augmentation des patients ayant une insuffisance rénale avec une comorbidité médicale complexe contribuent à une mortalité plus élevée observée chez les patients recevant des thérapies d'hémodialyse au Etats-Unis.

[Lowrie et al .1990 ] ont constaté que le risque de décès après une année postopératoire augmente de façon indépendante par un faible sérum albumine, la créatinine, le taux de cholestérol; le sexe masculin, et le vieillissement .

Toutefois les limitations de ce travail sont l’absence de certaines mesures et précisions concernant le patient notamment son mode de vie et les mesures cliniques.

Conclusion

Nous avons utilisées les arbres de décision afin d’analyser le risque de mortalité postopératoire lors de la création d’une fistule artério-veineuse. Deux modèles d’arbres de décision ont été étudiés : CART et C5.0. Plus particulièrement CART a donné de meilleurs résultats dans la classification du risque étudié. Ensuite nous avons pu spécifier les facteurs de risque à partir des règles extraites du modèle le plus performant. Les facteurs de risques les plus importants extraits sont : le sexe, l’âge, le diabète, l’hypertension artérielle et les antécédents cardiovasculaires. Ces facteurs ont été aussi confirmés par d’autres travaux. Ainsi cela permettra le ciblage des patients à haut risque.

Cependant, d’autres analyses sont nécessaires notamment l’utilisation d’un plus grand ensemble de données, l’application d'autres algorithmes de Data Mining notamment les réseaux de neurones et les règles d’association

Références

Berry , M. J., & Linoff, G. S. (2004). Data Mining Techniques For Marketing, Sales, and Customer Relationship Managment. Indianapolis: Wiley Publishing, Inc.

(9)

Chae, Y. M., Ho, S. H., Cho, K. W., Lee, D. H., & Ji, S. H. (2001). Data mining approach to policy analysis in a health insurance domain. International journal of medical informatics, 62(2), 103-111.

Chawla, N. V. (2010). Data Mining and Knowledge Discovery Handbook,chapter Data mining for imbalanced datasets: an overview, pages 875-886. Springer.

Churchill, D. N., Taylor, D. W., Cook, R. J., LaPlante, P., Barre, P., Cartier, P., ... & McKenzie, J. K. (1992).

Canadian hemodialysis morbidity study. American Journal of Kidney Diseases, 19(3), 214-234.

Easton, J. F. , Stephens, C.R., Angelova, M. (2014). Risk factors and prediction of very short term versus short/intermediate term post-stroke mortality: A data mining approach. Computers in Biology and Medicine 54 199–210

Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., et Uthurusamy, R. (1996). Advances in Knowledge Discovery and Data Mining., AAAI/MIT Press,editors.

Hajakbari, M.S., Minaei-Bidgoli, B. (2014), A new scoring system for assessing the risk of occupational accidents: A case study using data mining techniques with Iran’s Ministry of Labor data, Journal of Loss Prevention in the Process Industries, doi: 10.1016/j.jlp.2014.10.013.

Han, J., & Kamber, M. (2000). Data mining: concepts and techniques (the Morgan Kaufmann Series in data management systems).

Ivanˇcevića, V., Tuˇsekb I., Tuˇsekc,J., Kneˇzevića,K.,Elheshka,S., Lukovića,I.(2015), Using association rule mining to identify risk factors for early childhood caries, c o m p u t e r m e t h o d s a n d p r o g r a m s i n b i o medicine x x x ( 2 0 1 5 ) xxx–xxx

Jiber, H., Zrihni, Y., Zaghloul, R., Hajji, R., Zizi, O., & Bouarhroum, A. (2015). Prise en charge des complications des fistules artério-veineuses pour hémodialyse chronique. Pan African Medical Journal, 20(1).

Kodratoff, Y., Napoli, A., et Zighed, D. (2001), Bulletin de l’association française d’intelligence artiffcielle, extraction de connaissances dans des bases de données.

Lowrie, E. G., & Lew, N. L. (1990). Death risk in hemodialysis patients: the predictive value of commonly measured variables and an evaluation of death rate differences between facilities. American Journal of Kidney Diseases, 15(5), 458-482.

Mailloux, L. U., Bellucci, A. G., Wilkes, B. M., Napolitano, B., Mossey, R. T., Lesser, M., & Bluestone, P. A.

(1991). Mortality in dialysis patients: analysis of the causes of death. American journal of kidney diseases, 18(3), 326-335.

Mazurowski, M. A., Habas, P. A., Zurada, J. M., Lo, J. Y., Baker, J. A.,and Tourassi, G. D. (2008). Training neural network classifiers for medical decision making: The effects of imbalanced datasets on classification performance. Neural Networks, 21(2-3):427{436.

Minetti, L., Civati, G., Brando, B., BUSNACH, G., BROGGI, M., & SEVESO, M. (1985, January). A comparison between maitenance hemodialysis and transplantation in the treatment of end-stage renal disease. In transplantation proceedings (Vol. 17, pp. 28-31). 655 avenue of the Americas, New York, NY 10010: Elsevier

(10)

science inc..

National Cancer Institute (2012). SEER stat fact sheets: Breast. http://seer.cancer.gov, le 2 Janvier 2016.

Organisation Mondiale de la Santé (2008).Une chirurgie plus sûre pour épargner des vies – WHO/IER/PSP/2008.07.

Parsaye, K., Chignell, M., Khosha an, S., et Wong, H. (1989), Intelligent Databases; Object-Oriented, Deductive Hypermedia Technologies, John Wiley & Sons.

Quinlan, J. R. (2014). C4. 5: programs for machine learning. Elsevier.

Raju, D., Su,X., Patrician, P.A. , Loan, L. A. , McCarthy, M. S. (2015). Exploring factors associated with pressure ulcers: A data mining approach International Journal of Nursing Studies 52 102–111

Seliya, N., Khoshgoftaar, T. M., & Van Hulse, J. (2009, November). A study on the relationships of classifier performance metrics. In Tools with Artificial Intelligence, 2009. ICTAI'09. 21st International Conference on (pp.

59-66). IEEE.

T'Sou, B. K., Lai, T. B., Chan, S. W., Gao, W., & Zhan, X. (2000). Enhancement of a Chinese Discourse Marker Tagger with C4.5. CLPW '00 Proceedings of the second workshop on Chinese language processing: held in conjunction with the 38th Annual Meeting of the Association for Computational Linguistics. 12, pp. 38-45.

Stroudsburg, PA, USA : Association for Computational Linguistics.

Woods, J. D., Turenne, M. N., Strawderman, R. L., Young, E. W., Hirth, R. A., Port, F. K., & Held, P. J. (1997).

Vascular access survival among incident hemodialysis patients in the United States. American journal of kidney diseases, 30(1), 50-57.

Zheng, B., Zhang, J., Yoon, S. W., Lam, S. S., Khasawneh, M., & Poranki, S. (2015). Predictive modeling of hospital readmissions using metaheuristics and data mining. Expert Systems with Applications.