ارائه روشی ترکیبی جهت تشخیص بیماری قلبی با بهره گیری از رویکردهای انتخاب ویژگی تلفیقی و طبقه بندی بهینه
محورهای موضوعی : مهندسی برق و کامپیوتر
مارال كلاه كج
1
*
,
مرجان مطیعی زاده
2
1 - گروه مهندسی کامپیوتر، واحد سوسنگرد، دانشگاه آزاد اسلامی، سوسنگرد، ایران
2 - گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی، اهواز، ایران
کلید واژه: انتخاب ویژگی, الگوریتم قورباغه, تشخیص بیماری قلبی, طبقهبندی ELM, کرنل موجک,
چکیده مقاله :
بیماریهای قلبی یکی از مهمترین عوامل مرگومیر در جهان محسوب میشوند و تشخیص زودهنگام آنها از اهمیت بالایی برخوردار است. روشهای موجود در انتخاب ویژگی برای تشخیص بیماری قلبی معمولاً محدود به استفاده از یک الگوریتم واحد بوده و ممکن است منجر به انتخاب ویژگیهای زائد یا حذف ویژگیهای مهم شوند که این امر دقت طبقهبندی را کاهش میدهد. در این مقاله، روش ترکیبی جدیدی برای انتخاب ویژگی ارائه شده که با بهرهگیری از تلفیق نرم نتایج چند الگوریتم انتخاب ویژگی، ویژگیهای کارآمدتر و مرتبطتر شناسایی میشوند. همچنین برای افزایش دقت و سرعت تشخیص، از طبقهبندی ماشین یادگیری حداکثری با کرنل موجک استفاده شده که پارامترهای آن توسط نسخه اصلاحشده الگوریتم فراابتکاری قورباغه بهینه میشوند. این الگوریتم اصلاحشده شامل مکانیزم وزندهی پویا و ترکیب با الگوریتم ژنتیک میباشد که به بهبود دقت و سرعت طبقهبندی کمک میکند. برای اثبات توانمندی و تعمیمپذیری روش، آن بر روی سه مجموعه داده معتبر UCI آزمایش شده که نتایج ارزیابی نشان میدهند دقت مدل پیشنهادی به 3/93% رسیده است. نتایج بیانگر توانمندی و تعمیمپذیری بالای روش پیشنهادی در تشخیص بیماری قلبی میباشد.
Heart disease is one of the leading causes of mortality worldwide, and its early diagnosis is of great importance. Existing feature selection methods for heart disease diagnosis are typically limited to using a single algorithm, which may lead to the selection of redundant features or the omission of important ones, consequently reducing classification accuracy. In this paper, a novel hybrid method for feature selection is proposed, which identifies more efficient and relevant features by employing a soft integration of the results from multiple feature selection algorithms. To enhance the accuracy and speed of diagnosis, an Extreme Learning Machine (ELM) classifier with a wavelet kernel is utilized, where its parameters are optimized using a modified version of the Shuffled Frog-Leaping Algorithm (SFLA). The improved algorithm incorporates a dynamic weighting mechanism and is combined with a Genetic Algorithm (GA), contributing to improved classification accuracy and speed. To demonstrate the robustness and generalizability of the proposed method, it is tested on three well-known UCI datasets. Evaluation results show that the proposed model achieves an accuracy of 93.3%. These findings highlight the high capability and generalization power of the proposed method in heart disease diagnosis.
[1] E. J. Nelwan, E. Widjajanto, S. Andarini, and M. S. Djati, "Modified risk factors for coronary heart disease (CHD) in Minahasa ethnic group from Manado city Indonesia," J. of Experimental Life Science, vol. 6, no. 2, pp. 88-94, Apr. 2017.
[2] C. J. Taylor and J. Moore, "NICE chronic heart failure update guideline 2018," Primary Care Cardiovascular J., vol. 3, no. 9, pp. 1-3, Apr. 2019.
[3] S. Citlik-Saritas, S. Saritas, R. Cevik-Akyil, and K. Isik, "The effects of Turkish classical music on physiological parameters, pain and analgesic use in patients with myocardial infarction: a non-randomized controlled study," Eur. J. of Integrative Medicine, vol. 22, pp. 50-53, Sept. 2018.
[4] M. Adam, et al., "Automated characterization of cardiovascular diseases using relative wavelet nonlinear features extracted from ECG signals," Comput. Methods and Programs in Biomedicine, vol. 161, pp. 133-143, Jul. 2018.
[5] M. Kolahkaj, A. Harounabadi, and M. Sadeghzade, "A recommender system for web mining using neural network and fuzzy algorithm," Int. J. of Computer Applications, vol. 78, no. 8, pp. 20-24, Sept. 2013.
[6] م. کلاه¬کج، "ارائه سیستم بازیابی تصاویر مبتنی بر محتوا با بهرهگیری از یادگیری نیمه¬نظارتشده و کاوش الگوهای مکرر انجمنی،" نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 20، شماره 3، صص. 252-245، پاییز 1401.
[7] K. Oh, Z. Li, B. S. Oh, and K. A. Toh, "Optimizing between data transformation and parametric weighting for stable binary classification," J. of the Franklin Institute, vol. 355, no. 4, pp. 1614-1637, Mar. 2018.
[8] M. Kolahkaj, "An image retrieval approach based on feature extraction and self-supervised learning," in Proc. 2nd Int. Conf. on Distributed Computing and High-Performance Computing, pp. 46-51, Qom, Iran, 2-3 Mar. 2022.
[9] C. Berry, D. R. Murdoch, and J. J. McMurray, "Economics of chronic heart failure," Eur. J. of Heart Failure, vol. 3, no. 3, pp. 283-291, Jun. 2001.
[10] J. C. de la Torre, "Hemodynamic instability in heart failure intensifies age-dependent cognitive decline," J. of Alzheimer's Disease, vol. 76, no. 1, pp. 63–84, May 2020.
[11] H. Linusson, U. Johansson, H. Boström, and T. Löfström, "Classification with reject option using conformal prediction," in Proc. Pacific-Asia Conf. on Knowledge Discovery and Data Mining, pp. 94-105, Melbourne, Australia, 3-6 Jun. 2018.
[12] J. Qiu, J. Xie, D. Zhang, and R. Zhang, "A robust twin support vector machine based on fuzzy systems," Int. J. of Intelligent Computing and Cybernetics, vol. 17, no. 1, pp. 101-125, Feb. 2024.
[13] B. Sahmadi and D. Boughaci, "Hybrid genetic algorithm with SVM for medical data classification," in Proc. Int. Conf. on Applied Smart Systems, 6 pp., Medea, Algeria, 24-25 Nov. 2018.
[14] S. Chen, J. Cao, F. Chen, and B. Liu, "Entropy-based fuzzy least squares twin support vector machine for pattern classification," Neural Processing Letters, vol. 51, no. 1, pp. 41-66, Feb. 2020.
[15] Z. Zainuddin, K. H. Lai, and P. Ong, "An enhanced harmony searches-based algorithm for feature selection: applications in epileptic seizure detection and prediction," Computers & Electrical Engineering, vol. 53, pp. 143-162, Jul. 2016.
[16] M. Nekkaa and D. Boughaci, "Hybrid harmony search combined with stochastic local search for feature selection," Neural Processing Letters, vol. 44, no. 1, pp. 199-220, Aug. 2016.
[17] D. Karaboga and C. Ozturk, "A novel clustering approach: artificial bee colony (ABC) algorithm," Appl. Soft Computing, vol. 11, no. 1, pp. 652-657, Jan. 2011.
[18] P. Tapkan, L. Özbakır, S. Kulluk, and A. Baykasoğlu, "A cost-sensitive classification algorithm: BEE-Miner," Knowledge-Based Systems, vol. 95, pp. 99-113, Mar. 2016.
[19] X. Lai, Z. Zhang, H. Chen, L. Zhang, Z. Li, and W. Lu, "Tracking-removed neural network with graph information for classification of incomplete data," Appl. Intelligence, vol. 55, no. 3, pp. 1-20, Feb. 2025.
[20] J. Wu, S. Pan, X. Zhu, P. Zhang, and C. Zhang, "Sode: self-adaptive one-dependence estimators for classification," Pattern Recognition, vol. 51, pp. 358-377, Mar. 2016.
[21] X. Zhu, et al., "Confidence guided semi-supervised cross-modality person re-identification," Pattern Recognition, vol. 165, Article ID: 111669, Sept. 2025.
[22] X. Wang, G. Wu, G. Hao, and Z. Zhang, "A novel fuzzy twin support vector machine using mass-based dissimilarity measure," Knowledge and Information Systems, vol. 55, no. 5, pp. 4233-4300, Jan. 2025.
[23] B. Aydïlek, "Examining effects of the support vector machines kernel types on biomedical data classification," in Proc. Int. Conf. on Artificial Intelligence and Data Processing, 4 pp., Maltaya, Turkey, 28-30 Sept. 2018.
[24] S. Chen, J. Cao, and Z. Huang, "Weighted linear loss projection twin support vector machine for pattern classification," IEEE Access, vol. 7, pp. 57349-57360, 2019.
[25] S. Lee and C. H. Jun, "Fast incremental learning of logistic model tree using least angle regression," Expert Systems with Applications, vol. 97, pp. 137-145, May 2018.
[26] H. Wang, P. Li, Y. Zheng, K. Jiang, and Y. Xu, "Sparse pinball universum nonparallel support vector machine and its safe screening rule," Appl. Intelligence, vol. 55, no. 6, pp. 563-580, Apr. 2025.
[27] C. T. Tran, M. Zhang, P. Andreae, B. Xue, and L. T. Bui, "An effective and efficient approach to classification with incomplete data," Knowledge-Based Systems, vol. 154, pp. 1-16, Aug. 2018.
[28] A. K. Jović, K. Brkić, and N. Bogunović, "A review of feature selection methods with applications," in Proc. 38th Int. Convention on Information and Communication Technology, Electronics and Microelectronics, pp. 1200-1205, Opatija, Croatia, 25-29 May 2015.
[29] J. Hamidzadeh, Z. Mehravaran, and A. Harati, "Feature selection by utilizing kernel-based fuzzy rough set and entropy-based non-dominated sorting genetic algorithm in multi-label data," Knowledge and Information Systems, vol. 67, no. 4, pp. 3789–3819, Apr. 2025.
[30] S. Narayanamoorthy, S. Geetha, R. Rakkiyappan, and Y. H. Joo, "Interval-valued intuitionistic hesitant fuzzy entropy based VIKOR method for industrial robots' selection," Expert Systems with Applications, vol. 121, pp. 28-37, May 2019.
[31] I. Kadhim Ajlan, H. Murad, A. A. Salim, and A. Fadhil Bin Yousif, "Extreme learning machine algorithm for breast cancer diagnosis," Multimedia Tools and Applications, vol. 84, pp. 14739-14758, 2024.
[32] X. Zhang, X. Hu, G. Cui, Y. Wang, and Y. Niu, "An improved shuffled frog leaping algorithm with cognitive behavior," in Proc. 7th World Congress on Intelligent Control and Automation, pp. 6197-6202, Chongqing, China, 25-27, Jun. 2008.
[33] UCI Machine Learning Repository, Heart Disease, 1988, available at https://www.archive.ics.uci.edu/ml/datasets/Heart+Disease
[34] G. Moody and R. Mark, MIT-BIH Arrhythmia Database, 2025, available at https://physionet.org/content/mitdb/1.0.0/
[35] J. Wu, S. Pan, X. Zhu, Z. Cai, P. Zhang, and C. Zhang, "Self-adaptive attribute weighting for Naive Bayes classification," Expert Systems with Applications, vol. 42, no. 3, pp. 1487-1502, Feb. 2015.
[36] P. Shunmugapriya and S. Kanmani, "A hybrid algorithm using ant and bee colony optimization for feature selection and classification (AC-ABC Hybrid)," Swarm and Evolutionary Computation, vol. 36, pp. 27-36, Oct. 2017.
[37] X. J. Shen, Y. Dong, J. P. Gou, Y. Z. Zhan, and J. Fan, "Least squares kernel ensemble regression in reproducing kernel Hilbert space," Neurocomputing, vol. 311, pp. 235-244, Oct. 2018.
[38] C. Yang and X. C. Yin, "Diversity-based random forests with sample weight learning," Cognitive Computation, vol. 11, no. 5, pp. 685-696, Oct. 2019.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 23، شماره 2، تابستان 1404 121
مقاله پژوهشی
ارائه روشی ترکیبی جهت تشخیص بیماری قلبی با بهرهگیری از رویکردهای انتخاب ویژگی تلفیقی و طبقهبندی بهینه
مرجان مطیعیزاده و مارال کلاهکج
چکیده: بیماریهای قلبی یکی از مهمترین عوامل مرگومیر در جهان محسوب میشوند و تشخیص زودهنگام آنها از اهمیت بالایی برخوردار است. روشهای موجود در انتخاب ویژگی برای تشخیص بیماری قلبی معمولاً محدود به استفاده از یک الگوریتم واحد بوده و ممکن است منجر به انتخاب ویژگیهای زائد یا حذف ویژگیهای مهم شوند که این امر دقت طبقهبندی را کاهش میدهد. در این مقاله، روش ترکیبی جدیدی برای انتخاب ویژگی ارائه شده که با بهرهگیری از تلفیق نرم نتایج چند الگوریتم انتخاب ویژگی، ویژگیهای کارآمدتر و مرتبطتر شناسایی میشوند. همچنین برای افزایش دقت و سرعت تشخیص، از طبقهبندی ماشین یادگیری حداکثری با کرنل موجک استفاده شده که پارامترهای آن توسط نسخه اصلاحشده الگوریتم فراابتکاری قورباغه بهینه میشوند. این الگوریتم اصلاحشده شامل مکانیزم وزندهی پویا و ترکیب با الگوریتم ژنتیک میباشد که به بهبود دقت و سرعت طبقهبندی کمک میکند. برای اثبات توانمندی و تعمیمپذیری روش، آن بر روی سه مجموعه داده معتبر UCI آزمایش شده که نتایج ارزیابی نشان میدهند دقت مدل پیشنهادی به 3/93% رسیده است. نتایج بیانگر توانمندی و تعمیمپذیری بالای روش پیشنهادی در تشخیص بیماری قلبی میباشد.
کلیدواژه: انتخاب ویژگی، الگوریتم قورباغه، تشخیص بیماری قلبی، طبقهبندی ELM، کرنل موجک.
1- مقدمه
بیماریهای قلبی و عروقی در سراسر جهان یکی از اصلیترین دلایل مرگومیر به شمار میروند. بر اساس گزارش سازمان بهداشت جهانی (WHO)، سالیانه بیش از ۱۷ میلیون نفر بر اثر این بیماریها جان خود را از دست میدهند که این رقم حدود ۳۰% کل مرگومیرهای جهانی را تشکیل میدهد [1] و [2]. پیشبینیها نشان میدهد که این تعداد تا سال ۲۰۳۰ به بیش از ۲۳ میلیون نفر افزایش یابد [3]. تشخیص دقیق و زودهنگام بیماریهای قلبی به علت پیچیدگی عملکرد قلب و تفاوتهای فردی، کاری تخصصی و زمانبر است که معمولاً نیاز به تجربه بالینی فراوان دارد [4].
در سالهای اخیر، استفاده از سیستمهای مبتنی بر یادگیری ماشین [5] و انتخاب ویژگی [6] برای تحلیل دادههای پزشکی و بهویژه تشخیص بیماری قلبی افزایش یافته که میتواند تا حد چشمگیری دقت و صحت تشخیص را افزایش دهد و مراجعات مکرر بیمار را به مراکز درمانی به حداقل رساند [7]. با این حال، بسیاری از روشهای موجود تنها از یک الگوریتم انتخاب ویژگی بهره میبرند [8] که ممکن است باعث انتخاب ویژگیهای زائد و کاهش دقت طبقهبندی شود [9]. همچنین روشهای طبقهبندی متداول دارای محدودیتهایی در سرعت و دقت تشخیص هستند [10] و [11]؛ بنابراین اگر بتوان به ساختاری خودکار بهعنوان ابزاری جدید در علم پزشکی جهت شناسایی غیرتهاجمی آریتمی قلبی مبتنی بر تحلیل سیگنال با دقت و سرعت مناسب دست یافت و نتایج را در اختیار پزشک قرار داد، میتوان درمانی زودهنگام را همگام با آن آغاز کرد [12] و [13]. این از موضوعات حائز اهمیت در حوزه تشخیص زودهنگام و پیشگیری از حادشدن بیماری شناخته میشود [14].
هدف اصلی این تحقیق، ارائه روشی ترکیبی است که با استفاده از تلفیق الگوریتمهای انتخاب ویژگی، ویژگیهای مرتبطتر و مؤثرتری را استخراج کند و با بهرهگیری از طبقهبندی ماشین یادگیری حداکثری با کرنل موجک و بهینهسازی پارامترهای آن توسط الگوریتم قورباغه بهینهشده، دقت و سرعت تشخیص بیماری قلبی را افزایش دهد. در این روش، خروجیهای الگوریتمهای مختلف انتخاب ویژگی با یکدیگر تلفیق شده و با استفاده از رأیگیری نرم، ویژگیهایی که به طور مکرر اهمیت بالایی دارند انتخاب میشوند. این رویکرد باعث افزایش دقت و کاهش تأثیر ویژگیهای زائد میگردد. همچنین در این تحقیق، الگوریتم فراابتکاری قورباغه به منظور بهینهسازی پارامترهای طبقهبند ماشین یادگیری حداکثری به کار رفته است. به منظور افزایش توانایی کاوش و بهبود سرعت همگرایی، نسخه اصلاحشدهای از الگوریتم قورباغه ارائه شده که شامل دو تغییر کلیدی میباشد: 1) افزودن مکانیزم وزندهی پویا برای ویژگیها در هر نسل، به گونهای که اهمیت هر ویژگی بر اساس تأثیر آن روی خطا بهروزرسانی میشود. این مکانیزم باعث شناسایی سریعتر ویژگیهای مؤثر و حذف ویژگیهای زائد میشود. 2) ترکیب الگوریتم قورباغه با الگوریتم ژنتیک در قالب یک فرایند ترکیبی که پس از هر چند نسل قورباغه، عملیات جهش و ترکیب راهحلها انجام میشود تا از گیرافتادن در بهینههای محلی جلوگیری گردد. این اصلاحات منجر به بهبود دقت و سرعت طبقهبندی در تشخیص بیماری قلبی شده است. نتایج نشان میدهند که این رویکرد نسبت به روشهای مشابه، عملکرد بهتری در تشخیص بیماری قلبی دارد.
بهصورت خلاصه، جهت دستیابی به نتایج مطلوب، کار اصلی در این مقاله به شرح ذیل میباشد:
• معرفی روش ترکیبی انتخاب ویژگی با رأیگیری نرم
• بهکارگیری طبقهبندی ماشین یادگیری حداکثری با کرنل موجک
• بهینهسازی پارامترهای طبقهبند توسط الگوریتم قورباغه بهینهشده
• بهبود دقت و سرعت تشخیص بیماری قلبی نسبت به روشهای موجود
2- پیشینه تحقیق
در جهت تشخیص بیماری، روشهای انتخاب ویژگی مورد توجه بوده که از آن جمله میتوان به [15] اشاره کرد که از جستجوی هارمونی 2(HSA) و جستجوی محلی تصادفی 3(SLS) جهت انتخاب ویژگیها استفاده نموده و نهایتاً برای یافتن پارامترهای طبقهبندی ماشین بردار پشتیبان از الگوریتم جستجوی هارمونی- جستجوی محلی تصادفی ترکیبی نیز استفاده کردهاند. این تحقیق مشابه با [16] بود، با این تفاوت که تکنیکهای جستجو تغییر کرده است.
استفاده از الگوریتمهای مبتنی بر انتخاب ویژگی شامل الگوریتم کلونی مورچگان و الگوریتم زنبور عسل از جمله تکنیکهای فرااکتشافی است که میتوانند در تفکیک ویژگیهای مناسب و بهتبع آن، طبقهبندی مناسب به کار گرفته شوند [17]. در تحقیق Tapkan و همکاران [18] روش طبقهبندی حساس به هزینه با عنوان الگوریتم BEE-Miner با استفاده از الگوریتم زنبور عسل بهبودیافته، پیشنهاد شده است. در این تحقیق برای داده قلبی دوکلاسه با ۲۷۰ نمونه، بر اساس روش پیشنهادیشان، دقتی معادل ۶۷/۷۵% به دست آمده است.
مرجع [19] یک شبکه عصبی جدید معرفی میکند که با بهرهگیری از اطلاعات گراف برای طبقهبندی دادههای ناقص طراحی شده است. رویکرد پیشنهادی بدون نیاز به تکمیلسازی دادههای ناقص، ویژگیهای مؤثر را از طریق ساختار گرافی استخراج کرده و عملکرد مدل را در مواجهه با دادههای ناقص بهطور قابل توجهی بهبود میدهد.
در [20] برای بهینگی مدل SPODEs از الگوریتم ایمنی مصنوعی بهره گرفته شده است. در این تحقیق، آنها دادههای نارسایی قلبی پنجکلاسه را به دوکلاسه تبدیل کردند و دقت ۸۰/۸۳% را به دست آوردند. ایراد کار آنها در آن بود که برای حالت چندکلاسی دقت مناسبی به دست نیاورده بودند.
در [21]، یک روش شناسایی مجدد افراد بین مدالیته بهصورت نیمهنظارتی و مبتنی بر اعتماد پیشنهاد شده است. روش معرفیشده از برچسبگذاری خودکار نمونهها با سطح اعتماد بالا بهره میبرد تا یادگیری بین تصاویر رنگی و مادون قرمز را بهینهسازی کرده و دقت بازشناسایی را در سناریوهای چندحسی بهبود دهد.
مرجع [22] مدل جدیدی مبتنی بر معیار ناپارگی جرمی ارائه داده است. این مدل برای بهبود دقت طبقهبندی در دادههای نویزی و غیرقطعی طراحی شده و از مفاهیم فازی برای مقابله با عدم قطعیت و از فاصلههای جرمی برای سنجش شباهت مؤثرتر میان نمونهها استفاده میکند. نتایج تجربی نشان میدهند که FTSVM پیشنهادی عملکرد بالاتری نسبت به سایر روشهای فازی دارد.
در [23]، انواع مختلف کرنلهایی که در ماشین بردار پشتیبان استفاده شده، با استفاده از دادههای زیست پزشکی مورد بررسی و مقایسه قرار گرفته است. نتایج تجربی نشان میدهد که استفاده از نوع کرنل مناسب در طبقهبندیکننده ماشین بردار پشتیبان بر روی دادههای زیست پزشکی، نتایج طبقهبندی موفقیتآمیز و قابل اطمینانتری را ارائه میدهد.
در [24] بر اساس روش ماشین بردار پشتیبانی دوقلو پیشبینی و حداقل مربعات ماشین بردار پشتیبانی دوقلو، یک روش مبتنی بر ماشین بردار پشتیبان دوقلوی مبتنی بر مدل خطی وزنی پیشنهاد شده است. آزمایشهای انجامشده روی مجموعه دادههای قلبی منجر به دستیابی به دقت ۸۵ درصد در حالت دوکلاسه با ۳۰۳ نمونه شده است.
در [25]، یک روش کارآمد برای یادگیری مدلهای رگرسیون لجستیک در درخت پیشنهاد شده است. آنها حداقل رگرسیون زاویهای را برای بهروزرسانی مدل رگرسیون در LogitBoost به کار میگیرند تا الگوریتم بهطور مؤثری مدلهای رگرسیون لجستیک پراکنده را که از متغیرهای ورودی مربوطه یاد میگیرد، بیاموزد. برای دادههای قلبی در حالت دوکلاسی به دقت ۱/۸۳ درصد دست یافتند.
Wang و همکاران [26] مدلی جدید معرفی کردهاند که ترکیبی از یادگیری تُنک، تابع پینبال و مفهوم Universum در طبقهبندهای غیرموازی است. این مدل با هدف بهبود دقت و کاهش پیچیدگی محاسباتی در مسائل طبقهبندی توسعه یافته و نیز یک قانون پالایش ایمن برای کاهش ابعاد داده و تسریع فرایند آموزش ارائه شده است. نتایج تجربی نشان دادهاند که این مدل نسبت به مدلهای مشابه، عملکرد بهتری در دقت و کارایی دارد.
در [13]، یک روش انتخاب زیرمجموعه ویژگی با استفاده از ترکیب یک الگوریتم ژنتیک با یک الگوریتم فرااکتشافی شبیهسازی شده و همراه با طبقهبندی ماشین بردار پشتیبان ارائه گردیده است. در تحقیق آنها بهواسطه طبقهبندی مدل برای دادههای قلبی با ۳۰۳ نمونه و در حالت دوکلاسی دقت ۲۱/۸۴ درصد محاسبه شده است.
تحقیق [27] با یکپارچهسازی انتساب و انتخاب ویژگیهای مبتنی بر الگوریتم ژنتیک، پیشرفت در رویکرد گروهی را پیشنهاد میدهد. انتخاب ویژگی، تعداد الگوهای ازدسترفته را کاهش میدهد و باعث افزایش سرعت طبقهبندی خواهد شد. همچنین کسری از نمونههای جدید را که میتوان توسط گروه طبقهبندی کرد تا حد زیادی افزایش داد. در این تحقیق برای دادههای قلبی با حالت پنجکلاسه و ۳۰۳ نمونه به دقت ۰۸/۵۸ درصد دست پیدا کردند.
3- روش پیشنهادی
مدل پیشنهادی ترکیبی از روشهای انتخاب ویژگی و تلفیق پاسخها
و نیز طبقهبندی پاسخهاست. همچنین برای بهینهنمودن جوابها از بهینهسازی طبقهبندی استفاده شده است. روند کار به این صورت است که ابتدا پیشپردازشهایی بهمنظور بهبود کیفیت ویژگیها انجام میگیرد. در ادامه ویژگیها نرمال شده و در مرحله انتخاب ویژگی، تعدادی از ویژگیها بهعنوان زیرمجموعه ویژگی کلینیکی انتخاب میشوند. مرحله یادگیری و طبقهبندی در دو گام انجام میگیرد؛ به طوری که ابتدا توسط اعمال روش ماشین با امکان یادگیری حداکثری و بهبود آن توسط نسخه بهبودیافته الگوریتم قورباغه، نمونههای سالم و دارای بیماری نارسایی قلبی از هم تفکیک میشوند. در مرحله دوم محکهای ارزیابی خطا و دقت برای هر دو بخش داده آزمایشی و آموزشی پیادهسازی میشوند. در شکل 1 فلوچارت کلی روش پیشنهادی نشان داده شده است.
3-1 پیشپردازش
ابتدا پیشپردازشهایی بهمنظور بهبود کیفیت ویژگیها بر روی آنها انجام میگیرد. در این مرحله با استفاده از نرمالسازی و یافتن مقادیر ازدسترفته از طریق مشابهترین همسایگی پیشپردازش انجام میشود.
شکل 1: مراحل الگوریتم پیشنهادی.
3-2 انتخاب ویژگی
در این مرحله، ابتدا از سه روش انتخاب ویژگی فیلتری عام، Wrapper و Relief جهت انتخاب ویژگی استفاده میشود. سپس از سه بردار
ویژگی حاصل از سه روش مذکور به روش رأیگیری نرم، بهترین بردار ویژگی انتخاب خواهد شد. در ادامه هر یک از معیارها بهصورت مجزا تشریح میشوند.
الف) روش فیلتر
اگر انتخاب ویژگی مستقل از هر گونه الگوریتم یادگیری انجام شود، آن روش را شیوه فیلتر یا حلقه باز گویند. در این مورد، ویژگیهای نامطلوب پیش از استنتاج کنار زده خواهند شد. در روش مورد نظر، ابتدا ویژگیهای مربوط به بیماری در چند گروه مشخص تقسیمبندی میشوند و برای هر گروه یک امتیاز به نام
به هر گروه مطابق (1) تعلق میگیرد. گروهها بر اساس وزنی که دریافت کردهاند، مرتب میشوند و گروهی که بر اساس بهترین ویژگیها در رأس این امتیازبندی قرار میگیرد، بهعنوان خروجی اولیه شناخته خواهد شد
(1)
که در آن و
به ترتیب نمایانگر انحراف متوسط و انحراف استاندارد ویژگیهای بیماری قلبی و
و
نیز به ترتیب نمایانگر انحراف متوسط و انحراف استاندارد نمونههای سالم هستند.
ب) روش Wrapper
اگر روند ارزیابی انتخاب ویژگی با یک الگوریتم طبقهبندی در ارتباط باشد، روش انتخاب ویژگی را پیچشی یا حلقه بسته مینامند. روش پیچشی، جستجو در فضای زیرمجموعهها را بر اساس تخمین دقت ناشی از انتخاب یک زیرمجموعه خاص تحت شرایط الگوریتم طبقهبندی مورد استفاده بهعنوان معیاری از بهینگی آن زیرمجموعه انجام میدهد
[28]. این روش از استراتژیهای جستجو مانند انتخاب متوالی روبهجلو4
و انتخاب متوالی روبهعقب5 استفاده میکند. در این رویکرد، تمامی زیرمجموعههای ممکن از ویژگیها در نظر گرفته میشود و با ارزیابی همه حالتها، بهترین آنها که کمترین خطای عمومی را به همراه دارد، انتخاب میشود.
ج) روش Relief
ایده اصلی این الگوریتم آن است که هرچه اختلاف بین یک ویژگی در نمونه انتخابشده و نزدیکترین برخورد کمتر باشد، این ویژگی بهتر است و بهعلاوه یک ویژگی خوب آن است که اختلاف بین اندازه آن ویژگی و نزدیکترین شکست وی بیشتر باشد. الگوریتم پس از تعیین نزدیکترین برخورد و نزدیکترین شکست، وزنهای ویژگیها را بهروزرسانی میکند. بعد از تعیین فاصله برای تمام نمونههای موجود در مجموعه نمونهها، الگوریتم، ویژگیهایی را که وزن آنها کمتر یا مساوی با یک حد آستانه است را حذف میکند و سایر ویژگیها را بهعنوان زیرمجموعه ویژگی جواب بازمیگرداند.
3-3 تلفیق نرم با بهرهگیری از روش ویکور
یکی از روشهای کارآمد در زمینه انتخاب ویژگی، شیوه ویکور6
یا ارزیابی رتبهبندی بهعنوان یک روش مبتنی بر تحلیل چندمعیاره تصمیمگیری 7(MCDM) برای حل چالشهای داده استفاده میشود و در آن معیارها تناسبپذیر و ناسازگار هستند و تصمیمگیری مستقیم در مورد آنها قدری پیچیده است. در تهیه چنین راهحل سازماندهیشدهای،
روش ویکور مفاهیم «مزیت قابل قبول» و «پایداری قابل قبول» را برای تعیین حداکثر «گروهی از اکثریت» و حداقل «ناکارآمدی یک ویژگی بهخصوص» به کار میبرد [29]. بر اساس مفاهیم ذکرشده، الگوریتم ویکور دارای محکهایی است [30]. با ورود ویژگیها بهعنوان دادههای آموزشی، هر یک از شیوههای انتخاب ویژگی بهعنوان مدلی از انتخاب ویژگی، مجموعهای از ویژگیهای کارآمد را استخراج میکنند. به عبارت دیگر، اولین گام اساسی مبتنی بر یادگیری ماشینی پیش از طبقهبندی بیماری، برگزینش زیرمجموعهای از ویژگیهای مناسب است. سپس زیرمجموعه ویژگیها را به انتخابگر ویژگی میدهیم تا ویژگیهایی
که کمترین همبستگی را با یکدیگر دارند، بهعنوان ویژگیهای مؤثر
به کار ببندیم. به عبارت بهتر با این کار جهت پسزدن مشخصههایی اقدام میکنیم که با فرایند تشخیص بیماری ارتباط کمتری دارند و در صورت حذف آنها، نهتنها حجم اطلاعاتی که قرار است پردازش شوند، کاهش مییابد، بلکه سرعت تحلیل دادهها نیز تا حد چشمگیری افزایش پیدا میکند.
3-4 طبقهبندی با ماشین یادگیری حداکثری
ماشینهای یادگیرنده حداکثری دارای مکانیسمی درخور توجه هستند
و میتوانند اتصالدهندهای میان یادگیری ماشین و یادگیری بیولوژیکی باشند. این شبکه، ساختاری مشابه با شبکههای عصبی مصنوعی با تغذیه پیشرونده دارد که دارای یک لایه از گرههای مخفی هستند و پارامترهای گرههای لایه مخفی آن نیازی به تنظیم ندارند. گرههای لایه مخفی میتوانند تصادفی مقدار بگیرند و هیچ گاه بهروزرسانی نشوند یا میتوانند بدون هیچ تغییری، پارامترهای قبلی خود را داشته باشند. در اغلب موارد، یادگیری مبتنی بر یک مرحله میباشد که برای یک مدل خطی کفایت میکند؛ اما زمانی که مسئله غیرخطی و پیچیده باشد، آن گاه نیازمند
به وجود هسته (کرنل) خواهیم بود که از عمده ماشینهای یادگیرنده حداکثری همراه با کرنل میتوان به کرنلهای خطی، چندجملهای، تابع پایه شعاعی و کرنل موجک اشاره نمود. در میان کرنلها به طور معمول
شکل 2: ساختار عملکردی هر قورباغه در برآورد پارامتر کرنل شبکه عصبی با امکان یادگیری حداکثری.
مدل موجک پاسخ بهینهتری به همراه دارد و سریعتر عمل میکند [31]. در میان همه روشهای طبقهبندی مبتنی بر الگوریتم ماشین یادگیرنده حداکثری، ایرادی که همواره خودنمایی میکند، دقت کم است که به سبب بیشبرازش رخ میدهد. بیشبرازش به معنی طبقهبندی یک کلاس در کلاس یا کلاسهای دیگر است که بهطور معمول زمانی که الگوریتم یک کلاس را بیشتر یاد بگیرد، احتمال قرارگیری در کلاس دیگر کمتر خواهد بود. برای غلبه بر این مشکلات نیاز است تا برخی از پارامترهای الگوریتم ماشین یادگیرنده حداکثری بهواسطه وجود کرنل تصحیح و تنظیم شوند. کرنل انتخابی، کرنل موجک است که خود دارای سه پارامتر تنظیمی است. در این تحقیق این پارامترها را توسط الگوریتم قورباغه تنظیم میکنیم.
3-5 تعیین پارامترهای شبکه عصبی با الگوریتم تکاملی قورباغه
الگوریتم جهش قورباغه 8(SFL) یكی از الگوریتمهای الهامگرفته از طبیعت است که گروهی از قورباغهها به چندین زیرمجموعه9 تقسیم میشوند كه هر قورباغه فرهنگ مختص به خود را دارد و میتواند از فرهنگها10 یا ایدههای قورباغههای دیگر در طول روند تكامل استفاده كند [32]. مراحل اجرای این الگوریتم در زیر شرح داده شده است:
۱) تولید جمعیت اولیه: همانند تمامی الگوریتمهای اکتشافی11، جمعیت اولیه (قورباغهها) بهصورت تصادفی12 از میان بازه مسئله، تولید میشود. قورباغهها بر اساس شایستگیشان بهصورت نزولی مرتب میشوند و بر اساس روندی خاص به زیرمجموعههای مختلف تقسیم میشوند.
۲) دستهبندی قورباغهها: فرض بر آن است كه جمعیت اولیه با قورباغه تولید شده و
قورباغه به
مجموع تقسیم میشوند. روند تقسیمبندی قورباغهها بدین صورت است كه قورباغه اول به مجموعه اول، قورباغه دوم به مجموعه دوم و قورباغه
ام به مجموعه
ام و قورباغه
ام به مجموعه اول تعلق دارند. این روند بهصورت مشابه تا قورباغه آخر تكرار میشود. هر مجموعه
شامل
قورباغه است به طوری که (2) برآورده شود
(2)
۳) مراحل جستجوی محلی در الگوریتم SFL: در هر مجموعه موقعیت قورباغه ام بر اساس اختلاف بین قورباغه بهتر با بهترین شایستگی
و قورباغه بدتر با بدترین شایستگی
با استفاده از (3) به دست میآید
(3)
که یك عدد تصادفی یكنواخت بین صفر تا یک است. موقعیت جدید قورباغه توسط (4) به دست میآید كه
ماكسیمم تغییراتی است كه در موقعیت قورباغه میتوان اعمال كرد
(4)
اگر این تغییر موقعیت، قورباغهای با شایستگی بهتر تولید كرد، این قورباغه جایگزین قورباغه بدتر میشود و در غیر این صورت، قورباغه با بهترین شایستگی در كل جمعیت (بهینه فرامحلی13) جایگزین
در (3) شده و قورباغه جدیدی تولید میشود. اگر قورباغهای با شایستگی بهتر تولید شود، این قورباغه جایگزین قورباغه بدتر میشود و در غیر این صورت، قورباغه جدید بهصورت تصادفی تولید و جایگزین بدترین قورباغه خواهد شد.
۴) به هم آمیختن جمعیت: پس از تكامل درونی چندین نسل، تمام مجموعهها به هم آمیخته و بر اساس ارزش شایستگی آنها بهصورت نزولی مرتب میشوند. سپس دوباره به چند زیرمجموعه تقسیم میگردند و روند تكامل در هر مجموعه تا زمانی كه به معیار توقف برسد ادامه مییابد.
3-6 ترکیب
در الگوریتم پیشنهادی با استفاده از جستجوی سرتاسری الگوریتم قورباغه در فضای جستجو، به وزنهای بهینهای میرسیم که این وزنها به شبکه عصبی یادگیری حداکثری سوئیچ میگردد. در الگوریتم قورباغه با توجه به ساختار شبکه عصبی پیشنهادی هر قورباغه، برداری خانهای مطابق با شکل 2 است که شامل وزنها و بایاس شبکه عصبی میباشد. در واقع بردار
یک قورباغه بهگونهای تعریف میشود که در آن
برابر با وزنها و
برابر بایاس شبکه عصبی مصنوعی میباشند.
مراحل تعیین وزنهای بهینه توسط الگوریتم قورباغه به این صورت است که قورباغههای جستجوگر در فضای جستجو (وزنهای اولیه) و بهصورت تصادفی جستجو را انجام میدهند. در هر تکرار میزان شایستگی راهحلها با شایستگی بهدستآمده توسط بهترین قورباغهها مقایسه شده و بهترین راهحل به دست میآید (هرچه خطای بهدستآمده از هر قورباغه کمتر باشد، میزان شایستگی آن راهحل بیشتر است). سپس جستجو تا رسیدن به تکرار آخر ادامه دارد و نهایتاً بهترین وزن برای شبکه به دست میآید. در هر مرحله از جستجو اگر راهحل یافتشده بهتر از راهحل قبلی باشد با آن جایگزین شده و در غیر این صورت راهحل قبلی باقی میماند. بنابراین الگوریتم قورباغه پس از بار تکرار، بهترین وزنهای بهینه را با بالاترین دقت و کمترین هزینه پیدا میکند و شبکه عصبی پیشنهادی با وزنهای بهینهای که توسط الگوریتم قورباغه پیدا شده است، مورد ارزیابی قرار میگیرد.
3-7 بهینهسازی الگوریتم قورباغه
در نسخه اصلی، الگوریتم قورباغه پارامترهای طبقهبندی را بهینه میکند. در ادامه به انجام اصلاحاتی جهت بهینهسازی این الگوریتم که شامل دو مرحله است، میپردازیم.
الف) افزودن وزندهی پویا در انتخاب ویژگی:
• در نسخه اصلاحشده، یک مرحله وزندهی پویا روی ویژگیها اضافه میکنیم که در هر نسل الگوریتم قورباغه، اهمیت ویژگیها بر اساس میزان تأثیر آنها روی خطا بهروزرسانی شود.
• این کار باعث میشود ویژگیهای مؤثرتر زودتر شناسایی شده و الگوریتم سریعتر همگرا شود.
ب) ترکیب الگوریتم قورباغه با الگوریتم ژنتیک:
• بعد از چند نسل الگوریتم قورباغه، از عملیات جهش و ترکیب الگوریتم ژنتیک برای تنوعدادن به جمعیت راهحلها استفاده میشود.
جدول 1: پارامترهاي الگوريتم جهش ترکیبی قورباغه در تنظیم پارامترهای ماشین
با امکان یادگیری حداکثری.
پارامتر | مقدار |
سايز ممتیک اکتشاف | ۱۰ |
تعداد ممتیکهای جهش ترکیبی | ۵ |
تعداد والدین | حداکثر ۴ و حداقل ۲ |
تعداد فرزندان | حداکثر ۴ |
حداکثر تکرار چرخه جهش | ۱۰ |
اندازه گام | ۲ |
• این کار باعث جلوگیری از گیرافتادن در بهینههای محلی و افزایش دقت میشود.
4- پیادهسازی روش پیشنهادی
همان گونه که پیش از این عنوان شد، نارسایی قلبی یکی از دلایل اصلی مرگومیر در سراسر جهان است. در بخش قبل نیز اشاره کردیم که تشخیص نارسایی قلبی یک کار چالشبرانگیز است؛ بهخصوص در کشورهای در حال توسعه و کمتر توسعهیافته که کمبود متخصصان و تجهیزات انسانی در آنها وجود دارد. از این رو روش ترکیبی پیشنهاد گردید که بتواند بهعنوان یک سیستم هوشمند در تشخیص خودکار نارسایی قلبی مؤثر باشد. مدلسازی سیستم پیشنهادی در محیط برنامهنویسی متلب انجام پذیرفته و هدف به دست آوردن سطح مطلوبی از دقت بهینهسازی در تشخیص این بیماری برای کلاسهای چندگانه است. سیستم مورد استفاده دارای پردازنده 7Core i با فرکانس مسیر ۷/۲ گیگاهرتز و RAM ۴ گیگابایت است. همچنین نسخه متلب مورد استفاده، نسخه ۲۰۱۹ بی میباشد که دارای افزونههای آنلاین و آخرین نسخه بهروزرسانیشده از جعبه ابزارهای این نرمافزار است.
۴-1 مجموعه داده
در این پژوهش از سه مجموعه داده تشخیص بیماری قلبی Cleveland Heart Disease dataset، Statlog Heart dataset و MIT-BIH Arrhythmia dataset از مخزن دادههای سایت مرجع UCI و MIT استفاده شده است [33] و [34]. در ادامه به شرح هر کدام از مجموعه دادهها پرداخته میشود.
مجموعه داده Cleveland Heart Disease
مرکز پزشکی Long Cleveland Clinic Foundation Beach و VA در سال ۱۹۹۸، این پایگاه داده را ایجاد کرد که در آن نمونهها شامل ۳۰۳ فرد مورد بررسی است که دربرگیرنده ۲۹۷ نمونه کامل و 6 نمونه با مقادیر ازدسترفته است. این پایگاه داده شامل ۱۳ علامت بیماری و یک صفت تشخیص است که به وجود بیماری قلبی بر اساس علائم موجود در بیمار اشاره دارد که یک مقدار عددی صفر (کمتر از ۵۰% تنگی عروق) یا ۱ (به معنای تنگی عروق بیشتر از ۵۰%) است. در این مرحله، دادههایی که در حال حاضر در دسترس هستند و دادههایی که برای ساخت مدل نیاز بود، تعیین شدند. برای شروع پژوهش بر اساس مطالعات کتابخانهای و مجموعه داده Cleveland، 14 ویژگی در نظر گرفته شده است.
مجموعه داده Statlog Heart
پایگاه داده Statlog Heart بخشی از پروژه 14Statlog بوده و توسط UCI Machine Learning Repository منتشر شده است. این مجموعه داده شامل اطلاعات ۲۷۰ بیمار است که هدف در آن، پیشبینی احتمال ابتلا به بیماری قلبی است. هر رکورد دارای ۱۳ ویژگی عددی شامل عواملی نظیر فشار خون، میزان کلسترول، سن، وضعیت قند خون، ضربان قلب ماکسیمم و سایر عوامل بالینی مرتبط با بیماری قلبی میباشد. متغیر هدف این مجموعه داده یک متغیر دودویی است که وجود یا عدم وجود بیماری قلبی را نشان میدهد (۰ برای فرد سالم و ۱ برای فرد مبتلا). دادهها بهصورت کامل بوده و فاقد مقادیر گمشده میباشند. این مجموعه داده از نظر حجم متوسط، بسیار متعادل و استاندارد بوده و برای مقایسه الگوریتمهای یادگیری ماشین در حوزه تشخیص بیماری قلبی کاربرد گستردهای دارد.
مجموعه داده MIT-BIH Arrhythmia
پایگاه داده MIT-BIH Arrhythmia در سال ۱۹۸۰ توسط مرکز پزشکی Beth Israel Hospital وابسته به دانشگاه Harvard و با همکاری مؤسسه فناوری ماساچوست (MIT) ایجاد شده است. در این پایگاه داده، نمونهها شامل ۴۸ بیمار هستند که از میان بیش از ۴۰۰۰ نوار ECG انتخاب شدهاند. در این پایگاه داده، بیش از ۱۰۰۰۰۰ ضربان قلب برچسبگذاریشده وجود دارد که توسط متخصصان قلب و بر اساس استانداردهای انجمن قلب آمریکا دستهبندی شدهاند. هر ضربان به یکی
از کلاسهای مختلف مانند ضربان نرمال، ضربان زودرس بطنی، فیبریلاسیون دهلیزی و دیگر انواع آریتمی نسبت داده شده است. در این مرحله، دادههایی که در حال حاضر در دسترس هستند و دادههایی که برای ساخت مدل مورد نیاز بودهاند، تعیین شدند. برای شروع پژوهش
بر اساس مطالعات کتابخانهای و استانداردهای موجود در پایگاه داده
MIT-BIH، ویژگیهایی همچون شکل سیگنال، فاصله RR، نوع ضربان و سایر پارامترهای مرتبط استخراج و مورد استفاده قرار گرفتهاند.
در ادامه، متغیرهای تعیینشده برای ایجاد مدل به دو دسته متغیرهای هدف و متغیرهای پیشگو دستهبندی شدند که متغیر هدف ابتلا یا عدم ابتلا و سایر متغیرها بهعنوان متغیر پیشگو مورد استفاده قرار گرفتند. جهت انجام آزمایشها، نحوه تقسیم دادهها همانند سایر روشهای شناسایی بیماری قلبی، 70% (جهت آموزش) در برابر 30% (جهت آزمایش) در نظر گرفته شد.
4-2 طبقهبندی
شبکه عصبی با امکان یادگیری حداکثری میتواند در صورت انتخاب مقادیر مناسب برای پارامترهای آن از قبیل تعداد لایهها و نرونها، نگاشتی غیرخطی با دقت دلخواه تشکیل دهد. در واقع شبکه عصبی با امکان یادگیری حداکثر تنها دارای یک لایه مخفی میانی است و به همین دلیل بهعنوان یك شبکه عصبی کارآمد محسوب میگردد.
4-3 بهینهسازی پارامترها
برای الگوریتم جهش ترکیبی قورباغه، برخی مقداردهیهای اولیه تعریف میشود. در مرحله بعد، شبکه با امکان یادگیری حداکثری بهوسیله دادههای آموزشی و پارامترهای محاسبهشده، آموزش دیده و مدل عصبی مورد نظر ساخته میشوند و البته به سبب بروز ساختارهای مختلف میتوان میزان خطای حاصل از طبقهبندی را پیشبینی نمود. پارامترهای مورد استفاده در الگوریتم جهش ترکیبی قورباغه بهصورت تجربی و با آزمون و خطا طبق جدول 1 به دست آمدند.
[1] این مقاله در تاریخ 6 دی ماه 1400 دریافت و در تاریخ 4 خرداد ماه 1404 بازنگری شد.
مرجان مطیعیزاده، گروه کامپیوتر، واحد اهواز، دانشگاه آزاد اسلامی، اهواز، ایران،
(email: miss.motiee@gmail.com).
مارال کلاهکج (نویسنده مسئول)، گروه مهندسی کامپیوتر، واحد سوسنگرد، دانشگاه آزاد اسلامی، سوسنگرد، ایران، (email: maral.kolahkaj@iau.ac.ir).
[2] . Harmony Search Algorithm
[3] . Stochastic Local Search
[4] . Sequential Forward Selection
[5] . Sequential Backward Selection
[6] . VIKOR
[7] . The Field of Multiple Criteria Decision Making
[8] . Shuffled Frog Leaping
[9] . Memplex
[10] . Culture
[11] . Heuristic
[12] . Random
[13] . Global Best
[14] . Statistical and Logical Learning
جدول 2: نتایج حاصل از پیادهسازی مدل اول در مرحله آزمایش به روش تقسیم دادهها با CV برابر ۱۰ مرکب از اعمال بیشینه ویژگیها و طبقهبندی با مدل پیشنهادی طبقهبندی دوکلاسی.
| انتخاب تعداد کم نرون در لایه مخفی (۳ تا ۶) | انتخاب تعداد متوسط نرون در لایه مخفی (۷ تا ۱۱) | انتخاب تعداد نرون زیاد در لایه مخفی (۱۲تا ۱۸) | ||||||
فولد آزمون | ماتریس درهمریختگی | دقت | ماتریس درهمریختگی | دقت | ماتریس درهمریختگی | دقت | |||
فولد 6 | ۲۱۴۳/۰ | ۷۸۵۶/۰ | ۷۸۶۳/۰ | ۱797/0 | ۸203/0 | ۸251/0 | ۲445/0 | ۷555/0 | ۷۷99/0 |
۷۸۶۷/۰ | ۲۱۳۲/۰ | ۸300/0 | ۱700/0 | 824۳/0 | 175۷/0 | ||||
فولد 8 | ۱۹۹۳/۰ | ۸۰۰۶/۰ | ۷۸۶۷/۰ | 1800/0 | 8200/0 | ۸۲۴4/0 | ۲246/0 | ۷754/0 | ۷۵99/0 |
۷۷۲۵/۰ | ۲۲۷۵/۰ | ۸۲88/0 | ۱۷12/0 | ۷444/0 | ۲556/0 | ||||
فولد 9 | ۲۱۹۶/۰ | ۷۸۰۳/۰ | ۷۹۰۶/۰ | ۱۵53/0 | ۸۴۴۷/0 | 8۵89/0 | 234۴/0 | 765۶/0 | ۷۶79/0 |
۸۰۰۷/۰ | ۱۹۹۳/۰ | ۸۶74/0 | ۱۳26/0 | 770۲/0 | 229۸/0 | ||||
میانگین | ۷۹۱۷/۰ | ۷۹۲۸/۰ | ۷۹۲۲/۰ | ۸۴۰۷/۰ | ۸۲۴۷/۰ | ۸۳۲۱/۰ | ۷۷۷۱/۰ | ۷۸۳۱/۰ | ۷۷۹۱/۰ |
جدول 3: نتایج حاصل از مدل اول در مرحله آزمایش به روش تقسیم دادهها (70/30) مرکب از اعمال حداکثر ویژگیها و طبقهبندی با مدل پیشنهادی طبقهبندی پنجکلاسی.
| کلاس ۱ | کلاس ۲ | کلاس ۳ | کلاس ۴ | کلاس ۵ | Accuracy |
کلاس ۱ | ۶۱/۰ | ۱۲/۰ | ۱۱/۰ | ۰۹/۰ | ۰۷/۰ | ۶۱/0 |
کلاس ۲ | ۰۷/۰ | ۵۹/۰ | ۱۴/۰ | ۱۷/۰ | ۰۳/۰ | ۵۹/0 |
کلاس ۳ | ۰۸/۰ | ۱۵/۰ | ۵۷/۰ | ۱۴/۰ | ۰۶/۰ | ۵۷/0 |
کلاس ۴ | ۰۶/۰ | ۱۱/۰ | ۱۷/۰ | ۵۵/۰ | ۱۱/۰ | ۵۵/0 |
کلاس ۵ | ۱/۰ | ۰۷/۰ | ۱۱/۰ | ۱۴/۰ | ۵۸/۰ | ۵۸/0 |
دقت نهایی | ۵۸/۰ |
جدول 4: نتایج حاصل از مدل دوم در مرحله آزمایش به روش تقسیم دادهها با CV برابر ۱۰ مرکب از اعمال تعداد متوسط ویژگیها و طبقهبندی با مدل پیشنهادی طبقهبندی دوکلاسی.
| انتخاب تعداد کم نرون در لایه مخفی (۳ تا ۶ نورون) | انتخاب تعداد نرون متوسط لایه مخفی (۷ تا ۱۱) | انتخاب تعداد نرون زیاد در لایه مخفی (۱۲تا ۱۸) | ||||||
فولد آزمون | ماتریس درهمریختگی | دقت | ماتریس درهمریختگی | دقت | ماتریس درهمریختگی | دقت | |||
فولد 6 | ۱۶۱۵/۰ | ۸۳۸۴/۰ | ۸۴۴۱/۰ | ۱536/0 | ۸464/0 | ۸204/0 | ۱825/0 | ۸175/0 | ۸337/0 |
۸۴۹۹/۰ | ۱۵۰۱/۰ | 8۳44/0 | 1۶56/0 | ۸500/0 | ۱500/0 | ||||
فولد 8 | ۱۷۱۶/۰ | ۸۲۸۳/۰ | ۸۴۰۰/۰ | ۱364/0 | ۸636/0 | ۸۳57/0 | ۱773/0 | ۸227/0 | ۸159/0 |
۸۵۱۸/۰ | ۱۴۸۱/۰ | 8۱78/0 | 1۸22/0 | ۸091/0 | ۱909/0 | ||||
فولد 10 | ۱۴۵۷/۰ | ۸۵۴۲/۰ | ۸۴۴۴/۰ | 1۴72/0 | 8۵28/0 | ۸۵82/0 | ۱503/0 | ۸497/0 | ۸247/0 |
۸۳۴۷/۰ | ۱۶۵۲/۰ | ۸۵37/0 | ۱۴63/0 | ۷997/0 | ۲003/0 | ||||
میانگین | ۸۳۹۱/۰ | ۸۳۳۸/۰ | ۸۳۶۹/۰ | ۸۲۶۴/۰ | ۸۳۷۹/۰ | ۸۲۸۲/۰ | ۸۰۰۴/۰ | ۸۰۴۳/۰ | ۸۰۱۳/۰ |
اصلیترین دلیل استفاده از الگوریتم جهش ترکیبی قورباغه آن است که میتواند در یافتن بهینه سراسری کارآمد واقع گردد و از این رو کمینه خطای حاصل از طبقهبندی را در فضای جواب به دست آورد. نهایتاً برای دستیابی به نتایج بهتر، این الگوریتم با بهرهگیری از مکانیزم وزندهی پویا و استفاده از عملیات جهش و ترکیب با الگوریتم ژنتیک برای تنوعدادن به جمعیت راهحلها بهینه میشود.
5- نتایج و تفسیر
در این بخش به ارائه نتایج و تفسیر آنها میپردازیم و خروجیها بهصورت کمی و کیفی تحلیل خواهند شد.
5-1 محکهای ارزیابی
در حالت دوکلاسی، محکهای ارزیابی نظیر دقت، فراخوانی، ، AUC، اختصاصیت و منحنی ROC برای تحلیل سیستمهای پیشنهادی، محاسبه خواهد شد. در حالت پنجکلاسی نیز از معیار Accuracy بهره میبریم.
الف) دقت: اولین عامل بررسی مدل پیشنهادی، دقت است که بر اساس آن به طراحی بهینه سیستمهای گوناگون میپردازند. این معیار به معنی نزدیکی مقادیر اندازهگیری به یکدیگر است
(5)
ب) فراخوانی: به معنی نسبتی از موارد مثبت است که آزمایش آنها را بهدرستی بهعنوان مثبت علامتگذاری میکند
(6)
ج) اختصاصیت: به معنی نسبتی از موارد منفی است که آزمایش آنها را بهدرستی بهعنوان منفی علامتگذاری میکند
(7)
به طور کلی، نتایج از دو بخش تشکیل شدهاند. در بخش نخست، نتایج کمی در قالب جداول حالات طبقهبندی دوکلاسی و چندکلاسی دیده میشود. همچنین در بخش دوم به ارائه نتایج کیفی میپردازیم. در
جداول 2 تا 7 به ترتیب نتایج حاصل از سه مدل پیشنهادی به ازای تغییر تعداد نرونها نشان داده شده است. این نتایج برای تشخیص بیماری نارسایی قلبی در حالت دوکلاسی و چندکلاسی که برای محاسبه ماتریس درهمریختگی و بهتبع آن دقت، فراخوانی و اختصاصیت استفاده شده، برای همه نمونههای مورد نظر برآورد گردیده است. از سویی این دقتها،
جدول 5: نتایج حاصل از مدل دوم در مرحله آزمایش به روش تقسیم دادهها (70/30) مرکب از اعمال تعداد متوسط ویژگیها و طبقهبندی با مدل پیشنهادی طبقهبندی پنجکلاسی.
| کلاس ۱ | کلاس ۲ | کلاس ۳ | کلاس ۴ | کلاس ۵ | Accuracy |
کلاس ۱ | ۶۸/۰ | ۱۲/۰ | ۱۴/۰ | ۰۶/۰ | ۰ | ۶۸/0 |
کلاس ۲ | ۰۵/۰ | ۶۵/۰ | ۱۲/۰ | ۱۸/۰ | ۰ | ۶۵/0 |
کلاس ۳ | ۰۷/۰ | ۱۶/۰ | ۶۲/۰ | ۱۳/۰ | ۰۲/۰ | ۶۲/0 |
کلاس ۴ | ۰۴/۰ | ۰۹/۰ | ۱۶/۰ | ۵۹/۰ | ۱۲/۰ | ۵۹/0 |
کلاس ۵ | ۰۹/۰ | ۰۴/۰ | ۰۹/۰ | ۱۰/۰ | ۶۸/۰ | ۶۸/0 |
دقت نهایی | ۶۴۴/۰ |
جدول 6: نتایج حاصل از پیادهسازی مدل سوم در مرحله آزمایش به روش تقسیم دادهها با CV برابر ۱۰ مرکب از اعمال تعداد کمینه ویژگیها و طبقهبندی
با مدل پیشنهادی طبقهبندی دوکلاسی.
| انتخاب تعداد کم نورون در لایه مخفی (۳ تا ۶ نورون) | انتخاب تعداد نورون متوسط لایه مخفی (۷ تا ۱۱) | انتخاب تعداد نورون زیاد در لایه مخفی (۱۲تا ۱۸) | ||||||
فولد آزمون | ماتریس درهمریختگی | دقت | ماتریس درهمریختگی | دقت | ماتریس درهمریختگی | دقت | |||
فولد 2 | ۱۸۸۷/۰ | ۸۱۱۳/۰ | ۸۰۲۸/۰ | ۱305/0 | ۸695/0 | ۸6۳2/0 | ۱۹51/0 | ۸۰49/0 | ۸۰۲۲/0 |
۷۹۴۳/۰ | ۲۰۵۷/۰ | ۸510/0 | ۱490/0 | ۷۹59/0 | ۲۰41/0 | ||||
فولد 4 | ۲۱۲۴/۰ | ۷۸۷۶/۰ | ۷۹۹۸/۰ | ۱۵42/0 | ۸۴۷۸/۰ | ۸۵۱۸/0 | ۱۸77/0 | ۸۱23/0 | ۸۱۷۲/0 |
۸۱۲۰/۰ | ۱۸۸۰/۰ | ۸558/0 | ۱442/0 | ۸۲21/0 | ۱۷79/0 | ||||
فولد 6 | ۲035/0 | ۷965/0 | ۷۸۴۵/0 | ۱۲35/0 | ۸۷65/0 | ۸746/0 | ۱۸01/0 | ۸۱99/0 | ۸۱۷۸/0 |
۷۷25/0 | ۲۲75/0 | ۸۸25/0 | ۱۱75/0 | ۸۱57/0 | ۱۸34/0 | ||||
فولد 8 | ۲۲۱۱/۰ | ۷۷۸۹/۰ | ۸۰۳۸/۰ | ۱۸۶۰/۰ | ۸۶۰۳/۰ | ۸۵67/0 | ۱۷92/0 | ۸۲08/0 | ۸۲۲1/0 |
۷۸۶۷/۰ | ۲۱۳۳/۰ | ۸535/0 | ۱465/0 | ۸۲34/0 | ۱۷66/0 | ||||
فولد 10 | ۲۱۱۰/۰ | ۷۸۹۰/۰ | ۷۹۱۰/۰ | ۱۲62/0 | ۸۷38/0 | ۸۷۱0/0 | ۲۲88/0 | ۷712/0 | ۷۷۹۸/0 |
۷۹۳۰/۰ | ۲۰۷۰/۰ | ۸683/0 | ۱317/0 | ۷۸85/0 | ۲۱15/0 | ||||
میانگین | ۷۸۷۹/۰ | ۷۹۰۶/۰ | ۷۹۱۴/۰ | ۸۵۹۸/۰ | ۸۶۶۲/۰ | ۸۶۲۷/۰ | ۸۰۹۶/۰ | ۸۱۲۴/۰ | ۸۱۱۹/۰ |
جدول 7: نتایج حاصل از پیادهسازی مدل دوم در مرحله آزمایش به روش تقسیم دادهها (70/30) مرکب از اعمال تعداد کمینه ویژگیها و طبقهبندی با مدل پیشنهادی طبقهبندی پنجکلاسی.
| کلاس ۱ | کلاس ۲ | کلاس ۳ | کلاس ۴ | کلاس ۵ | Accuracy |
کلاس ۱ | ۶۴/۰ | ۱۲/۰ | ۱۴/۰ | ۰۶/۰ | ۰۴/۰ | ۶۴/0 |
کلاس ۲ | ۰۸/۰ | ۶۰/۰ | ۱۲/۰ | ۱۷/۰ | ۰۳/۰ | ۶۰/0 |
کلاس ۳ | ۱۲/۰ | ۱۴/۰ | ۵۸/۰ | ۱۳/۰ | ۰۳/۰ | ۵۸/0 |
کلاس ۴ | ۱/۰ | ۱۲/۰ | ۱۵/۰ | ۵۴/۰ | ۰۹/۰ | ۵۴/0 |
کلاس ۵ | ۰۸/۰ | ۰۷/۰ | ۱۱/۰ | ۱۲/۰ | ۶۲/۰ | ۶۲/0 |
دقت نهایی | ۵۹۶/۰ |
مطابق با روش ارزیابی ، مشابه با آنچه در کلاسهای مرجع پایگاه داده به دست آمده، محاسبه شده است؛ بدین ترتیب که بهترین دقت در طی هر بار تکرار fold برای
برابر با 10 ثبت میگردد. طبقهبندی در حالت دوکلاسی به روش تقسیم
میباشد که مشخص میکند آیا بیماری رخ داده است یا خیر. اما در حالت چندکلاسی تقسیم دادهها به شیوهای Hold-out در سه وضعیت تقسیم داده میباشد.
5-2 نتایج کمی
در این بخش، جهت مقایسه عملکرد، حالات زیر در نظر گرفته میشود و مشاهده خواهد شد که نتایج با استفاده از تکنیکهای پیشنهادی چه تفاوتی با یکدیگر خواهند داشت:
i. مدل اول: در حالت دوکلاسی با بیشینه ویژگیها و تقسیمبندی داده به شیوه و طبقهبندی با شبکه پیشنهادی و تقسیمبندی دادهها به شیوه ۳۰% به ۷۰% است.
ii. مدل دوم: در حالت دوکلاسی با متوسط ویژگیها و تقسیمبندی داده به شیوه و طبقهبندی با شبکه پیشنهادی و تقسیمبندی دادهها به شیوه ۵۰% به ۵۰% است.
iii. مدل سوم: در حالت دوکلاسی با کمینه ویژگیها و تقسیمبندی داده به شیوه و طبقهبندی با شبکه پیشنهادی و تقسیمبندی دادهها به شیوه ۷۰% به ۳۰% است.
الف) مدل اول
در حالت دوکلاسی، این مدل مرکب از تعداد ویژگیهای بیشینه و طبقهبندیکننده ترکیبی در مرحله نهایی است. در جدول 2 نتایج حاصل از پیادهسازی این مدل به نمایش درآمده است. در این جدول، خروجیها برای حالت دوکلاسی برآورد شدهاند. در سطر آخر این جدول، اختصاصیت، فراخوانی و دقت محاسبه شدهاند. همان گونه که مشاهده میشود، زمانی که ویژگیها زیاد باشد، مدل پیشنهادی در وضعیت تعداد نرونهای متوسط دارای دقت بهتری است. همچنین در حالت پنجکلاسی میتوان خروجیها را به شیوه تقسیم ۷۰% آموزش در برابر ۳۰% آزمایش به دست آورد. دقت بهینه به ازای تعداد نرونهای متوسط در این جدول محاسبه شده است. سایر مقادیر بهطور متوسط از مقدار متوسط گزارششده در جدول 3 کمتر بودند.
شکل 3: اثر روش Wrapper در انتخاب ویژگیها با ارزیابی محکهای جاکارد و درجه متوسط و ترکیب آنها.
شکل 4: اثر روش فیلتری عام در انتخاب ویژگیها با ارزیابی محکهای جاکارد و درجه متوسط و ترکیب آنها.
ب) مدل دوم
مدل دوم مرکب از بردار ویژگی با تعداد ویژگیهای متوسط است. همچنین از طبقهبندی توسط روش شبکه عصبی با امکان یادگیری حداکثری بهینهشده با تعداد نرونهای متغیر استفاده شده است. نتایج حاصل از این پیادهسازی در جداول 4 و 5 در دو حالت طبقهبندی دوکلاسی و طبقهبندی چندکلاسی قابل مشاهده است.
در هر سه حالت تعداد نرون، محک فراخوانی نسبت به حالتهای قبلی افزایش محسوسی داشت. افزایش اختصاصیت نیز با هر سه مدل از تعداد نرون یکسان نبود. در حالت تعداد نرونهای کم، هر سه فاکتور افزایش پیدا کردهاند و به عبارت بهتر در این وضعیت (تعداد ویژگی متوسط و تعداد نرونهای کم) بالاترین سطح طبقهبندی به دست آمده است. در حالت انتخاب ویژگیهای متوسط، نسبت به حالت انتخاب حداکثر ویژگیها و با وجود تعداد نرونهای متوسط، اختصاصیت و دقت کاهش ۱ درصدی داشتهاند، اما فراخوانی افزایش داشته است؛ یعنی نمونههای بیمار بهتر شناسایی شدهاند. به همین ترتیب در وضعیت انتخاب ویژگیها متوسط و تعداد نرونهای بالا نسبت به انتخاب ویژگیها بالا، سطح دقت و اختصاصیت و نیز فراخوانی افزایش یافته، اما نسبت به دیگر حالات انتخاب تعداد نرون، هنوز دقت آن کمتر است. پرواضح است که اثر الگوریتم و انتخاب تعداد نرون و نیز دخالت ویژگی در افزایش دقت مشهود است. از میان تعداد متوسط از ویژگیها، در فاصله ۵۰ درصدی ویژگی، بیشترین دقتها با تعداد نرون کم و متوسط حاصل آمد و لذا ابعاد ویژگیهای انتخابشده برای هر داده مربوط به تشخیص بیماری قلبی به تعداد بسیار کمی از ویژگیها تقلیل یافت. به همین ترتیب افزایش چند درصدی دقت (حدود ۶%) برای حالت طبقهبندی چندکلاسه دیده میشود که در جدول 5 به نمایش درآمده است.
ج) مدل سوم
مدل سوم ترکیبی از مراحل پیشپردازش دادهها، اعمال حداقل ویژگیها (به عبارتی ۳۰% کل ویژگیها) و طبقهبندی به مدل شبکه عصبی با امکان یادگیری حداکثری در وضعیت تعدادهای مختلف نرون در تکلایه این شبکه در حالات دوکلاسه و چندکلاسی است. اثر طبقهبندی
شکل 5: اثر روش Relief در انتخاب ویژگیها با ارزیابی محکهای جاکارد و درجه متوسط و ترکیب آنها.
تا حد زیادی بر دقت دستهبندی نهایی این داده و گریز از مشکلاتی چون بیشبرازش یا زیربرازش مشخص است. در جداول 6 و 7 شاهد به نمایش درآمدن نتایج حاصل از مدل سوم روش پیشنهادی هستیم.
به نظر میرسد ثبات یا مقاومبودن الگوریتم در وضعیت تعداد نرونهای متوسط بالاتر باشد؛ چراکه پراکندگی میان فاکتورهای محک در ارزیابی تغییرات اندکی دارد. در وضعیت انتخاب ویژگیهای کم (حدود ۳۰%)، دقت در حالات تعداد نرونهای کم و متوسط و زیاد به ترتیب ۴% افت، ۴% افزایش و ۱% افزایش داشته است. همچنین اختصاصیت به ترتیب ۵% افت، ۳% افزایش و ۵/۰% افزایش داشتهاند. فراخوانی هم مانند دو عامل ارزیابی دیگر به ترتیب ۴% افت، ۳% افزایش و ۲% کاهش داشته است. آنچه مشهود است میتوان برای وضعیتهای انتخاب متوسط و کم ویژگی برای تعداد نرونهای کم و متوسط مدل را طراحی کرد، اما در وضعیت تعداد نرون متوسط برای شبکه عصبی با امکان یادگیری حداکثری و تعداد ویژگی کم میتوان به بالاترین دقت دست یافت؛ هرچند در حالت چندکلاسی، بالاترین سطح دقت مربوط به تعداد ویژگیهای متوسط بوده است. در مدل سوم، افت دقتی معادل ۵ درصدی نسبت به حالت طبقهبندی چندکلاسی و تعداد ویژگی کم گزارش شده است.
5-3 نتایج کیفی
محکهای جاکارد1 و درجه متوسط 2(AD) ازجمله محکهای ارزیابی ویژگیهای انتخابشده، توسط الگوریتم پیشنهادی ترکیبی در نظر گرفته شدهاند؛ به این معنا که هر آنچه با نام ویژگی در پیش از ورود به طبقهبندی به دست میآید تا چه اندازه اثر مناسبتری به دنبال دارد.
بر اساس محاسبه مقادیر ذکرشده میتوان سطح اهمیت ویژگیهای انتخابشده را به دست آورد.
ضریب جاکارد شباهت میان مجموعههای نمونه محدود را اندازهگیری میکند و بهعنوان اندازه اشتراک تقسیم بر اندازه اجتماع مجموعههای نمونه تعریف میشود
(8)
که و
دو مجموعه ویژگی استخراجشده هستند و عملاً معیار جاکارد هرچه به 1 نزدیکتر باشد، بهینهتر خواهد بود. به نوعی میتواند همبستگی میان ویژگیها را نمایش دهد که در شکلهای 3 تا 5 نیز مورد توجه قرار میگیرد. همچنین درجه متوسط (AD) به تعداد پیوندهایی که یک گره در یک شبکه به گرههای دیگر وصل میکند، اشاره دارد. در یک شبکه غیرمستقیم تعداد کل پیوندهای
را میتوان بهصورت (9) تعریف کرد
[1] . Jaccard
[2] . Average Degree
جدول 8: مقایسه عملکرد مدلهای یادگیری ماشین و بهینهسازیشده بر روی مجموعه دادههای مختلف در تشخیص بیماری قلبی.
مجموعه داده | روش | صحت (Accuracy) | دقت (Precision) | فراخوانی (Recall) | امتیاز 1F | سطح زیر منحنی ROC (AUC) |
Cleveland Heart Disease dataset | روش ترکیبی GA + SFLA | ۹۳۳۳/0 | ۹۴۸۷/0 | ۹۰۲۴/0 | ۹۲۵۰/0 | ۹۳۹۸/0 |
بهینهسازی GA | ۹۲۲۲/0 | ۸۶۹۶/0 | ۹۷۵۶/0 | ۹۱۹۵/0 | ۹۴۳۳/0 | |
Naive Bayes | ۹۰۰۰/0 | ۹۲۱۱/0 | ۸۵۳۷/0 | ۸۸۶۱/0 | ۹۶۰۷/0 | |
رگرسیون لجستیک | ۸۸۸۹/0 | ۸۹۷۴/0 | ۸۵۳۷/0 | ۸۷۵۰/0 | ۹۳۹۳/0 | |
SVM | ۸۸۸۹/0 | ۹۴۲۹/0 | ۸۰۴۹/0 | ۸۶۸۴/0 | ۹۳۵۸/0 | |
جنگل تصادفی (Random Forest) | ۸۵۵۶/0 | ۸۵۰۰/0 | ۸۲۹۳/0 | ۸۳۹۵/0 | ۹۳۷۸/0 | |
LightGBM | ۸۳۳۳/0 | ۸۰۹۵/0 | ۸۲۹۳/0 | ۸۱۹۳/0 | ۹۰۰۹/0 | |
XGBoost | ۸۲۲۲/0 | ۸۲۰۵/0 | ۷۸۰۵/0 | ۸۰۰۰/0 | ۹۰۴۹/0 | |
K نزدیکترین همسایه (KNN) | ۸۴۴۴/0 | ۸۸۵۷/0 | ۷۵۶۱/0 | ۸۱۵۸/0 | ۹۲۸۶/0 | |
درخت تصمیمگیری | ۷۰۰۰/0 | ۶۴۵۸/0 | ۷۵۶۱/0 | ۶۹۶۶/0 | ۷۰۴۶/0 | |
Statlog Heart dataset | روش ترکیبی GA + SFLA | ۹۱۳۶/0 | ۹۶۳۰/0 | ۸۱۲۵/0 | ۸۸۱۴/0 | 9133/0 |
بهینهسازی GA | ۹۰۱۲/0 | ۹۲۸۶/0 | ۸۱۲۵/0 | ۸۶۶۷/0 | 9133/0 | |
Naive Bayes | ۸۳۹۵/0 | ۸۸۰۰/0 | ۶۸۷۵/0 | ۷۷۱۹/0 | ۸۹۴۱/0 | |
رگرسیون لجستیک | ۸۲۷۲/0 | ۸۷۵۰/0 | ۶۵۶۲/0 | ۷۵۰۰/0 | ۸۸۳۹/0 | |
SVM | ۸۲۷۲/0 | ۸۲۱۴/0 | ۷۱۸۸/0 | ۷۶۶۷/0 | ۸۹۷۳/0 | |
جنگل تصادفی (Random Forest) | ۷۶۵۴/0 | ۷۶۰۰/0 | ۵۹۳۸/0 | ۶۶۶۷/0 | ۸۷۷۹/0 | |
LightGBM | ۸۱۴۸/0 | ۸۶۹۶/0 | ۶۲۵۰/0 | ۷۲۷۳/0 | ۹۰۵۰/0 | |
XGBoost | ۷۷۷۸/0 | ۷۹۱۷/0 | ۵۹۳۸/0 | ۶۷۸۶/0 | ۸۸۵۸/0 | |
K نزدیکترین همسایه (KNN) | ۷۹۰۱/0 | ۸۰۰۰/0 | ۶۲۵۰/0 | ۷۰۱۸/0 | ۸۹۳۸/0 | |
درخت تصمیمگیری | ۷۱۶۰/0 | ۶۶۶۷/0 | ۵۶۲۵/0 | ۶۱۰۲/0 | ۶۸۹۴/0 | |
MIT-BIH Arrhythmia dataset | روش ترکیبی GA + SFLA | ۸۵۲۵/0 | ۸۸۹۸/0 | ۸۶۲۷/0 | ۸۷۶۰/0 | ۹۲۷۳/0 |
Naive Bayes | ۷۵۴۱/0 | ۷۸۵۷/0 | ۷۵۵۹/0 | ۷۷۰۵/0 | ۸۲۳۲/0 | |
رگرسیون لجستیک | ۸۳۶۱/0 | ۸۷۹۳/0 | ۸۲۳۵/0 | ۸۵۰۵/0 | ۸۹۹۵/0 | |
SVM | ۷۷۰۵/0 | ۸۰۶۱/0 | ۷۶۴۷/0 | ۷۸۵۰/0 | ۸۷۶۰/0 | |
جنگل تصادفی (Random Forest) | ۷۷۰۵/0 | ۷۸۹۵/0 | ۷۶۴۷/0 | ۷۷۷۰/0 | ۸۳۴۹/0 | |
LightGBM | ۶۱۹۰/0 | 88۹۱/0 | ۵۸۸۲/0 | ۷۱۴۳/0 | 8382/0 | |
XGBoost | ۷۷۰۵/0 | ۸۰۶۱/0 | ۷۶۴۷/0 | ۷۸۵۰/0 | ۸۸۴۳/0 | |
K نزدیکترین همسایه (KNN) | ۷۷۰۵/0 | ۸۰۶۱/0 | ۷۶۴۷/0 | ۷۸۵۰/0 | ۸۶۴۷/0 | |
درخت تصمیمگیری | ۷۲۱۳/0 | ۷۴۳۶/0 | ۷۳۵۳/0 | ۷۳۹۴/0 | ۷۴۸۶/0 |
(9)
در این شبکه، تعداد پیوندهای میان ویژگیها،
درجه هر گره
ام و
اندازه شبکه است. حال با استفاده از این دو محک و نیز ترکیب هر دو میتوان میزان اثرگذاری ویژگیها را مطرح کرد. با توجه به اینکه بالاترین میزان دقت در وضعیت تعداد نرون متوسط و به ازای کمینه تعداد ویژگی به دست آمد، در این بخش نیز از این تنظیمات استفاده شده است. در شکلهای 3 تا 5 برای حالت پنجکلاسه و برآورد تکتک کلاسها، مقادیر محک جاکارد و درجه متوسط به حالت گرافی مشاهده میگردد.
بهطور خلاصه میتوان گفت در مقایسه با روشهای [18] تا [27] و [35] تا [38] که در بخش 2 مورد بررسی و تحلیل قرار گرفت، مشاهده میشود که دقت روش پیشنهادی چه در حالت دوکلاسی و چه در حالت چندکلاسی، سطح تشخیصی مناسبتری به دست آورده است. از آنجا که تعداد دادههای کلینیکی دریافتشده از همه پایگاههای داده تقریباً برابر است، لیکن تشخیص دقیق بیماری و سطح خطای کمینه تا حدود زیادی وابسته به مدل است. در قیاس با راهکارهای پیشین باید توجه داشت روش پیشنهادی بهواسطه ساختار متوسطی که دارد، زمان کمتری را در تحلیل و جداسازی داراست. ورودیهای آن مشخص و دارای ابعاد کمتری است، در حالی که در روشهای دیگر این اتفاق رخ نداده است. همچنین در الگوریتمهای کمی تقسیم دادهها به هر دو شیوه تحلیل شدهاند.
5-4 مقایسه با روش های پایه
در این بخش، روش پیشنهادی با توجه به معیارهای ارزیابی با روشهای پایه مورد مقایسه قرار میگیرد. نتایج مقایسه بر روی سه مجموعه داده مختلف در جدول 8 و شکل 6 نشان داده شده است.
با توجه به نتایج ارائهشده از مجموعه داده Cleveland، مشاهده میشود که روش Hybrid GA + SFLA با وجود زمان اجرای پایینتر (0،15) نسبت به GA تنها (2،19)، بهترین دقت کلی و را ارائه داده است. مدل Naive Bayes علیرغم سادگی، AUC بالایی نشان داده که بیانگر توان بالای تفکیک کلاسها است. SVM و Logistic Regression نیز عملکرد قابل قبولی داشتهاند. با این حال، بهینهسازی پارامترها با GA و SFLA بهبود محسوسی در دقت و فراخوانی ایجاد کرده است. مدلهای پیچیده مانند LightGBM و XGBoost در این مجموعه داده عملکردی متوسط از خود نشان دادهاند که ممکن است ناشی از ابعاد و حجم داده باشد. نتایج نسبتاً مشابهی در مجموعه دادههای Statlog Heart و MIT-BIH Arrhythmia تأییدی
(الف)
(ب)
(ج)
شکل 6: مقایسه منحنی ROC برای روشهای مختلف بر روی سه مجموعه داده.
بر تعمیمپذیری و پایداری مدل پیشنهادی است.
6- نتیجهگیری و کارهای آتی
شناخت دقیق و خودکار برچسبهای وجود یا عدم وجود بیماری قلبی در مجموعه الگوریتم معرفیشده در این مقاله میتواند در ایجاد ارتباط مناسب میان فرد و ماشین و بررسی تغییر میزان اشتباهات پزشک متخصص و متخصص آزمایشگاهی مثمر باشد؛ بهگونهای که قادر خواهیم بود با تفکیک صحیح این دو کلاس، امکان شدت بیماری را در میان مبتلایان به نارسایی قلبی برآورد نماییم. سیستم یکپارچه معرفیشده در این مقاله، سازوکاری بود که بر اساس آن به بازشناسی بیماریهای مختلفی چون نارسایی قلبی اقدام نموده و داده پایه ما از مجموعه دادههای سایت معروف UCI گردآوری شد. الگوریتم بازشناسی در این مقاله، جهت برآوردهکردن هدف از محاسبات نرم الهام گرفت. در کمتر تحقیقی، اتکا بر آنالیز وابستگی شدید ویژگیها و به دور از دقت کم صورت پذیرفته است. مراحل کار از مرحله پیشپردازش و پالایش ویژگی با مقداردهی مقادیر ازدسترفته و نیز نرمالسازی ویژگیها، انتخاب ویژگی با بهرهگیری از روش تلفیقی که متشکل از سه روش Wrapper، فیلتری عام و Relief است و طبقهبندی به شیوه ماشین یادگیری حداکثری با کرنل موجک بهینهشده توسط الگوریتم قورباغه تشکیل شده بود. سپس در چند مرحله، محکها ارزیابی شدند تا اثبات گردد میتوان از طریق تحلیل متکی بر یادگیری ماشین در دادههای مربوط به نارسایی قلبی، شناسایی و پیشبینی این بیماری را امکانپذیر نمود. مشخص شد که استفاده از تکنیک رأیگیری نرم در قالب یک راهکار بهینه تلفیقی ویژگیها تا حد زیادی بر افزایش منطقی دقت اثرگذار بوده است. طبقهبند پیشنهادی در این زمینه نیز از طریق یافتن پارامترهای شبکه عصبی با امکان یادگیری حداکثری و کرنل موجک آن و نیز گریز از بیشبرازش تا حد زیادی دقت را بهینه نموده است.
با این حال، دادههای قلبی و دادههای مشابه با آن (بهویژه برای حالتی که بیش از 5 کلاس باشد) دارای مقادیر ازدسترفته بسیار زیادی هستند. بنابراین جهت تحقیقات آینده، پیشنهاد میشود راهکار یا تدبیری در مرحله پیشپردازش (علاوه بر تکنیک پیشنهادی) ارائه شود که بتوان تا حد قابل ملاحظهای دقت واقعی در تشخیص را بهینه نماید. همچنین پیشنهاد میشود که جداسازی سیگنال اصلی از سایر مؤلفهها دقیقتر باشد؛ به طوری که ایجاد فضای ویژگی بر پایه روشهای مختلفی انجام پذیرد. نهایتاً جهت تحقیقات آتی بررسی طبقهبندهای دیگر جهت تشخیص بیماری پیشنهاد میگردد.
مراجع
[1] E. J. Nelwan, E. Widjajanto, S. Andarini, and M. S. Djati, "Modified risk factors for coronary heart disease (CHD) in Minahasa ethnic group from Manado city Indonesia," J. of Experimental Life Science, vol. 6, no. 2, pp. 88-94, Apr. 2017.
[2] C. J. Taylor and J. Moore, "NICE chronic heart failure update guideline 2018," Primary Care Cardiovascular J., vol. 3, no. 9, pp. 1-3, Apr. 2019.
[3] S. Citlik-Saritas, S. Saritas, R. Cevik-Akyil, and K. Isik, "The effects of Turkish classical music on physiological parameters, pain and analgesic use in patients with myocardial infarction: a non-randomized controlled study," Eur. J. of Integrative Medicine, vol. 22, pp. 50-53, Sept. 2018.
[4] M. Adam, et al., "Automated characterization of cardiovascular diseases using relative wavelet nonlinear features extracted from ECG signals," Comput. Methods and Programs in Biomedicine, vol. 161, pp. 133-143, Jul. 2018.
[5] M. Kolahkaj, A. Harounabadi, and M. Sadeghzade, "A recommender system for web mining using neural network and fuzzy algorithm," Int. J. of Computer Applications, vol. 78, no. 8, pp. 20-24, Sept. 2013.
[6] م. کلاهکج، "ارائه سیستم بازیابی تصاویر مبتنی بر محتوا با بهرهگیری از یادگیری نیمهنظارتشده و کاوش الگوهای مکرر انجمنی،" نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 20، شماره 3، صص. 252-245، پاییز 1401.
[7] K. Oh, Z. Li, B. S. Oh, and K. A. Toh, "Optimizing between data transformation and parametric weighting for stable binary classification," J. of the Franklin Institute, vol. 355, no. 4, pp. 1614-1637, Mar. 2018.
[8] M. Kolahkaj, "An image retrieval approach based on feature extraction and self-supervised learning," in Proc. 2nd Int. Conf. on Distributed Computing and High-Performance Computing, pp. 46-51, Qom, Iran, 2-3 Mar. 2022.
[9] C. Berry, D. R. Murdoch, and J. J. McMurray, "Economics of chronic heart failure," Eur. J. of Heart Failure, vol. 3, no. 3, pp. 283-291, Jun. 2001.
[10] J. C. de la Torre, "Hemodynamic instability in heart failure intensifies age-dependent cognitive decline," J. of Alzheimer's Disease, vol. 76, no. 1, pp. 63–84, May 2020.
[11] H. Linusson, U. Johansson, H. Boström, and T. Löfström, "Classification with reject option using conformal prediction," in Proc. Pacific-Asia Conf. on Knowledge Discovery and Data Mining, pp. 94-105, Melbourne, Australia, 3-6 Jun. 2018.
[12] J. Qiu, J. Xie, D. Zhang, and R. Zhang, "A robust twin support vector machine based on fuzzy systems," Int. J. of Intelligent Computing and Cybernetics, vol. 17, no. 1, pp. 101-125, Feb. 2024.
[13] B. Sahmadi and D. Boughaci, "Hybrid genetic algorithm with SVM for medical data classification," in Proc. Int. Conf. on Applied Smart Systems, 6 pp., Medea, Algeria, 24-25 Nov. 2018.
[14] S. Chen, J. Cao, F. Chen, and B. Liu, "Entropy-based fuzzy least squares twin support vector machine for pattern classification," Neural Processing Letters, vol. 51, no. 1, pp. 41-66, Feb. 2020.
[15] Z. Zainuddin, K. H. Lai, and P. Ong, "An enhanced harmony searches-based algorithm for feature selection: applications in epileptic seizure detection and prediction," Computers & Electrical Engineering, vol. 53, pp. 143-162, Jul. 2016.
[16] M. Nekkaa and D. Boughaci, "Hybrid harmony search combined with stochastic local search for feature selection," Neural Processing Letters, vol. 44, no. 1, pp. 199-220, Aug. 2016.
[17] D. Karaboga and C. Ozturk, "A novel clustering approach: artificial bee colony (ABC) algorithm," Appl. Soft Computing, vol. 11, no. 1, pp. 652-657, Jan. 2011.
[18] P. Tapkan, L. Özbakır, S. Kulluk, and A. Baykasoğlu, "A cost-sensitive classification algorithm: BEE-Miner," Knowledge-Based Systems, vol. 95, pp. 99-113, Mar. 2016.
[19] X. Lai, Z. Zhang, H. Chen, L. Zhang, Z. Li, and W. Lu, "Tracking-removed neural network with graph information for classification
of incomplete data," Appl. Intelligence, vol. 55, no. 3, pp. 1-20, Feb. 2025.
[20] J. Wu, S. Pan, X. Zhu, P. Zhang, and C. Zhang, "Sode: self-adaptive one-dependence estimators for classification," Pattern Recognition, vol. 51, pp. 358-377, Mar. 2016.
[21] X. Zhu, et al., "Confidence guided semi-supervised cross-modality person re-identification," Pattern Recognition, vol. 165, Article ID: 111669, Sept. 2025.
[22] X. Wang, G. Wu, G. Hao, and Z. Zhang, "A novel fuzzy twin support vector machine using mass-based dissimilarity measure," Knowledge and Information Systems, vol. 55, no. 5, pp. 4233-4300, Jan. 2025.
[23] B. Aydïlek, "Examining effects of the support vector machines kernel types on biomedical data classification," in Proc. Int. Conf. on Artificial Intelligence and Data Processing, 4 pp., Maltaya, Turkey, 28-30 Sept. 2018.
[24] S. Chen, J. Cao, and Z. Huang, "Weighted linear loss projection twin support vector machine for pattern classification," IEEE Access,
vol. 7, pp. 57349-57360, 2019.
[25] S. Lee and C. H. Jun, "Fast incremental learning of logistic model tree using least angle regression," Expert Systems with Applications, vol. 97, pp. 137-145, May 2018.
[26] H. Wang, P. Li, Y. Zheng, K. Jiang, and Y. Xu, "Sparse pinball universum nonparallel support vector machine and its safe screening rule," Appl. Intelligence, vol. 55, no. 6, pp. 563-580, Apr. 2025.
[27] C. T. Tran, M. Zhang, P. Andreae, B. Xue, and L. T. Bui, "An effective and efficient approach to classification with incomplete data," Knowledge-Based Systems, vol. 154, pp. 1-16, Aug. 2018.
[28] A. K. Jović, K. Brkić, and N. Bogunović, "A review of feature selection methods with applications," in Proc. 38th Int. Convention on Information and Communication Technology, Electronics and Microelectronics, pp. 1200-1205, Opatija, Croatia, 25-29 May 2015.
[29] J. Hamidzadeh, Z. Mehravaran, and A. Harati, "Feature selection by utilizing kernel-based fuzzy rough set and entropy-based non-dominated sorting genetic algorithm in multi-label data," Knowledge and Information Systems, vol. 67, no. 4, pp. 3789–3819, Apr. 2025.
[30] S. Narayanamoorthy, S. Geetha, R. Rakkiyappan, and Y. H. Joo, "Interval-valued intuitionistic hesitant fuzzy entropy based VIKOR method for industrial robots' selection," Expert Systems with Applications, vol. 121, pp. 28-37, May 2019.
[31] I. Kadhim Ajlan, H. Murad, A. A. Salim, and A. Fadhil Bin Yousif, "Extreme learning machine algorithm for breast cancer diagnosis," Multimedia Tools and Applications, vol. 84, pp. 14739-14758, 2024.
[32] X. Zhang, X. Hu, G. Cui, Y. Wang, and Y. Niu, "An improved shuffled frog leaping algorithm with cognitive behavior," in Proc. 7th World Congress on Intelligent Control and Automation, pp. 6197-6202, Chongqing, China, 25-27, Jun. 2008.
[33] UCI Machine Learning Repository, Heart Disease, 1988, available at https://www.archive.ics.uci.edu/ml/datasets/Heart+Disease
[34] G. Moody and R. Mark, MIT-BIH Arrhythmia Database, 2025, available at https://physionet.org/content/mitdb/1.0.0/
[35] J. Wu, S. Pan, X. Zhu, Z. Cai, P. Zhang, and C. Zhang, "Self-adaptive attribute weighting for Naive Bayes classification," Expert Systems with Applications, vol. 42, no. 3, pp. 1487-1502, Feb. 2015.
[36] P. Shunmugapriya and S. Kanmani, "A hybrid algorithm using ant and bee colony optimization for feature selection and classification (AC-ABC Hybrid)," Swarm and Evolutionary Computation, vol. 36, pp. 27-36, Oct. 2017.
[37] X. J. Shen, Y. Dong, J. P. Gou, Y. Z. Zhan, and J. Fan, "Least squares kernel ensemble regression in reproducing kernel Hilbert space," Neurocomputing, vol. 311, pp. 235-244, Oct. 2018.
[38] C. Yang and X. C. Yin, "Diversity-based random forests with sample weight learning," Cognitive Computation, vol. 11, no. 5, pp. 685-696, Oct. 2019.
مرجان مطیعیزاده دانشجوی کارشناسی ارشد رشته مهندسی کامپیوتر در دانشگاه آزاد اسلامی واحد اهواز است. زمینههای تحقیقاتی وی شامل یادگیری ماشین و دادهکاوی میباشد.
مارال کلاهکج عضو هیأت علمی دانشگاه آزاد اسلامی و پژوهشگر حوزه مهندسی کامپیوتر و هوش مصنوعی است. زمینههای پژوهشی وی شامل سیستمهای توصیهگر، الگوریتمهای بهینهسازی و یادگیری ماشین با تمرکز بر تحلیل داده و تصمیمگیری هوشمند میباشد. از جمله فعالیتهای پژوهشی او میتوان به توسعه مدلهای ترکیبی و گرافمحور در سیستمهای توصیهگر و بهکارگیری روشهای تکاملی در یادگیری عمیق اشاره نمود.