تخصیص منابع امنیتی برای مقابله با حملات در اینترنت اشیا با استفاده از یادگیری ماشین
محورهای موضوعی : مهندسی برق و کامپیوتر
1 - دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت ايران
2 - دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت ايران
کلید واژه: اینترنت اشیا, تخصیص پویای منابع امنیتی, مسئله قمار چندبازویی, یادگیری ماشین,
چکیده مقاله :
امروزه شبکههای اینترنت اشیا (IoT) با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و همچنین عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی به کانون و مرکز توجه حملات امنیتی تبدیل شدهاند. در این مقاله، یک راهکار برای مسئله تخصیص منابع امنیتی به جهت مقابله با حملات در اینترنت اشیا ارائه خواهد شد. مسئله تخصیص منابع امنیتی در شبکه IoT (SRAIoT) به جایگذاری امنافزارها در زیرساخت IoT اشاره دارد. برای حل این مسئله نیاز است که شرایط پویای محیط ارتباطی و عدم قطعیت در مورد عملکرد مهاجمان لحاظ شود. در رویکردهای سنتی تخصیص منابع امنیتی در IoT، مهاجم بر اساس مفروضات خود از شرایط سیستم، دست به حمله زده و در مقابل، مدافع نیز در سیستم با شناخت قبلی از رفتار مهاجم و گرههای مورد حمله به مقابله میپردازد. برخلاف رویکردهای پیشین در این پژوهش از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. در مسئله مطرحشده به این علت که در بازههای یادگیری در مورد استقرار چند منبع امنیتی نیاز به اتخاذ تصمیم وجود دارد، فضای حالت راهبردها به صورت ترکیبیاتی بیان میشود. همچنین مسئله SRAIoT در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی- تخاصمی مطرح میشود. از آنجا که در شرایط واقعی، جابهجایی منابع امنیتی استقراریافته دارای هزینه بالایی است، هزینه مذکور در تابع سودمندی مسئله لحاظ شده و بنابراین چارچوب پیشنهادی بهصورت توأمان هزینه جابهجایی و پاداش کسبشده را مد نظر قرار میدهد. نتایج شبیهسازی نشاندهنده همگرایی سریعتر معیار پشیمانی ضعیف الگوریتمهای پیشنهادی نسبت به الگوریتم ترکیبیاتی پایه است. علاوه بر این بهمنظور شبیهسازی شبکه IoT در بستری واقعبینانه، شبیهسازی سناریوی حمله با استفاده از شبیهساز Cooja نیز انجام شده است.
Nowadays, the Internet of Things (IoT) has become the focus of security attacks due to the limitation of processing resources, heterogeneity, energy limitation in objects, and the lack of a single standard for implementing security mechanisms. In this article, a solution will be presented for the problem of security resources allocating to deal with attacks in the Internet of Things. Security Resource Allocation (SRA) problem in the IoT networks refers to the placement of the security resources in the IoT infrastructure. To solve this problem, it is mandatory to consider the dynamic nature of the communication environments and the uncertainty of the attackers' actions. In the traditional approaches for solving the SRA, the attacker works over based on his assumptions about the system conditions. Meanwhile, the defender collects the system's information with prior knowledge of the attacker's behavior and the targeted nodes. Unlike the mentioned traditional approaches, this research has adopted a realistic approach for the Dynamic Security Resources Allocation in the IoT to battle attackers with unknown behavior. In the stated problem, since there is a need to decide on deploying several security resources during the learning periods, the state space of the strategies is expressed in the combinatorial form. Also, the SRAIoT problem is defined as a combinatorial-adversarial multi-armed bandit problem. Since switching in the security resources has a high cost, in real scenarios, this cost is included in the utility function of the problem. Thus, the proposed framework considers the switching cost and the earned reward. The simulation results show a faster convergence of the weak regret criterion of the proposed algorithms than the basic combinatorial algorithm. In addition, in order to simulate the IoT network in a realistic context, the attack scenario has been simulated using the Cooja simulator.
[1] A. H. Anwar, C. Kamhoua, and N. Leslie, "Honeypot allocation over attack graphs in cyber deception games," in Proc. IEEE Int. Conf. on Computing, Networking and Communications, ICNC’20, pp. 502-506, Big Island, HI, USA, 17-20 Feb. 2020.
[2] L. Chen, Z. Wang, F. Li, Y. Guo, and K. Geng, "A stackelberg security game for adversarial outbreak detection in the Internet of Things," Sensors, vol. 20, no. 3, Article ID: 804, Feb. 2020.
[3] A. H. Anwar, C. Kamhoua, and N. Leslie, "A game-theoretic framework for dynamic cyber deception in internet of battlefield things," in Proc. of the 16th EAI Int. Conf. on Mobile and Ubiquitous Systems: Computing, Networking and Services, pp. 522-526, Houston, TX, USA, 12-14 Nov. 2019.
[4] A. Rullo, E. Serra, E. Bertino, and J. Lobo, "Optimal placement of security resources for the Internet of Things," The Internet of Things for Smart Urban Ecosystems, pp. 95-124, Jan. 2019.
[5] A. Rullo, D. Midi, E. Serra, and E. Bertino, "Pareto optimal security resource allocation for Internet of Things," ACM Trans. on Privacy and Security, vol. 20, no. 4, pp. 1-30, Nov. 2017.
[6] M. Zhu, et al., "A survey of defensive deception: approaches using game theory and machine learning," IEEE Communications Surveys & Tutorials, vol. 23, no. 4, pp. 2460-2493, Aug. 2021.
[7] A. Rullo, D. Midi, E. Serra, and E. Bertino, "A game of things: strategic allocation of security resources for IoT," in Proc. IEEE/ACM 2nd Int. Conf. on Internet-of-Things Design and Implementation, IoTDI’17, pp. 185-190, Pittsburgh, PA, USA, 18-21 Apr. 2017.
[8] M. A. R. Al Amin, S. Shetty, L. Njilla, D. K. Tosh, and C. Kamhoua, "Online cyber deception system using partially observable Monte Carlo planning framework," in Proc. Int. Conf. on Security and Privacy in Communication Systems, vol. 2, pp. 205-223, Orlando, FL, USA, 23-25 Oct. 2019.
[9] S. Wang, Q. Pei, J. Wang, G. Tang, Y. Zhang, and X. Liu, "An intelligent deployment policy for deception resources based on reinforcement learning," IEEE Access, vol. 8, pp. 35792-35804, 2020.
[10] M. Li, D. Yang, J. Lin, and J. Tang, "Specwatch: a framework for adversarial spectrum monitoring with unknown statistics," Computer Networks, vol. 143, pp. 176-190, Oct. 2018.
[11] W. Chen, Y. Wang, and Y. Yuan, "Combinatorial multi-armed bandit: general framework and applications," Proceedings of Machine Learning Research, vol. 28, no. 1, pp. 151-159, Feb. 2013.
[12] M. R. Palattella, N. Accettura, X. Vilajosana, T. Watteyne, L. A. Grieco, G. Boggia, and M. Dohler, "Standardized protocol stack for the internet of (important) things," IEEE Communications Surveys & Tutorials, vol. 15, no. 3, pp. 1389-1406, Dec. 2012.
[13] F. Algahtani, T. Tryfonas, and G. Oikonomou, "A reference implemenation for RPL attacks using contiki-NG and Cooja," in Proc. 17th Int. Conf. on Distributed Computing in Sensor Systems, DCOSS’21, pp. 280-286, Pafos, Cyprus, 14-16 Jul. 2021.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 4، زمستان 1402 253
مقاله پژوهشی
تخصیص منابع امنیتی برای مقابله با حملات در
اینترنت اشیا با استفاده از یادگیری ماشین
نسیم نوائی و وصال حکمی
چکیده: امروزه شبکههای اینترنت اشیا (IoT) با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و همچنین عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی به کانون و مرکز توجه حملات امنیتی تبدیل شدهاند. در این مقاله، یک راهکار برای مسئله تخصیص منابع امنیتی به جهت مقابله با حملات در اینترنت اشیا ارائه خواهد شد. مسئله تخصیص منابع امنیتی در شبکه IoT (SRAIoT) به جایگذاری امنافزارها در زیرساخت IoT اشاره دارد. برای حل این مسئله نیاز است که شرایط پویای محیط ارتباطی و عدم قطعیت در مورد عملکرد مهاجمان لحاظ شود. در رویکردهای سنتی تخصیص منابع امنیتی در IoT، مهاجم بر اساس مفروضات خود از شرایط سیستم، دست به حمله زده و در مقابل، مدافع نیز در سیستم با شناخت قبلی از رفتار مهاجم و گرههای مورد حمله به مقابله میپردازد. برخلاف رویکردهای پیشین در این پژوهش از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. در مسئله مطرحشده به این علت که در بازههای یادگیری در مورد استقرار چند منبع امنیتی نیاز به اتخاذ تصمیم وجود دارد، فضای حالت راهبردها به صورت ترکیبیاتی بیان میشود. همچنین مسئله SRAIoT در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی- تخاصمی مطرح میشود. از آنجا که در شرایط واقعی، جابهجایی منابع امنیتی استقراریافته دارای هزینه بالایی است، هزینه مذکور در تابع سودمندی مسئله لحاظ شده و بنابراین چارچوب پیشنهادی بهصورت توأمان هزینه جابهجایی و پاداش کسبشده را مد نظر قرار میدهد. نتایج شبیهسازی نشاندهنده همگرایی سریعتر معیار پشیمانی ضعیف الگوریتمهای پیشنهادی نسبت به الگوریتم ترکیبیاتی پایه است. علاوه بر این بهمنظور شبیهسازی شبکه IoT در بستری واقعبینانه، شبیهسازی سناریوی حمله با استفاده از شبیهساز Cooja نیز انجام شده است.
کلیدواژه: اینترنت اشیا، تخصیص پویای منابع امنیتی، مسئله قمار چندبازویی، یادگیری ماشین.
1- مقدمه
امروزه، اینترنت اشیا 2(IoT) بهصورتی فزاینده مورد توجه صنعت و پژوهشگران قرار گرفته است. پیشبینی میشود که تا سال 2030، تعداد وسایل متصل به بستر اینترنت اشیا به مرز 30 میلیارد برسد. با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و نیز عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی، این فناوری به کانون حملات امنیتی تبدیل شده است. همچنین دستگاههای IoT برای مهاجمانی که قصد واردکردن صدمات بزرگی را دارند، به دلایل وابستگی کاربر به دستگاه خودش و قدرت تصمیمی که به دستگاه داده میشود، گزینه مناسبی هستند. بنابراین نگرانی در مورد امنیت این دستگاهها رو به افزایش است [1] و [2]. برای مقابله با حملات و موجودیتهای خرابکار در اینترنت اشیا که از طریق دسترسی به کانال ارتباطی، کنترل تجهیزات و تزریق دادههای نادرست، قصد تخریب کارایی سیستم را دارند، وجود زیرساخت امنیتی ضروری است. با توجه به محدودیت منابع دستگاههای هوشمند، استفاده از رویکردهای امنیتی قدرتمند سنتی که دارای سربار پردازشی قابل توجهی هستند، ناکارآمد است. از این رو تخصیص منابع امنیتی همچون سیستمهای تشخیص نفوذ (IDS) و هانی پاتها3 بهمنظور جمعآوری اطلاعات از مهاجمان و جلوگیری از حملات در بستر اینترنت اشیا مفید و اجتنابناپذیر است.
1-1 انگیزههای توسعه پژوهش
مسئله تخصیص منابع امنیتی در شبکه اینترنت اشیا (SRAIoT) به جاگذاری و نصب امنافزارها در زیرساخت IoT (گرهها، سرخوشهها یا دروازه) اشاره دارد. برای حل این مسئله نیاز است که شرایط پویای محیط ارتباطی و عدم قطعیت در مورد عملکرد مهاجمان لحاظ شود. این مسئله از پیچیدگی بالایی برخوردار بوده و بهطور کلی با دو رویکرد میتوان با
آن مواجهه نمود. در رویکردهای سنتی تخصیص منابع امنیتی در IoT، مهاجم بر اساس مفروضات خود از شرایط سیستم، دست به حمله زده و در مقابل، مدافع نیز در سیستم با شناخت قبلی از رفتار مهاجم و گرههای مورد حمله به جمعآوری اطلاعات میپردازد. در واقع برای محاسبه راهبرد تخصیص منابع امنیتی فرض میشود که مدافع از مدل ارزشگذاری حملات توسط مهاجم اطلاع دارد و در نتیجه میتواند بهترین واکنش خود را پیشاپیش محاسبه نماید [2] تا [5]. در حالی که در سناریوهای واقعی، طرفین اعم از مدافع و مهاجم بدون دانش و شناخت قبلی از یکدیگر در سیستم فعالیت میکنند. در این مقاله، برخلاف رویکردهای سنتی مذکور از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. بدین ترتیب بهعلت وجود شرایط اطلاعات نامعلوم، استفاده از رویکرد مبتنی بر یادگیری ماشین حائز اهمیت است. بهطور کلی انگیزههای توسعه پژوهش به شرح زیر هستند:
1) افزایش حملات به زیرساخت اینترنت اشیا
2) گسترش کاربرد اینترنت اشیا در زندگی
3) نیاز به رهیافت هوشمند برای تخصیص منابع امنیتی
4) نیاز به حفاظت شبکه با حداقل هزینه منابع امنیتی
5) نیاز به شبیهسازی و ارزیابی شبکه در بستری واقعبینانه
1-2 نوآوری روش پیشنهادی
ابتدا مسئله تخصیص منابع امنیتی در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی عنوان میشود. از آنجا که جابهجایی منابع امنیتی استقراریافته در برخی شرایط دارای هزینه بالایی است، در مسئله مطرحشده سعی گردیده که این هزینه جابهجایی در تابع سودمندی مسئله لحاظ شود. بدین صورت که هزینه مهاجرت و جابهجایی منابع از یک سرخوشه به سرخوشه دیگر بهعنوان معیار جریمه در کارایی فرایند یادگیری تأثیر داده میشود. در این پژوهش قصد داریم مسئله تخصیص منابع امنیتی در شبکه اینترنت اشیا را در نبود دانش آماری مهاجم به شکلی کارآمد حل کنیم. در این مسئله فضای حالت اتخاذ راهبردها ترکیبیاتی است و به همین دلیل بهجای مسئله MAB کلاسیک با CMAB روبهرو هستیم. از آنجا که مهاجم سعی در کاهش کارایی شبکه دارد، مسئله از جنس تصمیمگیری در محیط تخاصمی میباشد. همچنین به علت لحاظ هزینه مهاجرت منبع از یک حوزه به حوزه دیگر شبکه، CMAB تخاصمی با هزینه جابهجایی (CMAB-SC) بهترین چارچوب برای مسئله تخصیص منابع امنیتی در شبکههای اینترنت اشیا خواهد بود.
در این مقاله برخلاف رویکردهای سنتی مذکور از رویکردی واقعبینانه برای تخصیص پویای منابع امنیتی در شبکه IoT جهت مقابله با مهاجمانی با رفتار ناشناخته استفاده شده است. در مسئله مطرحشده به این علت که در بازههای یادگیری در مورد استقرار چند منبع امنیتی نیاز
به اتخاذ تصمیم وجود دارد، فضای حالت راهبردها بهصورت ترکیبیاتی بیان میشود. همچنین مسئله SRAIoT در چارچوب یک مسئله قمار چندبازویی ترکیبیاتی- تخاصمی مطرح میشود. از آنجا که در شرایط واقعی، جابهجایی منابع امنیتی استقراریافته دارای هزینه بالایی است، هزینه مذکور در تابع سودمندی مسئله لحاظ شده است. بنابراین چارچوب پیشنهادی بهصورت توأمان هزینه جابهجایی و پاداش کسبشده را مد نظر قرار میدهد.
الگوریتم پیشنهادی برای حل مسئله تخصیص منابع امنیتی نسبت به کارهای پیشین از چند جهت دارای نوآوری است:
1) فراهمآوری چارچوب تخصیص منابع امنیتی برای IoT بهصورت برخط
2) لحاظ مهاجرت منابع امنیتی بهعنوان معیار جریمه در کارایی فرایند یادگیری
3) شبیهسازی و ارزیابی شبکه در بستری واقعبینانه با استفاده از Cooja
1-3 ساختار مقاله
ادامه این مقاله بهصورت زیر ساختاربندی شده است. در بخش دوم
به بررسی کارهای انجامشده در زمینه تخصیص منابع امنیتی در IoT پرداخته میشود. سپس در بخش سوم، مدل سیستم و گامهای الگوریتم پیشنهادی تخصیص منابع امنیتی ارائه خواهد شد. در بخش چهارم، معیارهای ارزیابی و نتایج بهدستآمده از ارزیابی روش پیشنهادی نمایش داده خواهد شد. در بخش پنجم، شبیهسازی یک سناریوی واقعی در بستر Cooja انجام گردیده و نتایج آزمایشهای سناریوهای مختلف بررسی خواهد شد. نهایتاً در بخش آخر، نتیجهگیری و پیشنهادها برای کارها و پژوهشهای آتی آمده است.
2- پژوهشهای پیشین
رفتار مدافع و مهاجم در کارهای پیشین بهصورت یک بازی فرموله میشود. هر دوی بازیکنها اعم از مدافع و مهاجم، تصمیم و عملی را اتخاد کرده و بر اساس آن تصمیم، پاداش یا سود دریافت میکنند و طی یک روند تکراری، تصمیم خود را بهروز میکنند تا زمانی که نتوانند سودمندی خود را بهبود دهند و به تعادل نش برسد. فریب دفاعی، یک رویکرد امیدوارکننده برای دفاع سایبری است. از طریق فریب دفاعی، یک مدافع میتواند حملات را با گمراهکردن یا فریب مهاجم یا مخفیکردن برخی از منابع خود پیشبینی کرده و از آن جلوگیری کند. کارهای مرتبط با حوزه فریب تدافعی متمرکز بر نظریه بازی و یادگیری ماشین است؛ زیرا اینها خانوادههای برجستهای از رویکردهای هوش مصنوعی هستند که بهطور گسترده در فریب تدافعی به کار میروند [۶]. به طور کلی، کارهای مرتبط در سه دسته بازی فریب امنیتی و بازی استکلبرگ و روشهای مبتنی بر یادگیری ماشین طبقهبندی میشوند.
در بخش بازی فریب امنیتی، طبق فرض کار [1] مهاجمان معمولاً میتوانند از طریق پویش شبکه به برخی اطلاعات داخلی مربوط به ساختار شبکه دست یابند. بدین ترتیب مهاجم قصد دارد با انتخاب آگاهانه گره قربانی از میان مجموعه تمام گرههای قابل دسترس، پاداش مورد نظر خود را حداکثر کند. همچنین مدافع از محل دقیق حضور مهاجم در شبکه مطلع نبوده و برای قراردادن یک هانی پات جدید در لبه شبکه، متحمل هزینه ثابتی میشود. در این بازی، هر کدام از بازیکنها در صدد افزایش تابع پاداش خود هستند؛ اما از آنجا که یک بازی مجموع صفر مدلسازی میشود، افزایش پاداش در یکی به منزله کاهش پاداش در دیگری است. در [2] بازی تصادفی تا حدی قابل مشاهده (POSG) به جهت مدلسازی پویایی بازی فریب بین مهاجم و مدافع بررسی گردیده است. در چنین سناریویی، مجموعه آسیبپذیریها و گراف حمله متغیر با زمان بوده و به این علت، مهاجم اطمینانی در مورد وضعیت واقعی شبکه ندارد. این مقاله برای درنظرگرفتن یک مدل تهدید عملی، بازیای را در نظر میگیرد که هر دو بازیکن تا حدی راهبرد یکدیگر را مشاهده میکنند. در [7] راهبرد تخصیص منابع در دو مرحله انجام میشود: در ابتدا برای رویکردهای تخصیص منابع، یک مسئله بهینهسازی سههدفه محاسبه میگردد. در ادامه جهت کمینهکردن ریسک، مسئله بهینهسازی یکهدفه محاسبه میشود. از آنجا که این راهبرد شامل کمترین مصرف انرژی و ارزانترین زیرساخت میباشد، جواب چنین مسئلهای بهینه است. مدلسازی تعامل در [5] بهصورت بازی استکلبرگ بین مدافع و مهاجم میباشد. همچنین مهاجم برای انجام حمله باید حداقل یک منبع امنیتی را به خطر بیندازد. بنابراین مهاجم باید حداقل به یک گره دسترسی داشته و از منابع امنیتی که مدافع در سطح شبکه گذاشته باخبر میباشد. هدف مدافع، تأمین امنیت کل شبکه با انتخاب و جایگذاری درست منابع است؛ به قسمی که منبع امنیتی بتواند به بهترین شکل به حملات رسیدگی کند. در [8] یک رویکرد فریب آنلاین پیشنهاد شده است. مدافع یک باور متشکل از یک حالت امنیتی را حفظ میکند؛ در حالی که اقدامات حاصل به عنوان فرایند تصمیمگیری مارکوف جزئی قابل مشاهده (POMDP) مدل میشود. این مدل مبتنی بر یادگیری تقویتی فرض میکند که باور مدافع در مورد پیشرفت مهاجم از طریق یک سیستم تشخیص نفوذ مبتنی بر شبکه (NIDS) مشاهده میشود. در [۹] یک راهبرد استقرار بهینه برای منابع
[1] این مقاله در تاریخ 19 آبان ماه 1401 دریافت و در تاریخ 9 خرداد ماه 1402 بازنگری شد.
نسیم نوائی، دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت ايران، تهران، ایران، (email: nasim_navaei@comp.iust.ac.ir).
وصال حکمی (نویسنده مسئول)، دانشكده مهندسي كامپيوتر، دانشگاه علم و صنعت ايران، تهران، ایران، (email: vhakami@iust.ac.ir).
[2] . Internet of Things
[3] . Honey Pot
شکل 1: مدل سیستم و نمایی کلی از روند یادگیری مسئله SRAIoT.
فریب مانند هانی پاتها شناسایی شد. یک الگوریتم یادگیری را برای یک سیاست استقرار هوشمند ایجاد کردند تا منابع فریب را با تغییر وضعیت امنیت شبکه بهصورت پویا قرار دهند. با تجزیه و تحلیل راهبرد مهاجم در شرایط عدم قطعیت و راهبردهای یک مدافع با چندین خط مشی مکان استقرار، یک بازی مهاجم- مدافع در نظر گرفته شده است.
بهعنوان جمعبندی در عمده کارهای موجود فرض بر این است که مدافع از مدل ارزشگذاری حملات توسط مهاجم باخبر است؛ بنابراین پیشاپیش بهترین واکنش خود را با توجه به شرایط موجود محاسبه میکند. در مقابل، مهاجم نیز حمله را بر اساس مفروضات خود از شرایط سیستم شروع میکند. همچنین به علت پیچیدگی بالای فضاهای عملیاتی، امکان مدلسازی دقیق یک حمله هنگام انجام حملات متعدد وجود ندارد
و در شرایطی که شبکه تحت تأثیر چندین حمله قرار میگیرد، درنظرگرفتن تعاملات فقط میان یک مهاجم و یک مدافع کافی نیست. یک سناریوی واقعبینانه این است که در مدلسازی، طرفین (اعم از مدافع و مهاجم) شناخت کاملی از پارامترهای تابع هدف رقیب ندارند؛ بنابراین نیاز به روشی تطبیقی مبتنی بر یادگیری برخط جهت تخصیص منابع امنیتی به شبکه IoT است.
3- مدل سیستم
شکل 1، مدل سیستم و نمایی کلی از روند یادگیری مسئله تخصیص منابع امنیتی در اینترنت اشیا (IoT) را نشان میدهد. گرههای اینترنت اشیا با توجه به محدودیت منابع پردازشی، ناهمگونی و محدودیت انرژی در اشیا و نیز عدم وجود استانداردی واحد برای پیادهسازی سازوکارهای امنیتی به کانون و مرکز توجه حملات امنیتی تبدیل شده است. پیادهسازی رویکردهای امنیتی سنتی به علت محدودیت انرژی و هزینه بالا، مناسب این شبکه نیست؛ بنابراین نیازمند استفاده از رویکردهای جدید و متناسب با محدودیتها و چالشهای این بستر هستیم. این شبکه به علت کمبود منابع امنیتی در معرض حملات بوده و این حملات میتوانند انواع مختلفی مانند حمله Rank و حمله Sinkhole داشته باشند.
در این مقاله، شبکه اینترنت اشیا بهصورت گراف وزندار غیرجهتدار با گره در نظر گرفته شده است. این شبکه گرافی با کمک الگوریتم مجموعه ناوابسته حریصانه خوشهبندی گردیده و تعداد
سرخوشه به جهت کارگذاری منابع امنیتی مشخص میشود. معماری روش پیشنهادی مبتنی بر شیار زمانی است و بنابراین کل دوره زمانی اجرای الگوریتم به مجموعه
از شیارهای زمانی گسسته میشود. همچنین مجموعه مهاجمها توسط مجموعه
نمایش داده میشود. در این کار فرض بر این است که مهاجم از نوع متخاصم بوده و تمام اقدامات مدافع را از پیش میداند و دقیقاً همانند وی از الگوریتم یادگیری هوشمندانه استفاده میکند تا بتواند حمله را انجام دهد. ایده کلی این کار از [۱۰] که مختص تخصیص رادیو به کانالهای شبکههای رادیویی شناختی است، گرفته شده و گامهای الگوریتم مختص شبکه اینترنت اشیا، شخصیسازی و تغییر داده شده است.
مدافع در ابتدای شیار زمانی یک راهبرد از مجموعه راهبرد
انتخاب میکند که راهبرد منتخب بهصورت
نشان داده میشود. بدین ترتیب، راهبرد منتخب در شیار زمانی بعدی
بهصورت
معین میشود. در این راستا جابهجایی منبع از یک سرخوشه به سرخوشه دیگر، مقداری هزینه به همراه دارد؛ بنابراین هزینه جابهجایی از راهبرد
به راهبرد
بهصورت
(1)
فرموله میشود. واضح است اگر راهبرد در شیار زمانی بعدی عوض نشود، این هزینه برابر با صفر خواهد بود. برای سادگی کار، هزینه جابهجایی برای اولین شیار زمانی بدون توجه به اینکه چیست، برابر با مقدار زیر تنظیم میشود
(2)
پاداش دریافتی از تشخیص موفقیتآمیز حمله توسط منبع امنیتی روی سرخوشه در راهبرد
در شیار زمانی
بهصورت زیر فرموله میشود
(3)
پاداش دریافتی از راهبرد منتخب برابر با مجموع پاداشهای دریافتی از هر سرخوشه در شیار زمانی است که بهصورت زیر فرموله میشود
(4)
3-1 سنجش و ارزیابی روش پیادهسازیشده
بهطور استاندارد، معیار کارایی برای ارزیابی عملکرد الگوریتمها یا عاملهای یادگیرنده در MAB به نام «معیار پشیمانی» است. برای یک عامل یادگیرنده، پشیمانی در هر لحظه از زمان بهصورت اختلاف میانگین زمانی پاداشهای بهدستآمده از بازوهای منتخب توسط عامل یادگیرنده
شکل 2: شیارهای زمانی بهازای دسته زمانی .
با پاداش متوسط بهینه تعریف میشود. مفروض است که مدافع در طول افق زمانی از دنباله راهبرد تولیدشده یعنی
توسط الگوریتم
پیروی میکند. در پایان شیار زمانی
، پاداش راهبرد تجمعی بهصورت (۵) تعریف میشود
(5)
در این بین، مدافع متحمل هزینه جابهجایی تجمعی میشود
(6)
در نتیجه، میزان سودمندی الگوریتم از منابع امنیتی تخصیصدادهشده برابر با میزان اختلاف پاداش تجمعی الگوریتم و هزینه جابهجایی تجمعی آن است
(7)
برای ارزیابی الگوریتم اجرایی، از حالت خاص پشیمانی در بدترین حالت، یعنی پشیمانی ضعیف به عنوان معیار استفاده میشود. برای محاسبه میزان این پشیمانی، نیاز داریم تا میزان اختلاف بین سودمندی از بهترین حالت الگوریتم و الگوریتم اجرایی بهدست آید. میزان سودمندی الگوریتم بهترین حالت، زمانی است که بین بازههای زمانی
هرگز راهبرد عوض نشود؛ بنابراین هزینه جابهجایی بهجز در بازه زمانی اولیه برابر با صفر است و در نتیجه داریم
(8)
همچنین این الگوریتم میبایست بیشترین میزان پاداش را داشته باشد؛ بنابراین از بین راهبردها، راهبردی انتخاب میشود که بیشترین میزان پاداش را دارد و در نتیجه، میزان سودمندی این الگوریتم بدین صورت نمایش داده خواهد شد
(9)
بنابراین میتوانیم میزان پشیمانی را محاسبه کنیم
(10)
برای کنترل موازنه بین پاداش و هزینه جابهجایی، تمام شیارهای زمانی را به دستههای زمانی متوالی و جدا از هم گروهبندی میکنیم. ما در هر دسته زمانی به همان راهبرد پایبند هستیم تا از هزینه جابهجایی جلوگیری کنیم. بین دستهها، یک راهبرد مجدداً به جهت دریافت پاداشهای بالاتر انتخاب میشود. اندازه دسته زمانی کوچکتر ممکن است منجر به پاداش بیشتر اما هزینه جابهجایی بیشتر شود؛ در حالی که اندازه دسته زمانی بزرگتر ممکن است منجر به هزینه جابهجایی کمتر اما پاداش کمتر شود. با توجه به پارامتر تعیین دسته زمانی ، شیارهای زمانی
به دستههای زمانی متوالی و جدا از هم تقسیم میشوند
(11)
بهطوری که برای داریم
جدول 1: احتمال راهبرد در الگوریتمها [10].
احتمال راهبرد در دسته زمانی | |
۱- SRIoT |
|
۲- SRIoT |
|
۳- SRIoT |
|
جدول 2: وزن راهبرد در الگوریتمها [10].
نام الگوریتم | وزن راهبرد در دسته زمانی |
۱- SRIoT |
|
۲- SRIoT |
|
|
(12)
بنابراین دسته زمانی - همان طور که در شکل 2 آمده است- از شیار زمانی
شروع شده و در شیار زمانی
به پایان میرسد.
3-2 الگوریتم پیشنهادی
برای مسئله تخصیص منابع امنیتی در شبکههای اینترنت اشیا با توجه به شرایط مسئله در یک چارچوب یکسان، سه الگوریتم یادگیری تقویتی مورد بررسی و تجزیه و تحلیل قرار گرفت. برای بحث تئوری، الگوریتم
به توضیح مراحل 3SRAIoT اکتفا کرده و در مورد توضیح فرمول بهروزرسانی وزن راهبرد و نهایتاً وزن سرخوشه در این الگوریتم خواهیم پرداخت. زیرا این الگوریتم، رفتار نسبتاً بهتری از الگوریتمهای قبلی داشته و بهعلت معرفی مفهوم جدیدی از مجموعه پوششی راهبردها در مقیاسهای بزرگتر، سریعتر از بقیه به راهبرد بهینه نزدیک میشود. فرمول توابع اصلی هر سه الگوریتم در جداول 1 و ۲ قابل مشاهده است. در این جداول، فرمولهای احتمال راهبرد در دسته زمانی و وزن راهبرد در دسته زمانی
آورده شده است.
در ادامه این بخش، مراحل مدل سیستم به تفکیک مورد بررسی قرار خواهند گرفت.
3-2-1 محاسبه راهبردهای مختلف
از آنجا که حالتهای مختلفی برای تخصیص منابع امنیتی بر روی سرخوشههای شبکه اینترنت اشیا وجود دارد، مدافع با راهبردهای مختلفی برای کارگذاری منابع امنیتی روبهرو خواهد بود. این مسئله به دنبال تخصیص منبع محدود امنیتی به
سرخوشه است؛ بنابراین تعداد کل راهبردها برابر با مجموعه
بوده و بهصورت زیر تعریف میشود
(13)
در الگوریتم ۳- SRAIoT، معیار پشیمانی ضعیف واقعی با با هر گونه اطمینان تعریفشده توسط کاربر محدود میشود. علاوه بر این با معرفی یک مفهوم جدید به نام مجموعه همپوشان راهبرد1، ضریب کران پشیمانی ضعیف از
به
کاهش پیدا میکند که در آن
است.
3-2-2 محاسبه احتمال راهبردها
هر راهبرد مدافع با یک احتمال مشخص در هر دسته زمانی میتواند انتخاب گردد و همچنین در طول کل دسته زمانی
، راهبرد عوض نمیشود. احتمال راهبرد مدافع با
مشخص گردیده است و
بر اساس وزن راهبرد محاسبه میشود. برای محاسبه احتمالات راهبرد، مفهوم جدیدی به نام مجموعه همپوشان راهبرد معرفی میشود. مجموعه همپوشان راهبرد به مجموعهای از راهبردها اطلاق میگردد که تمام سرخوشههای را پوشش میدهند؛ به قسمی که سرخوشه
توسط
پوشش داده میشود، اگر راهبرد
وجود داشته و سرخوشه
در این راهبرد حضور داشته باشد
. این مجموعه، زیرمجموعهای از مجموعه تمام راهبردها است
. وزن اولیه برای هر راهبرد بر اساس دانش گذشته حمله مهاجم و اهمیت سرخوشه تعیین میگردد. برای محاسبه احتمال انتخاب هر راهبرد در هر دسته زمانی از (۱۴) استفاده میشود
(14)
پارامتر برای محاسبه احتمال راهبردها و ایجاد توازن میان اکتشاف و بهرهبرداری استفاده میشود. اولین عبارت (۱۴) بهرهبرداری از راهبردهایی با سابقه پاداش خوب است و دومی، اکتشاف تمام راهبردها را تضمین میکند.
تابع نشانگر است؛ اگر
باشد، مقداری برابر با عدد یک خواهد داشت و در غیر این صورت برابر با صفر خواهد بود. به این ترتیب راهبردهای موجود در مجموعه همپوشان، بیشتر از سایرین انتخاب میشوند. در نتیجه، ۳- SRIoT میتواند همه سرخوشهها را سریعتر کشف کند و فرایند اکتشاف برای بهترین راهبرد تسریع میشود. همچنین در (۱۴)،
مجموع وزن راهبردها است؛ به قسمی که داریم
(15)
3-2-3 انتخاب راهبرد
در مرحله قبل، احتمال انتخاب هر راهبرد مدافع در دسته زمانی محاسبه شد. احتمال راهبردها در قالب یک آرایه تعریف گردیده و از این توزیع احتمال، نمونهگیری اولیه میشود. خروجی این پیادهسازی، شاخص راهبرد
در مجموعه راهبردها
است و بدین ترتیب، راهبرد منتخب
در تکرار کنونی بهدست میآید. راهبرد منتخب در دسته زمانی
، یعنی
برای تمام شیارهای زمانی
در دسته زمانی
، یکسان و بدون تغییر باقی میماند. به بیان دیگر اگر راهبرد انتخابی جهت تخصیص منابع امنیتی در دسته زمانی
ام برابر با
باشد، به ازای
داریم
(16)
از این رو هزینه جابهجایی برای دسته زمانی
، تنها یک بار رخ میدهد و مدافع بر اساس حملهای که رخ میدهد، پاداشی دریافت میکند. مدافع، سوابق
را برای همه
و
نگه میدارد. پاداش راهبردی که توسط مدافع بهدست میآید، مجموع تمام پاداشهای دریافتی از سرخوشههای نظارتشده است. ماتریس
بیانگر احتمال تشخیص موفقیتآمیز حضور تعداد
مهاجم است. درایههای این ماتریس با منطق افزایش مقدار احتمال تشخیص با دو عامل تخصیص منبع امنیتی به سرخوشه
و تعداد حمله مهاجمین به آن سرخوشه محاسبه میشوند. بنابراین با الهام از [۱۰] به ازای هر حمله به سرخوشه داریم
(17)
مدل حمله مهاجم بر آن اساس است که راهبردش با استفاده از نمونهگیری از توزیع احتمال راهبردهای بهدستآمده تعیین میشود. برخلاف راهبرد تخصیص منابع امنیتی که در هر تکرار و دسته زمانی به طول ، راهبرد تغییر نمیکند، راهبرد مهاجمین در هر طول تکرار عوض میشود.
3-2-4 بهروزرسانی وزن راهبردها
وزنهای راهبردها در انتهای هر دسته زمانی بر طبق مراحل بعدی بهروزرسانی میشود. در قدم اول لازم است هر زمان که منبع امنیتی نصبشده بر روی سرخوشه موفق به تشخیص حمله در هر زمان
در دسته زمانی
شد، پاداش دریافتی از آن در
بهعنوان پاداش سرخوشه برای سرخوشه
نگهداری شود. در انتهای دسته زمانی، متوسط پاداش دریافتی سرخوشه برای سرخوشه
، دارای منبع امنیتی در دسته زمانی
بهصورت زیر محاسبه میشود
(18)
هر واحد پاداش دریافتی برابر با مقدار مشخص بوده که نهایتاً برابر با معکوس تعداد منابع امنیتی است. با درنظرگرفتن (۳) داریم
(19)
در قدم بعد، احتمال انتخاب سرخوشه با جمعکردن احتمالات راهبردهای شامل آن سرخوشه بهصورت زیر محاسبه میشود
(20)
و در آن تعداد راهبردهایی را نشان میدهد که در مجموعه همپوشان راهبرد حضور داشته و شامل سرخوشه
هستند
(21)
برای محاسبه میانگین امتیاز سرخوشه نیاز به پارامتر است؛ بنابراین بر اساس (18) و (20)، متوسط امتیاز سرخوشه برای سرخوشه
در دسته زمانی
بهصورت زیر محاسبه میشود
(22)
از پارامتر برای کاهش تبعیض2 مابین سرخوشههای دارای منبع امنیتی و سرخوشه بدون منبع امنیتی استفاده میگردد. سپس وزن هر سرخوشه توسط فرمول زیر بهروزرسانی میشود
(23)
[1] . Covering Strategy Set
[2] . Bias
شکل 3: شبهکد الگوریتم تخصیص منابع امنیتی.
نهایتاً تعریف رسمی وزن راهبرد بهصورت زیر است
(24)
با ترکیب (۲۲) و (۲۳) میتوان مستقیماً وزن راهبرد برای هر راهبرد را بهروزرسانی کرد
(25)
در حالی که متوسط امتیاز راهبرد برای هر راهبرد
بوده و بهصورت زیر محاسبه میشود
(26)
شایان ذکر است با ترکیب (۱۸)، (۲۰) و (22) میتوان بهصورت مستقیم را محاسبه کرد
(27)
3-3 شبهکد الگوریتم پیشنهادی
تمامی قدمهای الگوریتم که در بخشهای پیشین به تفصیل توضیح داده شد در شبهکد شکل 3 آمده است. خط دوم آن، نمایانگر بحث نمونهگیری مذکور در بخش پیشین است و برخلاف [۱۰] در ابتدای کار، وزن راهبردها برابر یک نیست.
با اجرای این الگوریتم، معیار پشیمانی ضعیف بهطور حدی به صفر همگرا میشود. با استناد به قضیه دوم از [۱۰] به ازای هر نوعی از مهاجم و با احتمال حداقل ، معیار پشیمانی ضعیف الگوریتم ۳- SRIoT
توسط محدود میشود. بنابراین مقادیر ابرپارامترهای الگوریتم لازم است بهطور مشخص به شکل زیر تعریف شوند تا برای معیار پشیمانی ضعیف، همگرایی به سمت صفر اتفاق بیفتد. همچنین ضرایب
،
و
ثابت هستند
(28)
(29)
(30)
(31)
4- شبیهسازی و ارزیابی روش
بهمنظور بررسی و نمایش عملکرد الگوریتمهای پیشنهادی برای استقرار منابع امنیتی در شبکههای اینترنت اشیا، آزمایشها و شبیهسازیهای گستردهای انجام شد. کدهای الگوریتمها با استفاده از زبان برنامهنویسی پایتون نوشته و روی سیستم 7Core i هشتهستهای با GB 64 RAM و MB 12 Cache اجرا شده است. لازم به ذکر است نتایج شبیهسازی در ادامه آمده و هر یک از آنها بهطور متوسط بیش از 100 آزمایش، تکرار و محاسبه گردیده و نتایج آن به شیوهای خودکار توسط اسکریپتها مجزا و به نمودار تبدیل شده است. ما ابتدا همگرایی معیار پشیمانیهای ضعیف نرمالشده هر سه الگوریتم را به همراه الگوریتم پایه مورد مقایسه نشان دادهایم و سپس عملکرد آنها را به ازای مهاجم هوشمند مورد مطالعه و مقایسه قرار میدهیم. همچنین درباره آنکه چگونه ابرپارامترهای1 الگوریتم بر عملکرد الگوریتمهای پیشنهادی تأثیر میگذارند، بحث میکنیم. برای این کار علاوه بر ارجاع به قضایای [10] از برخی ابرپارامترهای مهم به ازای مقادیر مختلف اجرا گرفته شده است.
4-1 مفروضات و پارامترهای ارزیابی
در این شبیهسازی، یک گراف وزندار غیرجهتدار بهمنزله شبکه اینترنت اشیا حضور پیدا میکند و نیز برای سادگی، تنها یک نوع منبع امنیتی در تنظیمات شبیهسازی وجود دارد. همچنین فرض بر آن است که دو مهاجم از نوع سازگار2 (هوشمند)، قصد حمله به شبکه دارند. در تنظیم مهاجم سازگار (هوشمند)، هر مهاجم از حالت ۱- SRIoT اصلاحشده3 استفاده میکند؛ به عبارتی، نسخه غیرترکیبیاتی استفاده شده و تعداد بازوهای انتخابی هر مهاجم به تعداد سرخوشه میباشد. سایر پارامترهای شبیهسازی در جدول ۳ آمدهاند.
روش پایه مورد مقایسه در این پژوهش، الگوریتم 4CUCB بوده که توسعهای بر الگوریتم 1UCB است. به عبارت دیگر، الگوریتم CUCB، توسعه ترکیبیاتی الگوریتم UCB میباشد که این روش در [۱۱] شرح داده شده است. بهروزرسانی وزن بازوی ترکیبیاتی در این الگوریتم از طریق رابطه زیر انجام میشود
شکل 4: تأثیر پارامتر دسته زمانی بر سودمندی تجمعی.
شکل 5: تأثیر پارامتر بر روی سودمندی تجمعی.
(32)
4-2 نتایج ارزیابی
در این بخش با تکرار آزمایشها جهت ارزیابی روش پیشنهادی با معیارهای مورد بحث، نتایج بهدستآمده را به تفکیک در هر نمودار مشخص کرده و به تحلیل و بررسی کارایی روش مطرحشده میپردازیم. همچنین نمودارهایی برای مقایسه روش پیشنهادی با کار مقایسهای، تحلیل خواهد شد.
4-2-1 تأثیر پارامترهای الگوریتم
در میان تمام پارامترهای هر سه الگوریتم، مهمترین آنها و اندازه دسته زمانی است که موازنه بین پاداش تجمعی و هزینه جابهجایی تجمعی را کنترل میکند. شبیهسازی در شرایطی انجام شده که بزرگی پارامتر
دسته زمانی از رابطه
بهدست میآید. ما به ازای
مختلف از الگوریتمهای پیشنهادی اجرا گرفته و پاداش تجمعی محاسبه میشود. نمودار برای مهاجم سازگار (هوشمند) رسم گردیده و نتایج برای هر سه الگوریتم SRAIoT کاملاً یکسان است. در اینجا تنها به تحلیل نمودار الگوریتم ۳- SRIoT میپردازیم. همان گونه که در شکل 4 مشاهده میشود، هنگامی که
برابر با سه است، الگوریتم دارای بیشترین سودمندی تجمعی است؛ بنابراین در تمام تنظیمات شبیهسازی اندازه
را برابر عدد سه در نظر گرفته و اندازه پارامتر دسته زمانی، مستقیماً از رابطه
محاسبه میشود.