تطبیق هستانشناسیها بر مبنای حفظ شباهت محلی اطلاعات با بهرهگیری از تکنیک انتشار
محورهای موضوعی : مهندسی برق و کامپیوتر
نظرمحمد پارسا
1
(دانشکده مهندسی برق و کامپیوتر، دانشگاه سیستان و بلوچستان)
آسیه قنبرپور
2
(دانشکده مهندسی برق و کامپیوتر، دانشگاه سیستان و بلوچستان)
کلید واژه: وب معنایی, هستانشناسی, نگاشت, خصیصه, تطبیق,
چکیده مقاله :
در سالهای اخیر، هستانشناسیها بهعنوان یکی از مهمترین مؤلفههای وب معنایی در حوزههای گوناگون گسترش يافتهاند. مسئله تطبیق هستانشناسی با هدف ایجاد مجموعهای از نگاشتها بین موجودیتهای هستانشناسیها مطرح گردیده است. این مسئله جزو مسائل -NPسخت طبقهبندی شده است؛ از این رو روشهای حریصانه برای حل آن پیشنهاد گردیده و از جنبههای مختلف به حل آن پرداختهاند. استفاده از معیارهای شباهت لغوی، ساختاری و معنایی مناسب و بهرهگیری از یک روش ترکیب مؤثر برای حصول نگاشت نهایی از مهمترین چالشهای این روشها محسوب میشود. در این مقاله، یک روش خودکار تطبیق هستانشناسیها به منظور ارائه یک مجموعه نگاشت یکبهیک پیشنهاد شده است. این روش بر اساس یک معیار جدید شباهت واژگانی منطبق با ذات توصیفی موجودیتها و ترکیب این شباهت با شباهت معنایی بهدستآمده از منابع معنایی خارجی، به تشخیص نگاشتهای اولیه میپردازد. با انتشار محلی امتیاز نگاشتهای اولیه در گراف سلسلهمراتبی کلاسی، موجودیتهای منطبق ساختاری شناسایی میشوند. در این روش تطبیق خصیصهها در مرحلهای مجزا مورد بررسی قرار میگیرد. در مرحله نهایی، فیلتر نگاشتها به منظور حفظ سازگاری مجموعه نگاشت نهایی اعمال میشود. در بخش ارزیابی، مقایسه عملکرد معیار شباهت واژگانی نسبت به سایر معیارهای شباهت متنی مطرح، حاکی از کارایی این معیار در مسئله تطبیق هستانشناسیها است. علاوه بر این، نتایج سیستم تطبیق پیشنهادی در مقایسه با نتایج مجموعه سیستمهای شرکتکننده در مسابقات OAEI، این سیستم را در رتبه دوم و بالاتر از بسیاری از سیستمهای تطبیق پیچیده قرار میدهد.
In recent years, ontologies, as one of the most important components of the semantic web, have expanded in various fields. The problem of ontology matching has been raised with the aim of creating a set of mappings between entities of ontologies. This problem is classified as an NP-hard problem. Therefore, greedy methods have been proposed to solve it in different ways. Selecting the appropriate lexical, structural and semantic similarity criteria and using an effective combination method to obtain the final mapping is one of the most important challenges of these methods. In this paper, an automatic method of matching ontologies is proposed to provide a one-to-one mapping set. This method detects primary mappings based on a new lexical similarity criterion, which is accordance with the descriptive essence of entities and combining this similarity with semantic similarity obtained from external semantic sources. By locally propagating the score of initial mappings in the class hierarchy graph, structurally matching entities are identified. In this method, property matching is examined in a separate step. In the final step, the mapping filter is applied in order to maintain the consistency of the final mapping set. In the evaluation section, comparing the performance of the lexical similarity measure compared to other proposed textual similarity measures, indicates the efficiency of this measure in the problem of ontology matching. In addition, the results of the proposed matching system compared to the results of the set of participating systems in the OAEI competitions shows this system in the second place and higher than many complex matching systems.
[1] W. Huang and L. Harrie, "Towards knowledge-based geovisualisation using semantic web technologies: a knowledge representation approach coupling ontologies and rules," International J. of Digital Earth, vol. 13, no. 9, pp. 976-997, 2020.
[2] A. Sołtysik-Piorunkiewicz and M. Krysiak, "Development trends of semantic web information technology: the case study of organisational structure ontology," Information Systems in Management, vol. 6, no. 2, pp. 154-165, 2017.
[3] Z. Lv and R. Peng, "A novel meta-matching approach for ontology alignment using grasshopper optimization," Knowledge-Based Systems, vol. 201, Article ID: 106050, 2020.
[4] X. Xue, Q. Wu, M. Ye, and J. Lv, "Efficient ontology meta-matching based on interpolation model assisted evolutionary algorithm," Mathematics, vol. 10, no. 17, Article ID: 3212, 20 pp., 2022.
[5] B. Lima, D. Faria, F. M. Couto, I. F. Cruz, and C. Pesquita, "OAEI 2020 results for AML and AMLC," in Proc. of the 15th Int. Workshop on Ontology Matching, pp. 154-160, Athens, Greece, 2-2 Nov. 2020.
[6] J. da Silva, F. A. Baiao, and K. Revoredo, "ALIN results for OAEI 2017," in Proc. the Twelfth Int. Workshop on Ontology Matching Collocated with the 16th Int. Semantic Web Conf., pp. 114-121, Vienna, Austria, 21-21 Oct. 2017.
[7] J. Chen, et al., "Augmenting ontology alignment by semantic embedding and distant supervision," In: R. Verborgh, et al., Proc. European Semantic Web Conf., vol 12731. Springer, pp. 392-408, 2021.
[8] Y. He, J. Chen, D. Antonyrajah, and I. Horrocks, "BERTMap: a BERT-based ontology alignment system," in Proc. of the AAAI Conf. on Artificial Intelligence, pp. 5684-5691, 22 Feb.-1 Mar. 2022.
[9] S. Hertling, "WikiV3 results for OAEI 2017," in Proc. the Twelfth Int. Workshop on Ontology Matching Collocated with the 16th In. Semantic Web Conf., ISW'17C, pp. 190-195, Vienna, Austria, 21-21 Oct. 2017.
[10] F. Ardjani, D. Bouchiha, and M. Malki, "Ontology-alignment techniques: survey and analysis," International J. of Modern Education & Computer Science, vol. 7, no. 11, pp. 67-78, 2015.
[11] I. Ouali, F. Ghozzi, R. Taktak, and M. S. H. Sassi, "Ontology alignment using stable matching," Procedia Computer Science, vol. 159, no. pp. 746-755, 2019.
[12] M. Mohammadi and J. Rezaei, "Evaluating and comparing ontology alignment systems: an MCDM approach," J. of Web Semantics, vol. 64, Article ID: 100592, Oct. 2020.
[13] M. Tounsi Dhouib, C. Faron Zucker, and A. G. Tettamanzi, "An ontology alignment approach combining word embedding and the radius measure," In: M. Acosta, et al. (eds), Semantic Systems, The Power of AI and Knowledge Graphs, SEMANTiCS 2019, Lecture Notes in Computer Science, vol. 11702, pp. 191-197, Springer, 2019.
[14] E. Jiménez-Ruiz and B. Cuenca Grau, "Logmap: logic-based and scalable ontology matching," In: L. Aroyo, et al., The Semantic Web, ISWC'11, Lecture Notes in Computer Science, vol 7031, pp. 273-288, Springer, 2011.
[15] M. Kachroudi, G. Diallo, and S. B. Yahia, "KEPLER at OAEI 2018," in Proc. of the 13th Int. Workshop on Ontology Matching Co-located with the 17th Int. Semantic Web Conf., pp. 173-178, Monterey, CA, USA, 8-8 Oct. 2018.
[16] M. Biniz and M. Fakir, "An ontology alignment hybrid method based on decision rules," The Int. Arab J. of Information Technology, vol. 16, no. 6, pp. 1114-1120, Nov. 2019.
[17] M. Mao, Y. Peng, and M. Spring, "An adaptive ontology mapping approach with neural network based constraint satisfaction," J. of Web Semantics, vol. 8, no. 1, pp. 14-25, Mar. 2010.
[18] J. Gracia and K. Asooja, "Monolingual and cross-lingual ontology matching with CIDER-CL: evaluation report for OAEI 2013," in Proc. of 8th Ontology Matching Workshop, at 12th Int. Semantic Web Conf., pp. 109-116, Sydney. Australia, 21-21 Oct. 2013.
[19] M. Mohammadi, W. Hofman, and Y. H. Tan, "SANOM results for OAEI 2018," in Proc. of the 13th Int. Workshop on Ontology Matching Co-located with the 17th Int. Semantic Web Conf., pp. 205-209, Monterey, CA, USA, 8-8 Oct. 2018.
[20] X. Xue and X. Wu, "Optimizing biomedical ontology alignment in lexical vector space," J. of Intelligent & Fuzzy Systems, vol. 38, no. 5, pp. 5609-5614, 2020.
[21] S. C. Chu, X. Xue, J. S. Pan, and X. Wu, "Optimizing ontology alignment in vector space," J. of Internet Technology, vol. 21, no. 1, pp. 15-22, Jan. 2020.
[22] L. Bulygin, "Combining lexical and semantic similarity measures with machine learning approach for ontology and schema matching problem," in Proc. of Int. Conf. Data Analytics and Management in Data Intensive Domainspp. 245-249, Moscow, Russia, 9-12 Oct. 2018.
[23] J. Wang, Z. Ding, and C. Jiang, "GAOM: genetic algorithm based ontology matching," in Proc. IEEE Asia-Pacific Conf. on Services Computing, APSCC'06, pp. 617-620, Guangzhou, China, 12-15 Dec. 2006.
[24] A. Algergawy, et al., "Results of the ontology alignment evaluation initiative 2019," in Proc. Int. Workshop on Ontology Matching Co-located with the 18th Int. Semantic Web Conf., pp. 46-85, Auckland, New Zealand, 26-26 Oct. 2019.
[25] M. Abd Nikooie Pour, et al., "Results of the ontology alignment evaluation initiative 2020," in Proc. CEUR Workshop Proc., RWTH, vol. 2788, pp. 92-138, 15-15 Oct. 2020.
[26] M. Abd Nikooie Pour, et al., "Results of the ontology alignment evaluation initiative 2021," in Proc. CEUR Workshop, vol. 3063, pp. 62-108, 2021.
[27] I. Nkisi-Orji, N. Wiratunga, S. Massie, K. Y. Hui, and R. Heaven, "Ontology alignment based on word embedding and random forest classification," In: M. Berlingerio, F. Bonchi, and T. Gärtner (eds.), Machine Learning and Knowledge Discovery in Databases, Lecture Notes in Computer Science, vol. 11051, pp. 557-572, Springer, 2018.
[28] P. Ochieng and S. Kyanda, "A K-way spectral partitioning of an ontology for ontology matching," Distributed and Parallel Databases, vol. 36, no. 4, pp. 643-673, 2018.
[29] X. Xue and J. Chen, "Optimizing sensor ontology alignment through compact co-firefly algorithm," Sensors, vol. 20, no. 7, Article ID: 2056, 2020.
[30] P. Shvaiko and J. Euzenat, "A survey of schema-based matching approaches," J. on Data Semantics IV, vol. 3730, pp. 146-171, 2005.
[31] M. Maroun, "A survey on ontology operations techniques," Mathematical and Software Engineering, vol. 7, no. 1-2, pp. 7-28, 2021.
[32] M. Vijaymeena and K. Kavitha, "A survey on similarity measures in text mining," Machine Learning and Applications: An International J., vol. 3, no. 1, pp. 19-28, Mar. 2016.
[33] M. A. Yulianto and N. Nurhasanah, "The hybrid of Jaro-Winkler and Rabin-Karp algorithm in detecting Indonesian text similarity," J. Online Informatika, vol. 6, no. 1, pp. 88-95, 2021.
[34] J. L. Peterson, "Computer programs for detecting and correcting spelling errors," Communications of the ACM, vol. 23, no. 12, pp. 676-687, Dec. 1980.
[35] İ. Kabasakal and H. Soyuer, "A Jaccard similarity-based model to match stakeholders for collaboration in an industry-driven portal," in Proceeding, vol. 74, no. 1, 9 pp., 2021.
[36] A. Essayeh and M. Abed, "Towards ontology matching based system through terminological, structural and semantic level," Procedia Computer Science, vol. 60, pp. 403-412, 2015.
[37] S. Melnik, H. Garcia-Molina, and E. Rahm, "Similarity flooding: a versatile graph matching algorithm and its application to schema matching," in Proc. 18th IEEE Int. Conf. on Data Engineering, pp. 117-128, San Jose, CA, USA, 26 Feb.-1 Mar. 2002.
[38] E. Jiménez-Ruiz, "LogMap family participation in the OAEI 2020," in Proc. of the 15th Int. Workshop on Ontology Matching, vol. 2788, pp. 201-203, 2020.
[39] I. F. Cruz, F. P. Antonelli, and C. Stroe, "AgreementMaker: efficient matching for large real-world schemas and ontologies," Proceedings of the VLDB Endowment, vol. 2, no. 2, pp. 1586-1589, 2009.
[40] D. Faria, et al., "The agreementmakerlight ontology matching system," In R., Meersman, et al., On the Move to Meaningful Internet Systems: OTM 2013 Conf., Lecture Notes in Computer Science, vol. 8185, pp. 527-541, Springer, 2013.
[41] Y. An, A. Kalinowski, and J. Greenberg, "OTMapOnto: optimal transport-based ontology matching," in Proc. of the 16th Int. Workshop on Ontology Matching, pp. 185-192, Oct. 2021.
120 نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 21، شماره 2، تابستان 1402
مقاله پژوهشی
تطبیق هستانشناسیها بر مبنای حفظ شباهت محلی
اطلاعات با بهرهگیری از تکنیک انتشار
نظرمحمد پارسا و آسیه قنبرپور
چکیده: در سالهای اخیر، هستانشناسیها بهعنوان یکی از مهمترین مؤلفههای وب معنایی در حوزههای گوناگون گسترش يافتهاند. مسئله تطبیق هستانشناسی با هدف ایجاد مجموعهای از نگاشتها بین موجودیتهای هستانشناسیها مطرح گردیده است. این مسئله جزو مسائل NP- سخت طبقهبندی شده است؛ از این رو روشهای حریصانه برای حل آن پیشنهاد گردیده و از جنبههای مختلف به حل آن پرداختهاند. استفاده از معیارهای شباهت لغوی، ساختاری و معنایی مناسب و بهرهگیری از یک روش ترکیب مؤثر برای حصول نگاشت نهایی از مهمترین چالشهای این روشها محسوب میشود. در این مقاله، یک روش خودکار تطبیق هستانشناسیها به منظور ارائه یک مجموعه نگاشت یکبهیک پیشنهاد شده است. این روش بر اساس یک معیار جدید شباهت واژگانی منطبق با ذات توصیفی موجودیتها و ترکیب این شباهت با شباهت معنایی بهدستآمده از منابع معنایی خارجی، به تشخیص نگاشتهای اولیه میپردازد. با انتشار محلی امتیاز نگاشتهای اولیه در گراف سلسلهمراتبی کلاسی، موجودیتهای منطبق ساختاری شناسایی میشوند. در این روش تطبیق خصیصهها در مرحلهای مجزا مورد بررسی قرار میگیرد. در مرحله نهایی، فیلتر نگاشتها به منظور حفظ سازگاری مجموعه نگاشت نهایی اعمال میشود. در بخش ارزیابی، مقایسه عملکرد معیار شباهت واژگانی نسبت به سایر معیارهای شباهت متنی مطرح، حاکی از کارایی این معیار در مسئله تطبیق هستانشناسیها است. علاوه بر این، نتایج سیستم تطبیق پیشنهادی در مقایسه با نتایج مجموعه سیستمهای شرکتکننده در مسابقات OAEI، این سیستم را در رتبه دوم و بالاتر از بسیاری از سیستمهای تطبیق پیچیده قرار میدهد.
کلیدواژه: وب معنایی، هستانشناسی، نگاشت، خصیصه، تطبیق.
1- مقدمه
وب معنايی بر پايه هستانشناسیها، بهعنوان ساختارهايی كه دادهها را در قالب كلمات و مفاهیم مدل میكنند، استوار است. هستانشناسیها بهعنوان ابزاری قدرتمند برای نمایش و بیان دانش مربوط به یک حوزه
در یک قالب رسمی و قابل پردازش توسط ماشین مطرح شدهاند كه در سالهای اخیر در حوزههای گوناگون از جمله علوم كامپیوتر، سیستمهای پزشكی و مديريت دانش گسترش يافتهاند [1]. با استفاده از هستانشناسی در وب معنایی میتوان ارتباط بین سیستمهای ناهمگون را برقرار کرد و تعامل و ارتباط متقابل بین برنامهها، ماشینها و سیستمهای ناهمگون را
شکل 1: دستهبندی روشهای تطبیق هستانشناسیها.
بهبود داد. امروزه فارغ از تحقق کامل وب معنایی، تعداد بسیار زیادی هستانشناسی برای کاربردهای مختلف توسط مراجع و توسعهدهندگان متفاوت و در زمینههای گوناگون طراحی و تولید شدهاند که در سیستمهای مختلفی از جمله موتورهای جستجو مورد استفاده قرار میگیرند. تولید هستانشناسیها بهطور مستقل توسط مراجع مختلف موجب اضافهشدن سطحی از ناهمگونی به سیستم میشود. تطبیق هستانشناسیها روشی برای مشابهتیابی بین هستانشناسیها است؛ بهطوری كه با شناسایی تناظرات بین دو هستانشناسی، مشكل ناهمگونی هستانشناسیها در دامنههای مشترک را مرتفع میسازد. بنابراين میتوان ادعا كرد كه يافتن ابزاری جهت تطبیق هستانشناسیها، شرطی برای موفقیت وب معنايی خواهد بود [2].
تطبیق هستانشناسی شامل ایجاد مجموعهای از نگاشتها بین موجودیتهاست که این موجودیتها میتوانند مفاهیم، ویژگیها یا نمونهها باشند. روشهای ارائهشده برای تطبیق هستانشناسیها را میتوان به
دو دسته کلی روشهای تطبیقی و روشهای ابرتطبیقی تقسیم کرد.
این دستهبندی در شکل 1 آمده است. روشهای تطبیقی با بهرهگیری از مجموعهای از معیارهای شباهت، سعی در شناسایی مجموعه نگاشتها بین دو هستانشناسی دارند. یکی از چالشهای روشهای تطبیق هستانشناسیها، بهرهگیری از معیارهای شباهت متعدد به منظور افزایش کارایی است که منجر به یک مسئله جدید در ترکیب نتایج این معیارها شده است. روشهای ابرتطبیقی [3] و [4] برای مرتفعسازی این چالش معرفی شدند. این روشها روی مسئله بهینهسازی مجموعه نگاشت یک یا چند سیستم تطبیق هستانشناسی متمرکز است و کیفیت نتایج آنها به کیفیت عملکرد سیستمهای تطبیق پایه وابسته میباشد. بازه بررسی این مقاله فقط روی روشهای تطبیقی متمرکز شده است. روشهای تطبیق هستانشناسیها را میتوان در سه گروه مورد بررسی قرار داد: روشهای نظارتی، روشهای نیمهنظارتی و روشهای خودکار یا بدون ناظر.
در روشهای تطبیق نظارتی، مجموعه نگاشت اولیه که معمولاً ابرنگاشتی از نگاشت نهایی است، توسط سیستم شناسایی میشود. مجموعه نگاشت نهایی در تعامل با کاربر و پس از مرحله
اصلاح مجموعه نگاشت حاصل میشود. این اصلاح عمدتاً در قالب انتخاب نگاشتهای مطلوب توسط کاربر انجام میشود [5] و [6].
در روشهای نیمهنظارتی، عمل تطبیق بر مبنای دانش اولیه ارائهشده به سیستم (دانش تأمینشده توسط کاربر یا دانش استخراجشده از منابع مشابه) انجام میشود. در روشهای تطبیق نیمهنظارتی مستقیم، مجموعه نگاشتهای اولیه در اختیار سیستم قرار داده میشود و سیستم بر پایه این اطلاعات اولیه به شناسایی سایر نگاشتها میپردازد [7]. این گونه روشها اگرچه در مورد هستانشناسیهای کوچک و آگاهی کاربر با دانش دامنه مناسب هستند، اما استفاده از آنها در سایر موارد عملی نیست. در روشهای نیمهنظارتی غیرمستقیم، دانش استخراجشده از منابع دانش همدامنه به منظور ساخت مدل اولیه در اختیار سیستم قرار داده میشود. سیستم تطبیق از این مدل در شناسایی مجموعه نگاشت نهایی استفاده میکند [8] و [9].
روشهای خودکار، مؤثرترین روشها در مواجهه با ناهمگونی هستانشناسیها در مقیاس وب و در مواردی است که دانش پیشزمینهای از اطلاعات همدامنه موجود نیست. البته تا کنون کیفیت نتایج تولیدشده توسط روشهای تطبیق خودکار به خوبی نتایج تولیدشده توسط روشهای تطبیق نظارتی و نیمهنظارتی نبوده است؛ اما دانش موجود در این زمینه روزبهروز به سمت این هدف نزدیک میشود [10] تا [13]. با توجه به عدم وجود دانش اولیه در روشهای خودکار، استفاده از معیارهای شباهت واژگانی، رایجترین روش برای شناخت اولیه موجودیتهای همتراز در هستانشناسیهای مورد بررسی است. نگاشتهای اولیه شناساییشده توسط معیارهای شباهت واژگانی بهعنوان لنگر2 شناخته شده و بهعنوان هسته اولیه تطبیق در این روشها مورد استفاده قرار میگیرند؛ بهطوری که در صورت عدم وجود شباهت واژگانی بین هستانشناسیها، بسیاری از این روشها کارایی خود را از دست خواهند داد [14]. پس از شناسایی لنگرها، تطبیق سایر موجودیتها از طریق تحلیل ویژگیهای ساختاری
و معنایی انجام میشود. این تحلیل با استفاده از روشهای مبتنی بر جستجوی محلی [15] و [16] یا روشهای هوش مصنوعی [17] تا [23] انجام میشود. اگرچه استفاده از الگوریتمهای هوشمند منجر به کارایی بیشتر سیستمهای تطبیق از نظ