Enhancing Text Image Super-Resolution by Intentionally Weakening OCR Loss to Impose Stricter Reconstruction Constraints on the SR Network
Subject Areas : electrical and computer engineeringK. Mehrgan 1 , A. Ebrahimi moghadam 2 * , M. Khademi Doroh 3
1 - Dept. of Elec. Eng., Ferdowsi University of Mashhad, Mashhad, Iran
2 - Dept. of Elec. Eng., Ferdowsi University of Mashhad, Mashhad, Iran
3 - Dept. of Elec. Eng., Ferdowsi University of Mashhad, Mashhad, Iran
Keywords: Super-resolution, text Image recognition, intentional loss weakening, intelligent feedback.,
Abstract :
Low-resolution text images often lead to significant errors in Optical Character Recognition (OCR), negatively impacting the performance of automated text recognition systems. Text image super-resolution (SR) is a critical step for improving OCR accuracy, particularly when dealing with inputs of very low resolution. While conventional SR methods succeed in enhancing general image quality, they often struggle to preserve the fine-grained details and structural integrity of characters. In this paper, we propose a novel text super-resolution method that leverages intelligent feedback; by intentionally weakening the OCR loss, our approach imposes stricter reconstruction constraints on the SR network. This unique approach specifically guides the network to generate images that faithfully preserve character structures. The modified loss function compels the SR network to reconstruct fine details lost in the low-resolution input, thereby leading to a significant improvement in downstream OCR accuracy. Experimental results demonstrate that our method not only enhances visual clarity but also boosts the accuracy of subsequent OCR systems by approximately 10% compared to the original low-resolution images. This novel approach represents an effective step toward optimizing the pipeline for text recognition from low-resolution inputs.
[1] R. Shu, C. Zhao, S. Feng, L. Zhu, and D. Miao, "Text-enhanced scene image super-resolution via stroke mask and orthogonal attention," IEEE Trans. on Circuits and Systems for Video Technology, vol. 33, no. 11, pp. 6317-6330, Nov. 2023.
[2] J. Ma, S. Guo, and L. Zhang, "Text prior guided scene text image super-resolution," IEEE Trans. on Image Processing, vol. 32, pp. 1341-1353, 2023.
[3] J. Ma, Z. Liang, and L. Zhang, "A text attention network for spatial deformation robust scene text image super-resolution," in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 5911-5920, New Orleans, LA, USA, 19-24 Jun. 2022.
[4] ع. عابدی و ا. کبیر، "فراتفکیکپذیری مبتنی بر نمونه تکتصویر متن با روش نزول گرادیان ناهمزمان ترتیبی،" نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 14، شماره 3، صص. 192-177، پاییز 1395.
[5] K. Mehrgan, A. R. Ahmadyfard, and H. Khosravi, "Super-resolution of license-plates using weighted interpolation of neighboring pixels from video frames," International J. of Engineering, Trans. B: Applications, vol. 33, no. 5, pp. 992-999, May 2020.
[6] C. Dong, C. C. Loy, K. He, and X. Tang, "Learning a deep convolutional network for image super-resolution," in Proc. 13th European Conf, Computer Vision, pp. 184-199, Zurich, Switzerland, 6-12 Sept. 2014.
[7] A. Kappeler, S. Yoo, Q. Dai, and A. K. Katsaggelos, "Video super-resolution with convolutional neural networks," IEEE Trans. Comput Imaging, vol. 2, no. 2, pp. 109-122, Jun. 2016.
[8] M. Hradiš, J. Kotera, P. Zemcık, and F. Šroubek, "Convolutional neural networks for direct text deblurring," in Proc. of the British Machine Vision Conf., 13 pp., Swansea, UK, 7-10 Dec. 2015.
[9] C. Dong, C. C. Loy, K. He, and X. Tang, "Image super-resolution using deep convolutional networks," IEEE Trans. Pattern Anal Mach Intell, vol. 38, no. 2, pp. 295-307, Feb. 2015.
[10] D. Gudivada and P. K. Rangarajan, "Enhancing PROBA-V satellite imagery for vegetation monitoring using FSRCNN-based super-resolution," in Proc. Int. Conf. on Next Generation Electronics, 6 pp., Vellore, India, 14-16 Dec. 2023.
[11] J. Zhang, M. Liu, X. Wang, and C. Cao, "Residual net use on FSRCNN for image super-resolution," in Proc. 40th Chinese Control Conf., pp. 8077-8083, Shanghai, China, 26-28 Jul. 2021. [12] T. Khachatryan, D. Galstyan, and E. Harutyunyan, "A comprehensive approach for enhancing deep learning datasets quality using combined SSIM algorithm and FSRCNN," in Proc. IEEE East-West Design & Test Symp., 4 pp., 22-25 Sept. 2023.
[13] Y. Zhu, X. Sun, W. Diao, H. Li, and K. Fu, "RFA-Net: reconstructed feature alignment network for domain adaptation object detection in remote sensing imagery," IEEE J. Sel Top Appl Earth Obs Remote Sens, vol. 15, pp. 5689-5703, 2022.
[14] Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, "Deep networks for image super-resolution with sparse prior," in Proc. of the IEEE Int. Conf. on Computer Vision, pp. 370-378, Santiago, Chile, 7-13 Dec. 2015.
[15] M. Chen, et al., "RFA-Net: residual feature attention network for fine-grained image inpainting," Engineering Applications of Artificial Intelligence, vol. 119, Article ID: 105814, Mar. 2023.
[16] Z. Wang and J. Tang, "Advancing quality and detail: enhanced-lapSRN for chip socket image super-resolution," in Proc. Int. Conf. on Image Processing, Computer Vision and Machine Learning, pp. 153-159, Chengdu, China, 3-5 Nov. 2023.
[17] R. Tang, et al., "Medical image super-resolution with Laplacian dense network," Multimedia Tools and Applications, vol. 81, no. 3, pp. 3131-3144, Jan. 2022.
[18] K. Wu, C. K. Lee, and K. Ma, "Memsr: training memory-efficient lightweight model for image super-resolution," in Proc. 39th Int. Conf. on Machine Learning, pp. 24076-24092, Baltimore, MD, USA, 17-23 Jul. 2022.
[19] Z. Du, et al., "Fast and memory-efficient network towards efficient image super-resolution," in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 853-862, New Orleans, LA, USA, 19-20 Jun. 2022.
[20] K. H. Liu, B. Y. Lin, and T. J. Liu, "MADnet: a multiple attention decoder network for segmentation of remote sensing images," in Proc. Int. Conf. on Consumer Electronics-Taiwan pp. 835-836, PingTung, Taiwan, 17-19 Jul. 2023.
[21] D. Zhang, W. Zhang, W. Lei, and X. Chen, "Diverse branch feature refinement network for efficient multi‐scale super‐resolution," IET Image Process, vol. 18, no. 6, pp. 1475-1490, May 2024.
[22] T. Tong, G. Li, X. Liu, and Q. Gao, "Image super-resolution using dense skip connections," in Proc. of the IEEE Int. Conf. on Computer Vision, pp. 4799-4807, Venice, Italy, 22-29 Oct. 2017.
[23] K. Zhang, W. Zuo, and L. Zhang, "Learning a single convolutional super-resolution network for multiple degradations," in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, pp. 3262-3271, Salt Lake City, UT, USA, 18-22 Jun. 2018.
[24] W. Zhang, Y. Liu, C. Dong, and Y. Qiao, "Ranksrgan: super resolution generative adversarial networks with learning to rank," IEEE Trans Pattern Anal Mach Intell, vol. 44, no. 10, pp. 7149-7166, Oct. 2021.
[25] C. Ledig, et al., "Photo-realistic single image super-resolution using a generative adversarial network," in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, pp. 4681-4690, Honolulu, HI, USA, 21-26 Jul. 2017.
[26] B. K. Xie, S. B. Liu, and L. Li, "Large-scale microscope with improved resolution using SRGAN," Optics & Laser Technology, vol. 179, Article ID: 111291, Dec. 2024. [27] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016.
[28] J. Baek, et al., "What is wrong with scene text recognition model comparisons? dataset and model analysis," in Proc. of the IEEE/CVF Int. Conf. on Computer Vision, pp. 4715-4723, Seoul, South, Korea, 27 Oct.-2 Nov. 2019.
[29] W. Wang, et al., "Scene text image super-resolution in the wild," in Proc. 16th European Conf. on Computer Vision, pp. 650-666, Glasgow, UK, 20-28 Aug. 2020.
[30] D. Karatzas, et al., "ICDAR 2015 competition on robust reading," in Proc. 13th Int. Conf. on Document Analysis and Recognition, pp. 1156-1160, Tunis, Tunisia, 23-26 Aug. 2015.
[31] K. Wang, B. Babenko, and S. Belongie, "End-to-end scene text recognition," in Proc. Int. Conf. on Computer Vision. pp. 1457-1464, Barcelona, Spain, 6-13 Nov. 2011.
[32] H. Zhao, X. Kong, J. He, Y. Qiao, and C. Dong, "Efficient image super-resolution using pixel attention," in Proc., Computer Vision-ECCV Workshops, pp. 56-72, Glasgow, UK, 23-28 Aug. 2020.
[33] S. Anwar and N. Barnes, "Densely residual laplacian super-resolution," IEEE Trans Pattern Anal Mach Intell, vol. 44, no. 3, pp. 1192-1204, Mar. 2022.
[34] [34] H. Chen, J. Gu, and Z. Zhang, Attention in Attention Network for Image Super-Resolution, arXiv Preprint, arXiv:2104.09497, 2021.
[35] X. Chen, X. Wang, J. Zhou, and C. Dong, "Activating more pixels in image super-resolution transformer," in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 22367-22377, Vancouver, Canada, 18-22 Jun, 2023.
[36] Z. Chen, Y. Zhang, J. Gu, L. Kong, X. Yang, and F. Yu, "Dual aggregation transformer for image super-resolution," in Proc. IEEE/CVF Int. Conf. on Computer Vision, pp. 12278-12287, Vancouver, Canada, 18-22 Jun, 2023.
نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 23، شماره 2، تابستان 1404 139
مقاله پژوهشی
تقویت فراتفکیکسازی تصاویر متنی توسط تضعیف عامدانه تابع زیان خوانش برای اعمال سختگیری بیشتر بر شبکه فراتفکیکساز
کمیل مهرگان، عباس ابراهیمی مقدم و مرتضی خادمی درح
چکیده: تصاویر متنی با وضوح پایین معمولاً باعث ایجاد خطاهای جدی در خوانش و بازیابی متن میشوند که این امر میتواند بر کارایی سیستمهای خوانش متن، تأثیر منفی بگذارد. فراتفکیکسازی تصاویر متنی، بهویژه در شرایطی که تصاویر اولیه دارای تفکیکپذیری پایینی هستند، از عوامل کلیدی در بهبود دقت سیستمهای خوانش متن است. روشهای سنتی فراتفکیکسازی، هرچند در بهبود کیفیت تصاویر موفق بودهاند، اما همچنان در حفظ جزئیات
دقیق حروف و ساختار متن با چالش مواجهند. در این پژوهش، روشی برای فراتفکیکسازی تصاویر متنی ارائه شده که با بهرهگیری از بازخورد هوشمندانه توسط تضعیف عامدانه تابع زیان خوانش، سختگیری بیشتری بر شبکه فراتفکیکساز اعمال کرده تا بهطور ویژه تصاویری تولید کند که در آن ساختار حروف بهخوبی حفظ شده باشد. این تابع زیان، شبکه فراتفکیکسازی را وادار به بازسازی جزئیات ازدسترفته در تصاویر کرده و دقت سیستمهای خوانش متن
را بهطور قابل توجهی بهبود میبخشد. نتایج تجربی نشان میدهند که این روش نهتنها به افزایش وضوح بصری تصاویر منجر میشود، بلکه کارایی و دقت سیستمهای خوانش متن را حدود ۱۰ درصد نسبت به تصاویر اولیه بهبود میبخشد. این رویکرد جدید گامی مؤثر در جهت بهینهسازی فرایندهای خوانش متن از تصاویر با تفکیکپذیری پایین به شمار میرود.
کلیدواژه: بازخورد هوشمندانه، تضعیف عامدانه تابع زیان، خوانش تصاویر متنی، فراتفکیکسازی.
1- مقدمه
خوانش دقیق حروف از روی تصاویر با استفاده از روشهای خوانش متن 2(OCR) یکی از نیازهای اصلی در بسیاری از کاربردها است. با این حال در مواجهه با تصاویر با وضوح پایین 3(LR)، این فرایند با چالشهای متعددی همراه است که اغلب به اشتباه در خوانش حروف منجر میشود [1] و [2]. در تصاویر با کیفیت پایین، بخش قابل توجهی از اطلاعات، بهویژه جزئیات و اطلاعات فرکانس بالا از بین میرود. این موضوع بهطور مستقیم عملکرد سیستمهای خوانش متن را تحت تأثیر قرار میدهد و
شکل ۱: خوانش تصاویر با تفکیکپذیریهای متفاوت.
دقت آنها را کاهش میدهد.
همان طور که در شکل 1 نشان داده شده است، یک شبکه خوانش متن هنگام کار با تصاویر با وضوحهای مختلف، دارای دقت متفاوتی است. استفاده از دوربینهایی با قابلیت ثبت تصاویر با وضوح بالا 4(HR) بهعنوان یک راهکار پیشنهاد شده است، اما این روش هزینههای بالایی
را به همراه دارد. به همین دلیل، استفاده از روشهای فراتفکیکسازی5 تصاویر بهعنوان یک راهحل کارآمد مطرح میشود [3]. این تحقیق سعی دارد که با معرفی یک تابع زیان مبتنی بر تضعیف عامدانه خوانش
برای اعمال سختگیری بر شبکه فراتفکیکسازی به تقویت شبکههای فراتفکیکسازی بپردازد.
2- پیشینه پژوهش
پیشینه تحقیق در زمینه فراتفکیکسازی تصاویر را میتوان به سه دسته اصلی تقسیم کرد:
1) روشهای مبتنی بر بهینهسازی مسئله معکوس
2) روشهای مبتنی بر درونیابی
3) روشهای مبتنی بر یادگیری
از جمله روشهای مؤثر در فراتفکیکسازی تصاویر متن به روش مبتنی بر بهینهسازی مسأله معکوس و روشهای مبتنی بر درونیابی میتوان بهترتیب به [4] و [5] اشاره کرد. روشهای مبتنی بر یادگیری نیازمند امکانات سختافزاری فراوان و دادههای زیادی برای آموزش هستند. در سالهای اخیر به دلیل فراهمآمدن این امکانات، توجه بیشتری به این روشها جلب شده است؛ زیرا این روشها توانستهاند پاسخهای دقیقتری را نسبت به دو روش دیگر ارائه دهند. برای نخستین بار دونگ6 و همکاران در سال 2014 [6] از شبکههای عصبی- کانولوشنی 7(CNN) در
جدول 1: نمونههای مطرح از معماریهای شبکه فراتفکیکسازی.
ردیف | معماری شبکه | یک نمونه مطرح | مراجع |
۱ | اتصالات خطی | FSRCNN | [10] تا [12] |
۲ | اتصالات باقیمانده | RFANet | [13] تا [15] |
۳ | اتصالات پیشرونده بازساز | LapSRN | [16] و [17] |
۴ | اتصالات بازگشتی | MemNet | [18] و [19] |
۵ | اتصالات مبتنی بر تمرکز | MADNet | [20] |
۶ | اتصالات چندشاخهای | DBFRN | [21] |
۷ | اتصالات چگال متصل | SRDenseNet | [22] |
۸ | اتصالات مدیریت تخریب چندگانه | SRNDNF | [23] |
۹ | مدل شبکههای مولد مجادلانه | SRGAN | [24] تا [26] |
طراحی شبکههای فراتفکیکساز بهره بردند. شبکه پیشنهادی آنها تنها شامل سه لایه کانولوشنی بود. در ادامه، این معماری برای فراتفکیکسازی ویدئو گسترش یافت [7]. در این روش، فریمهای متوالی و نزدیک به هم یک ویدئو به عنوان ورودی شبکه در نظر گرفته شده و پس از پردازش در یک شبکه کانولوشنی دیگر، تصویر نهایی با وضوح بالا تولید میشود. هردایس و همکاران نیز با افزایش تعداد لایههای کانولوشنی، بهبود چشمگیری در کیفیت تصاویر بازسازیشده نشان دادند [8].
معماری شبکههای فراتفکیکسازی مبتنی بر یادگیری بر اساس نحوه اتصال بلوکها و لایهها نقش مهمی در عملکرد این شبکهها ایفا میکند و میتوان آنها را به دستههای زیر تقسیمبندی کرد:
۱) اتصالات خطی8: سادهترین نوع معماری، اتصالات خطی هستند که در آنها تنها یک مسیر جریان سیگنال وجود دارد و لایههای کانولوشنی به صورت متوالی پشت سر هم قرار گرفتهاند. یکی از اولین نمونهها در این زمینه، معماری شبکه 9SRCNN [9] بود. این شبکه از یک لایه نمونهافزایی10 در ابتدای مسیر و چندین لایه کانولوشنی تشکیل شده که به صورت خطی به هم متصل هستند. نسخه سریعتر این مدل یعنی 11FSRCNN از نمونهافزایی دیکانولوشنی در انتهای مسیر استفاده کرده که موجب افزایش سرعت و دقت عملکرد شبکه میشود.
۲) اتصالات باقیمانده12: در برخی معماریها از اتصالات باقیمانده استفاده میشود که به شبکه اجازه میدهد اطلاعات را از لایههای ابتدایی به لایههای انتهایی منتقل کند؛ بدون اینکه این اطلاعات در طول مسیر از دست بروند. این نوع اتصالات به مقابله با مشکل محوشدگی گرادیان کمک میکنند و به شبکه اجازه میدهند تا عمق بیشتری داشته باشد. مثلاً در شبکه 13VDSR با استفاده از تکنیک این اتصالات و یادگیری باقیمانده14، توانسته است سرعت همگرایی را بهبود بخشد.
۳) اتصالات پیشرونده بازساز15: در این نوع از اتصالات از تکنیکی استفاده میکنند که افزایش وضوح تصویر را به صورت مرحلهای انجام میدهند؛ به این ترتیب که به جای افزایش وضوح یکباره، فرایند افزایش وضوح به مراحل کوچکتری تقسیم میشود. این رویکرد باعث مدیریت بهتر و بهبود عملکرد در افزایش وضوح تصویر میشود.
۴) اتصالات بازگشتی16: نوع دیگری از معماریها هستند که خروجی برخی لایهها را به لایههای قبلی بازمیگردانند. این اتصالات، امکان استفاده چندباره از برخی لایهها را فراهم میکنند و به بهبود عملکرد شبکه بدون افزایش تعداد لایهها کمک میکنند.
۵) اتصالات مبتنی بر تمرکز17: این نوع از اتصالات به شبکه اجازه میدهند که بخشهای مهمتر تصاویر را شناسایی کرده و آنها را
با اولویت بیشتری پردازش کنند. این اتصالات باعث میشوند که شبکه به اطلاعات کلیدی بیشتری دست یابد و تصاویر باکیفیتتری تولید کند.
۶) اتصالات چندشاخهای18: برای ادغام اطلاعات از چندین منبع و مقیاس به کار میروند. این نوع اتصالات به شبکه اجازه میدهند
تا از اطلاعات مکمل و تکمیلی چندین لایه بهره ببرند و به
این ترتیب وضوح و دقت بیشتری در پردازش و تولید تصاویر به دست آورد.
۷) اتصالات چگال متصل19: به منظور افزایش ارتباط بین لایههای مختلف به کار گرفته میشوند و هر لایه را به تمامی لایههای دیگر متصل میکنند تا مشکل محوشدگی گرادیان کاهش یابد.
۸) اتصالات مدیریت تخریب چندگانه20: در معماریهایی که با تخریب اطلاعات در تصاویر ورودی روبهرو هستند، از اتصالات مدیریت تخریب چندگانه استفاده میشود. این نوع اتصالات کمک میکنند تا شبکه با استفاده از اطلاعات چندین مقیاس یا سطح تخریب، میزان تخریب یا ازدسترفتگی اطلاعات را کاهش دهد و تصاویر باکیفیتتری تولید کند.
۹) شبکههای مولد مجادلانه21: بهعنوان یکی از پیشرفتهترین معماریها برای تولید تصاویر جدید و واقعگرایانه استفاده میشوند. این مدلها شامل یک شبکه مولد و یک شبکه تمیزدهنده هستند. شبکه مولد تلاش میکند تا تصاویر مصنوعی تولید کند که به اندازه کافی واقعگرایانه به نظر برسند، در حالی که شبکه تمیزدهنده سعی دارد تفاوت بین تصاویر و تصاویر واقعی را تشخیص دهد. این رقابت موجب میشود که شبکه مولد نهایتاً بتواند تصاویر با تفکیکپذیری بالاتری تولید کند.
در جدول ۱، یک نمونه مطرح از هر دسته به همراه مراجع مرتبط با آن گزارش شدهاند.
3- روش پیشنهادی
در این تحقیق، هدف اصلی طراحی یک شبکه فراتفکیکسازی جدید و مختص تصاویر متنی برای بهبود کیفیت این نوع از تصاویر است. تصاویر متنی به دلیل پیچیدگی ساختاری حروف و اهمیت حفظ خوانایی، چالشهایی منحصربهفرد در فرایند فراتفکیکسازی به وجود میآورند که حل آنها نیازمند معماریهای پیشرفته و رویکردهای نوین یادگیری است.
(الف)
(ب)
شکل ۲: معماری پیشنهادی شبکه فراتفکیکسازی، (الف) مرحله آموزش و
(ب) مرحله آزمایش.
یکی از عوامل مهم در طراحی شبکههای فراتفکیکسازی، تابع زیان است که نقش مستقیمی در هدایت وزنهای شبکه در هنگام آموزش به سمت تولید تصویر با وضوح بالا دارد. در روش پیشنهادی، علاوه بر استفاده از توابع زیان کلاسیک که هدفشان شباهت هرچه بیشتر تصویر فراتفکیکسازیشده و تصویر اصلی است، از یک تابع زیان نوآورانه نیز بهره گرفته شده که بر حفظ خوانایی متن تمرکز دارد. این تابع زیان بر پایه یک شبکه خوانش متن طراحی شده که خروجیهای متنی تصاویر اصلی و فراتفکیکسازیشده را با یکدیگر مقایسه میکند.
شکل ۲ شمای کلی روش پیشنهادی این مقاله را نشان میدهد. همان طور که در این شکل مشخص است، دو تابع زیان در این تحقیق پیشنهاد شده است. تابع زیان اول مسئولیت نزدیکشدن تصویر تولیدشده توسط شبکه به تصویر اصلی را بر عهده دارد. این تابع زیان در همه معماریهای فراتفکیکسازی نقش اساسی دارد. تابع زیان دوم بر اساس متن خواندهشده توسط یک شبکه خوانش متن تنظیم میگردد. در نهایت حاصل جمع وزندار این دو تابع زیان بهعنوان فیدبک نهایی به شبکه فراتفکیکسازی داده میشود.
در این تحقیق برای تابع زیان اول از میانگین مربعات خطا22 استفاده شده است
(1)
که در آن تعداد کل پیکسلها در تصویر،
مقدار پیکسل
ام در تصویر SR و
مقدار پیکسل
ام در تصویر SR است. تابع زیان دوم که بر اساس متن خواندهشده تعریف میگردد به شکل زیر پیشنهاد شده است
(2)
که در آن تعداد حروف متن،
بردار احتمال حرف
ام در متن تشخیصدادهشده در تصویر SR و
بردار وانهات23 حرف
ام برای متن واقعی تصویر HR است. منظور از بردار وانهات برداری است که همه درایههای آن بهجز یک درایه صفر و مابقی درایهها یک است.
(الف)
(ب)
شکل 3: نمودار زیان بر حسب تعداد دوره آموزشی، (الف) تابع زیان اول بر اساس تصویر و (ب) تابع زیان دوم بر اساس متن.
همچنین که در واقع آنتروپی متقاطع24 [27] بردار متن تشخیص داده شده و متن واقعی است به صورت زیر تعریف میشود
(3)
که تعداد کلاسهای الفبای مورد استفاده شامل تمامی حروف، اعداد و نمادهاست. واضح است که اگر بردار
کاملاً مشابه
باشد بدین معناست که شبکه خوانش متن با اطمینان 100 درصدی متن را درست تشخیص داده که در این صورت مقدار تابع زیان صفر است. این تابع زیان تضمین میکند متن استخراجشده نهتنها باید با متن واقعی یکسان باشد، بلکه با اطمینان بالایی این تطابق را برقرار کند. استفاده از آنتروپی متقاطع به عنوان معیار مقایسه، شبکه را به سمت تخصیص بیشترین احتمال
به حروف صحیح هدایت میکند که از نظر ریاضی به کاهش خطای پیشبینی منجر میشود. این امر موجب میگردد خطاهای احتمالی تا حد ممکن کاهش یافته و بازسازی تصویر متنی با دقت و اطمینان بالاتری انجام شود. نهایتاً زیان نهایی بدین صورت محاسبه میگردد
(4)
در مراحل اولیه آموزش، شبکه نیاز دارد تمرکز بیشتری بر حفظ ساختار تصویر داشته باشد تا فضای جستجو به فضای تصویر اصلی نزدیکتر شود. علاوه بر این همان طور که در شکل 3 مشخص است، مقدار زیان مربوط به خوانش متن بهطور محسوسی بیشتر از زیان بازسازی تصویر است. این عدم توازن موجب میشود شبکه به بهبود کیفیت تصویر بیتوجه بوده و فرایند یادگیری به سمت بازسازی تصویر اصلی همگرا نشود؛ بنابراین و
یک انتخاب مناسب است.
(الف)
(ب)
(ج)
شکل 4: نمونههایی از پایگاه داده TextZoom، (الف) نمونههای آسان برای خوانش، (ب) نمونههای معمولی برای خوانش و (ج) نمونههای سخت برای خوانش.
شبکه خوانش متن روش پیشنهادی، نقشی اساسی در تابع زیان ایفا میکند؛ بنابراین این شبکه باید بهگونهای طراحی شود که حساسیت و سختگیری لازم را در مواجهه با تصاویر با وضوح پایین داشته باشد. اگر شبکه خوانش متن، توانایی بالایی در خواندن تصاویر با کیفیت پایین داشته باشد، ممکن است بازخورد دقیقی به شبکه اصلی ندهد.
برای روشنترشدن این موضوع میتوان آن را با وضعیت یک کودک باهوش با بینایی ضعیف مقایسه کرد که تلاش میکند تا علائم بیناییسنجی را حدس بزند. در این حالت، کودک ممکن است گاهی به طور تصادفی درست حدس بزند، اما مشکل اصلی بینایی او همچنان نادیده گرفته میشود و تشخیص صحیح انجام نمیشود. در واقع این کودک باهوش با ارائه بازخورد اشتباه به اپتومتریست، مانع از تشخیص درست مشکل میشود.
برای دستیابی به بازخورد معتبر و کمک به تولید تصاویر باکیفیتتر، تنظیم قدرت تشخیص شبکه خوانش متن ضروری است. این شبکه باید بهگونهای عمل کند که به صورت تنظیمشده، عملکرد شبکه اصلی را بهبود بخشد. به این رویکرد «تابع زیان با تضعیف عامدانه خوانش» میگوییم، چرا که با اعمال سختگیری بر شبکه اصلی، آن را به سمت تولید تصاویر با تفکیکپذیری بالاتر و خواناتر هدایت میکند.
تنظیم دقیق و متعادل قدرت تشخیص شبکه خوانش متن، یکی از عوامل کلیدی در بهبود کیفیت تصاویر فراتفکیکشده در روش پیشنهادی است. برای ارضای این شرایط با الهام از [28] که یک چهارچوب چهارمرحلهای برای خوانش متن از صحنه 25(STR) ارائه میدهد، استفاده کردیم. این مراحل شامل دریافت تصویر ورودی، استخراج ویژگیهای تصویری، مدلسازی توالی برای یادگیری وابستگیهای متنی و پیشبینی کاراکترهاست. این مقاله با معرفی این چهارچوب چهارمرحلهای، امکان ارزیابی دقیق تأثیر ماژولهای مختلف بر دقت، سرعت و مصرف حافظه را فراهم میکند. با حذف عامدانه 26BLSTM از مرحله سوم، وابستگی مدل به پیشبینیهای زنجیرهای کاهش داده شد تا صرفاً بر اطلاعات بصری تکیه کند. با اعمال این تغییر، بهطور عامدانه توانایی مدل در جبران نواقص تصویر از طریق وابستگیهای متنی تضعیف شد. این تضعیف عامدانه باعث سختگیری بیشتر مدل در مواجهه با تصاویر کمکیفیت شد و در نتیجه، شبکه SR را به تولید خروجیهای دقیقتر و شفافتر وادار کرد. همچنین این شبکه نسبت به شبکه اصلی از تعداد لایههای کمتری تشکیل گردیده و به صورت آگاهانه صرفاً با دادههای با تفکیکپذیری بالا آموزش داده شد.
4- پایگاه داده
در این تحقیق از مجموعه دادههای TextZoom [29]، ICDAR [30] و SVT [31] برای آموزش و ارزیابی کارایی روش پیشنهادی استفاده شده است. نمونههایی از تصاویر مجموعه داده TextZoom در شکل 4 آمده است. این مجموعه داده شامل ۲۱۷۴۰ جفت تصویر با وضوح پایین و وضوح بالاست که از طریق زوم لنز دوربین در شرایط واقعی جمعآوری شدهاند. مجموعه آموزشی شامل ۱۷۳۶۷ جفت تصویر بوده و مجموعه آزمایش بر اساس فاصله کانونی لنز دوربین که تأثیر مستقیمی بر کیفیت تصاویر ثبتشده دارد، به سه زیرمجموعه آسان (۱۶۱۹ نمونه)، متوسط (۱۴۱۱ نمونه) و سخت (۱۳۴۳ نمونه) تقسیم شده است.
مجموعه داده 2015ICDAR، یکی از معروفترین مجموعه دادههای خوانش متن در صحنه، شامل ۲۰۷۷ تصویر برشخورده از متون موجود در عکسهای خیابانی برای ارزیابی است. این تصاویر به دلیل ثبت تصادفی در خیابان، دارای وضوح پایین و تاری هستند که خوانش متن در آنها را چالشبرانگیز میکند.
مجموعه داده SVT نیز یک مجموعه داده شناختهشده برای خوانش متن در صحنه است که شامل ۶۴۷ تصویر آزمایش است. به دلیل کیفیت پایین تصاویر گرفتهشده در خیابان، خوانش متن در این مجموعه داده نیز چالشهایی به همراه دارد.
5- شبیهسازی و تحلیل نتایج
در این بخش نشان داده شده که چگونه روش پیشنهادی منجر به تقویت یکی از معروفترین معماریهای شبکههای فراتفکیکسازی [25] شده است. این تقویت از طریق بهبود بازخورد شبکه خوانش متن و تنظیم دقیق تابع زیان مبتنی بر تضعیف عامدانه به دست آمده است. به این ترتیب، کیفیت تصاویر فراتفکیکشده به طور قابل توجهی افزایش یافته و خوانایی متن در این تصاویر بهبود پیدا کرده که نشاندهنده اثربخشی و کارایی بالای روش پیشنهادی است (شکل 5).
شکل 3 نشاندهنده مرحله آموزش شبکه فراتفکیکسازی روش پیشنهادی میباشد. در این شکل، محور افقی هر دو نمودار نشاندهنده دورههای آموزشی و محور عمودی مقدار تابع زیان میباشد. شکل 3- الف مربوط به تابع زیان شبکه بر اساس تصویر و شکل 3- ب، تابع زیان بر اساس متن خواندهشده توسط شبکه خوانش متن است. مشاهده میشود که مقدار تابع زیان مربوط به تصویر پس از ۵۰ دور آموزشی، کاهش محسوسی نداشته و تقریباً به یک مقدار ثابت نزدیک شده است. این موضوع بیانگر این است که شبکه در بهبود کیفیت بصری تصویر به سطح مطلوبی رسیده و کاهش بیشتری در این معیار به دست نیامده است. از سوی دیگر، تابع زیان بر اساس خوانش متن، کاهش مداومی را از دور آموزشی ۵۰ به بعد نشان میدهد. این کاهش مداوم حاکی از آن است که شبکه فراتر از بهبود کیفیت بصری در بهبود خوانایی متن در تصاویر نیز موفق بوده است؛ بنابراین استفاده از خطای خوانش متن به عنوان تابع
(الف)
(ب)
(ج)
(د)
شکل 5: یک نمونه از نتایج معماری پیشنهادی، (الف) تصویر HR، (ب) تصویر LR (ورودی شبکه پیشنهادی)، (ج) تصویر SR (خروجی شبکه پیشنهادی) و (د) تصویر SR (خروجی شبکه [25]).
زیان و بازخورد آن، باعث هدایت شبکه به سمتی شده که نهتنها تصویر با وضوح بالاتری تولید کند، خوانایی متن موجود در آن افزایش یابد.
5-1 تحلیل ریاضی نتایج
تحلیل نتایج شکل 3 نشان میدهد که پس از دورههای اولیه آموزش، کاهش خطای خوانش متن به میزان قابل توجهی سریعتر از کاهش خطای تصویر پیش میرود؛ بنابراین در بین تصاویر با خطای میانگین مربعات مشابه، زیرمجموعهای از تصاویر وجود دارد که برای شبکههای خوانش متن، راحتتر قابل تشخیص هستند. دستیابی به این زیرمجموعه فقط با داشتن تابع زیان مبتنی بر تصویر شکل 3- الف، ممکن نیست. تحلیل زیر نشان میدهد که چگونه استفاده از تابع زیان پیشنهادی این تحقیق منجر به یافتن یک زیرمجموعه هدفمند از تصاویر شده است.
اگر تعداد کل پیکسلهای تصویر خروجی باشد که در آن
تعداد کانالهای رنگی،
تعداد ردیفها و
تعداد ستونهای تصویر باشد، در این صورت میتوان فضای تمامی تصاویر ممکن خروجی را به صورت مجموعه
در نظر گرفت،
(5)
که در آن مقدار بههنجارشده پیکسل در محل
با مقدار بین ۰ و ۱ میباشد. مشخص است که فضای جستجو در ابتدا بسیار بزرگ است و هدف آموزش رسیدن به بهترین زیرمجموعه از این زیرفضاست؛
به طوری که تصویر تولیدشده نهایی از نظر کیفیت تصویر و دقت خوانش، بیشترین شباهت را به تصویر واقعی داشته باشد.
پس از دوره آموزشی ۵۰ ام، خطای میانگین مربعات بین تصویر SR و HR به یک حد آستانه میرسد و ادامه آموزش منجر به کاهش معنادار میانگین مربعات نمیشود. در واقع جستجو برای یافتن بهترین تصویر از فضای بسیار بزرگ
به یک زیرمجموعه بسیار کوچکتر از خودش رسیده است به طوری که
ردیف | تصویر LR | تصویر SR | تصویر HR |
۱ |
|
|
|
Reasternat Conf = 0.67 | Restaurant Conf = 0.7432 | Restaurant Conf = 0.9991 | |
۲ |
|
|
|
While Conf = 0.7075 | While Conf = 0.9995 | While Conf = 0.9999 | |
3 |
|
|
|
actwity Conf = 0.6107 | activity Conf = 0.8068 | activity Conf = 0.9986 | |
4 |
|
|
|
not Conf = 0.7179 | FACE Conf = 0.5319 | FACE Conf = 0.5635 | |
5 |
|
|
|
11:30:2.30 Conf = 0.1859 | 11:30.2:30 Conf = 0.3240 | 11:30-2:30 Conf = 0.9739 | |
6 |
|
|
|
gm Conf = 0.1828 | grass Conf = 0.7844 | grass Conf = 0.9970 | |
7 |
|
|
|
Organiza Conf = 0.4743 | Oeganic Conf = 0.7443 | Organic Conf = 0.9999 | |
8 |
|
|
|
Cucpuscing Conf = 0.0074 | Cappuccina Conf = 0.2653 | Cappuccino Conf = 0.9976 | |
9 |
|
|
|
muthemuld Conf = 0.16 | mathematics Conf = 0.2347 | mathematics Conf = 0.9048 | |
10 |
|
|
|
Ansinguan Conf = 0.0108 | Insingram Conf = 0.1554 | Conf = 0.9980 |
شکل 6: نمونههایی از بهبود تصاویر متنی توسط شبکه پیشنهادی.
(6)
(7)
همان طور که در شکل 3 مشخص است در زیرفضای با پیشبردن آموزش، خطای میانگین مربعات کاهش چندانی نمییابد؛ بنابراین بازخورد این خطا به شبکه بهتنهایی قادر به بهینهسازی عملکرد شبکه نیست. استفاده از رویکرد پیشنهادی در این تحقیق باعث شده آموزش شبکه به شکل معناداری ادامه پیدا کند؛ به طوری که جستجو در زیرفضای
بهصورت هدفداری به یک زیرمجموعه کوچکتر میرسد، یعنی
(8)
(9)
که نشاندهنده یک آستانه برای دقت خوانش متن استخراجشده از تصویر SR است. رسیدن به زیرفضای
از دستاوردهای استفاده از تابع زیان معرفیشده در این تحقیق است.
5-2 تحلیل عملیاتی نتایج
در شکل ۶ ده نمونه از تصاویر با وضوح پایین موجود در مجموعه دادههای آزمایشی، انتخاب شده تا عملکرد شبکه پیشنهادی را نشان دهد.
جدول 2: دقت خوانش متن بر حسب درصد بر روی تصاویر پایگاه داده TextZoom.
روشها | آسان | متوسط | سخت |
Bicubic | ۳۹/۶۱ | ۹۴/۳۷ | ۶۲/۲۰ |
SRResnet [25] | ۴۴/۶۲ | ۲۲/۳۹ | ۴۸/۲۲ |
PAN [32] | 63/62 | 36/39 | 11/22 |
DRLN [33] | 38/62 | 65/38 | 04/22 |
A2N [34] | 01/62 | 22/39 | 26/22 |
HAT [35] | 19/62 | 08/39 | 41/22 |
DAT [36] | 50/62 | 86/38 | 38/22 |
روش پیشنهادی | ۴۳/۶۸ | ۵۲/۴۷ | ۴۷/۳۱ |
در این شکل ستون اول، تصاویر ورودی با وضوح پایین (LR) را نمایش میدهد. این تصاویر به دلیل کیفیت پایین، هم از نظر بصری و هم از نظر خوانایی، کیفیت مطلوبی ندارند و متن موجود در آنها حتی برای انسان نیز قابل تشخیص نیست. ستون دوم، تصاویر فراتفکیکسازیشده (SR) را نشان میدهد که خروجی روش پیشنهادی هستند. این تصاویر نسبت به ورودیهای LR از وضوح بالاتر و خوانایی بهتری برخوردارند، بهگونهای که متن آنها قابل تشخیص شده و کیفیت بصری آنها به طور محسوسی افزایش یافته است. ستون سوم، تصاویر مرجع با وضوح بالا (HR) را نمایش میدهد که بهعنوان کیفیت ایدهآل متن و ساختار حروف برای ارزیابی عملکرد روش پیشنهادی به کار رفتهاند. هر ردیف نمایانگر یک نمونه از تصاویر پایگاه داده با سه کیفیت مختلف (منطبق بر هر ستون)، متن تشخیصدادهشده توسط شبکه خوانش متن و ضریب اطمینان27 (Conf) مربوط به هر خوانش است. همان طور که مشاهده میشود، اعمال فراتفکیکسازی توسط روش پیشنهادی منجر به افزایش قابل توجه وضوح و خوانایی متن شده است، بهگونهای که سیستم خوانش متن با اطمینان بالاتر و دقت بیشتری قادر به خوانش محتوای متنی تصاویر بوده است.
در جدول ۲ دقت خوانش متن بر روی دادههای آزمایش پایگاه داده TextZoom گزارش شده است. همان طور که دیده میشود، افزودن
تابع زیان معرفیشده در این تحقیق به معماری [25] در قالب روش پیشنهادی، منجر به بهبود کیفیت تصاویر و افزایش دقت خوانش متن در مقایسه با نسخه اصلی شده است.
6- نتیجهگیری
در این پژوهش، یک روش نوآورانه برای فراتفکیکسازی تصاویر متنی ارائه شد که بهطور ویژه بر حفظ ساختار حروف و ارتقای خوانایی متن تمرکز دارد. روش پیشنهادی با بهرهگیری از ترکیب دو تابع زیان، شامل زیان مبتنی بر شباهت تصویری و زیان خوانش متن، توانسته است کیفیت تصاویر متنی را به شکل قابل توجهی بهبود بخشد.
نتایج تجربی نشان میدهد این رویکرد نهتنها وضوح بصری تصاویر را افزایش میدهد، بلکه دقت سیستمهای خوانش متن را بهطور چشمگیری بهبود میبخشد. استفاده از بازخورد سختگیرانه شبکه خوانش از طریق تضعیف عامدانه آن، امکان بازیابی اطلاعات ازدسترفته در تصاویر با وضوح پایین را فراهم کرده و به تولید تصاویر فراتفکیکسازیشده با جزئیات بیشتر و خوانایی بالاتر منجر میشود.
روش پیشنهادی با افزایش فراتفکیکپذیری تصاویر وضوح پایین، گامی مؤثر در بهبود عملکرد سیستمهای OCR و کاربردهای مرتبط محسوب میشود. علاوه بر این، بهینهسازی بیشتر این روش از طریق بهرهگیری از معماریهای جدیدتر و تلفیق با توابع زیان دیگر میتواند بهعنوان یک مسیر پژوهشی مورد بررسی قرار گیرد.
مراجع
[1] R. Shu, C. Zhao, S. Feng, L. Zhu, and D. Miao, "Text-enhanced scene image super-resolution via stroke mask and orthogonal attention," IEEE Trans. on Circuits and Systems for Video Technology, vol. 33, no. 11, pp. 6317-6330, Nov. 2023.
[2] J. Ma, S. Guo, and L. Zhang, "Text prior guided scene text image super-resolution," IEEE Trans. on Image Processing, vol. 32, pp. 1341-1353, 2023.
[3] J. Ma, Z. Liang, and L. Zhang, "A text attention network for spatial deformation robust scene text image super-resolution," in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 5911-5920, New Orleans, LA, USA, 19-24 Jun. 2022.
[4] ع. عابدی و ا. کبیر، "فراتفکیکپذیری مبتنی بر نمونه تکتصویر متن با روش نزول گرادیان ناهمزمان ترتیبی،" نشریه مهندسی برق و مهندسی کامپیوتر ایران، ب- مهندسی کامپیوتر، سال 14، شماره 3، صص. 192-177، پاییز 1395.
[5] K. Mehrgan, A. R. Ahmadyfard, and H. Khosravi, "Super-resolution of license-plates using weighted interpolation of neighboring pixels from video frames," International J. of Engineering, Trans. B: Applications, vol. 33, no. 5, pp. 992-999, May 2020.
[6] C. Dong, C. C. Loy, K. He, and X. Tang, "Learning a deep convolutional network for image super-resolution," in Proc. 13th European Conf, Computer Vision, pp. 184-199, Zurich, Switzerland, 6-12 Sept. 2014.
[7] A. Kappeler, S. Yoo, Q. Dai, and A. K. Katsaggelos, "Video super-resolution with convolutional neural networks," IEEE Trans. Comput Imaging, vol. 2, no. 2, pp. 109-122, Jun. 2016.
[8] M. Hradiš, J. Kotera, P. Zemcık, and F. Šroubek, "Convolutional neural networks for direct text deblurring," in Proc. of the British Machine Vision Conf., 13 pp., Swansea, UK, 7-10 Dec. 2015.
[9] C. Dong, C. C. Loy, K. He, and X. Tang, "Image super-resolution using deep convolutional networks," IEEE Trans. Pattern Anal Mach Intell, vol. 38, no. 2, pp. 295-307, Feb. 2015.
[10] D. Gudivada and P. K. Rangarajan, "Enhancing PROBA-V satellite imagery for vegetation monitoring using FSRCNN-based super-resolution," in Proc. Int. Conf. on Next Generation Electronics, 6 pp., Vellore, India, 14-16 Dec. 2023.
[11] J. Zhang, M. Liu, X. Wang, and C. Cao, "Residual net use on FSRCNN for image super-resolution," in Proc. 40th Chinese Control Conf., pp. 8077-8083, Shanghai, China, 26-28 Jul. 2021.
[12] T. Khachatryan, D. Galstyan, and E. Harutyunyan, "A comprehensive approach for enhancing deep learning datasets quality using combined SSIM algorithm and FSRCNN," in Proc. IEEE East-West Design & Test Symp., 4 pp., 22-25 Sept. 2023.
[13] Y. Zhu, X. Sun, W. Diao, H. Li, and K. Fu, "RFA-Net: reconstructed feature alignment network for domain adaptation object detection in remote sensing imagery," IEEE J. Sel Top Appl Earth Obs Remote Sens, vol. 15, pp. 5689-5703, 2022.
[14] Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, "Deep networks for image super-resolution with sparse prior," in Proc. of the IEEE Int. Conf. on Computer Vision, pp. 370-378, Santiago, Chile, 7-13 Dec. 2015.
[15] M. Chen, et al., "RFA-Net: residual feature attention network for fine-grained image inpainting," Engineering Applications of Artificial Intelligence, vol. 119, Article ID: 105814, Mar. 2023.
[16] Z. Wang and J. Tang, "Advancing quality and detail: enhanced-lapSRN for chip socket image super-resolution," in Proc. Int. Conf. on Image Processing, Computer Vision and Machine Learning, pp. 153-159, Chengdu, China, 3-5 Nov. 2023.
[17] R. Tang, et al., "Medical image super-resolution with Laplacian dense network," Multimedia Tools and Applications, vol. 81, no. 3, pp. 3131-3144, Jan. 2022.
[18] K. Wu, C. K. Lee, and K. Ma, "Memsr: training memory-efficient lightweight model for image super-resolution," in Proc. 39th Int. Conf. on Machine Learning, pp. 24076-24092, Baltimore, MD, USA, 17-23 Jul. 2022.
[19] Z. Du, et al., "Fast and memory-efficient network towards efficient image super-resolution," in Proc. of the IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 853-862, New Orleans, LA, USA, 19-20 Jun. 2022.
[20] K. H. Liu, B. Y. Lin, and T. J. Liu, "MADnet: a multiple attention decoder network for segmentation of remote sensing images,"
in Proc. Int. Conf. on Consumer Electronics-Taiwan pp. 835-836, PingTung, Taiwan, 17-19 Jul. 2023.
[21] D. Zhang, W. Zhang, W. Lei, and X. Chen, "Diverse branch feature refinement network for efficient multi‐scale super‐resolution," IET Image Process, vol. 18, no. 6, pp. 1475-1490, May 2024.
[22] T. Tong, G. Li, X. Liu, and Q. Gao, "Image super-resolution using dense skip connections," in Proc. of the IEEE Int. Conf. on Computer Vision, pp. 4799-4807, Venice, Italy, 22-29 Oct. 2017.
[23] K. Zhang, W. Zuo, and L. Zhang, "Learning a single convolutional super-resolution network for multiple degradations," in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, pp. 3262-3271, Salt Lake City, UT, USA, 18-22 Jun. 2018.
[24] W. Zhang, Y. Liu, C. Dong, and Y. Qiao, "Ranksrgan: super resolution generative adversarial networks with learning to rank," IEEE Trans Pattern Anal Mach Intell, vol. 44, no. 10, pp. 7149-7166, Oct. 2021.
[25] C. Ledig, et al., "Photo-realistic single image super-resolution using a generative adversarial network," in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition, pp. 4681-4690, Honolulu, HI, USA, 21-26 Jul. 2017.
[26] B. K. Xie, S. B. Liu, and L. Li, "Large-scale microscope with improved resolution using SRGAN," Optics & Laser Technology, vol. 179, Article ID: 111291, Dec. 2024.
[27] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning, MIT Press, 2016.
[28] J. Baek, et al., "What is wrong with scene text recognition model comparisons? dataset and model analysis," in Proc. of the IEEE/CVF Int. Conf. on Computer Vision, pp. 4715-4723, Seoul, South, Korea, 27 Oct.-2 Nov. 2019.
[29] W. Wang, et al., "Scene text image super-resolution in the wild," in Proc. 16th European Conf. on Computer Vision, pp. 650-666, Glasgow, UK, 20-28 Aug. 2020.
[30] D. Karatzas, et al., "ICDAR 2015 competition on robust reading,"
in Proc. 13th Int. Conf. on Document Analysis and Recognition, pp. 1156-1160, Tunis, Tunisia, 23-26 Aug. 2015.
[31] K. Wang, B. Babenko, and S. Belongie, "End-to-end scene text recognition," in Proc. Int. Conf. on Computer Vision. pp. 1457-1464, Barcelona, Spain, 6-13 Nov. 2011.
[32] H. Zhao, X. Kong, J. He, Y. Qiao, and C. Dong, "Efficient image super-resolution using pixel attention," in Proc., Computer Vision-ECCV Workshops, pp. 56-72, Glasgow, UK, 23-28 Aug. 2020.
[33] S. Anwar and N. Barnes, "Densely residual laplacian super-resolution," IEEE Trans Pattern Anal Mach Intell, vol. 44, no. 3,
pp. 1192-1204, Mar. 2022.
[34] H. Chen, J. Gu, and Z. Zhang, Attention in Attention Network for Image Super-Resolution, arXiv Preprint, arXiv:2104.09497, 2021.
[35] X. Chen, X. Wang, J. Zhou, and C. Dong, "Activating more pixels
in image super-resolution transformer," in Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition, pp. 22367-22377, Vancouver, Canada, 18-22 Jun, 2023.
[36] Z. Chen, Y. Zhang, J. Gu, L. Kong, X. Yang, and F. Yu, "Dual aggregation transformer for image super-resolution," in Proc. IEEE/CVF Int. Conf. on Computer Vision, pp. 12278-12287, Vancouver, Canada, 18-22 Jun, 2023.
کمیل مهرگان تحصیلات خود را در مقاطع کارشناسی و کارشناسی ارشد مهندسی برق گرایش مخابرات سیستم بهترتیب در سالهای ۱۳۹۶ و ۱۳۹۹ در دانشگاه صنعتی شاهرود به پایان رساند و از ۱۳۹۹ به دوره دکتری تخصصی مهندسی برق گرایش مخابرات سیستم در دانشگاه فردوسی مشهد وارد شد. زمینههای علمی مورد علاقه وی شامل موضوعاتی مانند پردازش سیگنال، پردازش تصاویر و یادگیری ماشین است.
عباس ابراهیمی مقدم مدرک کارشناسی و کارشناسی ارشد برق گرایش مخابرات خود را بهترتیب از دانشگاههای صنعتی شریف در سال ۱۳۷۰ و صنعتی خواجه نصیر طوسی در سال ۱۳۷۴ اخذ کرد. وی مدرک دکتری خود را از دانشگاه McMaster کانادا دریافت کرد و از سال 1390 بهعنوان استادیار در دانشگاه فردوسی مشهد فعالیت علمی مینماید. زمینههای تحقیقاتی مورد علاقه وی پردازش گفتار، پردازش تصویر و ویدئو، بینایی ماشین و پردازش سیگنالهای حیاتی است.
مرتضی خادمی درح تحصیلات خود را در مقاطع کارشناسی و کارشناسی ارشد مهندسی برق بهترتیب در سالهای 1364 و 1366 در دانشگاه صنعتی اصفهان به پایان رساند. ایشان از سال 1366 تا 1370 به عنوان عضو هیأت علمی در دانشگاه فردوسی مشهد به کار مشغول بود. پس از آن به دوره دکترای مهندسی برق در دانشگاه Wollongong استرالیا وارد شد و در سال 1374 موفق به اخذ درجه دکترا در مهندسی برق از دانشگاه مذکور گردید. دکتر خادمی از سال 1374 مجدداً در دانشکده مهندسی دانشگاه فردوسی مشهد مشغول به فعالیت شد و اینک نیز استاد این دانشکده است. زمینههای علمی مورد علاقه وی شامل موضوعاتی مانند مخابرات ویدئویی، فشردهسازی ویدئو، پردازش تصویر و سیگنالهای پزشکی و پنهانسازی اطلاعات در ویدئو است.
[1] این مقاله در تاریخ 3 دی ماه 1403 دریافت و در تاریخ 17 فروردین ماه 1404 بازنگری شد.
کمیل مهرگان، دانشکده مهندسی برق، دانشگاه فردوسی مشهد، مشهد، ایران،
(email: komail.mehrgan@mail.um.ac.ir).
عباس ابراهیمی مقدم (نویسنده مسئول)، دانشکده مهندسی برق، دانشگاه فردوسی مشهد، مشهد، ایران، (email: a.ebrahimi@um.ac.ir).
مرتضی خادمی درح، دانشکده مهندسی برق، دانشگاه فردوسی مشهد، مشهد، ایران، (email: khademi@um.ac.ir).
[2] . Optical Character Recognition
[3] . Low Resolution
[4] . High Resolution
[5] . Super-Resolution
[6] . Dong
[7] . Convolutional Neural Network
[8] . Linear Connection
[9] . Super-Resolution CNN
[10] . Up-Sampling
[11] . Fast SRCNN
[12] . Residual Connection
[13] . Very Deep SR
[14] . Residual Learning
[15] . Progressive Reconstruction Connection
[16] . Recursive Connection
[17] . Attention Based Connection
[18] . Multi Branch Connection
[19] . Dense Connected Connection
[20] . Multi Degradation Handling Connection
[21] . Generative Adversarial Network
[22] . Mean Squared Error
[23] . One-Hot
[24] . Cross Entropy
[25] . Scene Text Recognition
[26] . Bidirectional Long Short-Term Memory
[27] . میانگین بیشینه احتمالهای بردارهای خروجی شبکه برای هر کاراکتر در متن است که نشاندهنده میزان اطمینان شبکه در بازشناسی متن میباشد.