مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 23 4 2026 3 23 Challenges of Persian Scene Text Detection and the Importance of a New Dataset for Evaluating Deep Learning Models چالش های موقعیت یابی متن فارسی در تصاویر طبیعی و اهمیت مجموعه دادگان جدید برای ارزیابی مدل های یادگیری عمیق 246 256 fa زبیر رئیسی دانشگاه واترلو رسول دامنی دانشگاه شریف اسماعیل سارانی دانشگاه تهران ولی محمد نظرزهی حاد نیو سوز ولز 2025 8 14 Due to the structural complexity of the Persian script and the lack of standardized and reliable datasets, Persian scene text detection and word segmentation in natural scene images captured by conventional cameras remain key challenges in the field of image processing. In this paper, we introduce a comprehensive dataset for Persian text detection, named FATD (Farsi Text Detection Dataset). FATD comprises more than 2,000 diverse images containing texts with various fonts, sizes, orientations, and environmental conditions, covering a wide range of visual complexity. Subsequently, six deep learning models are evaluated and compared under identical conditions on this dataset, including two convolutional neural network (CNN)-based models (YOLOv8 and CRAFT), two transformer-based models (RRDETR and RRBDETR), and two vision-language models (Qwen2.5VL and Florence-2). Experimental results demonstrate that transformer-based models achieve superior accuracy—up to 65% in H-mean—at the expense of higher computational cost. In contrast, CNN-based models offer competitive accuracy with notably faster inference speed. Moreover, despite their limited training exposure to Persian text data, the evaluated vision-language models exhibit promising localization performance according to the H-mean metric. Overall, this study provides a valuable benchmark and comparative analysis for advancing Persian scene text detection and highlights the potential of modern vision-language architectures in low-resource languages. به دلیل پیچیدگی&zwnj;های ساختاری خط فارسی و کمبود مجموعه&zwnj;داده&zwnj;های (دادگان&zwnj;های) استاندارد و معتبر، موقعیت&zwnj;یابی متن فارسی و جداسازی کلمات در تصاویر ثبت&zwnj;شده با دوربین&zwnj;های معمولی، همچنان به عنوان یک چالش کلیدی در حوزه پردازش تصویر مطرح است. در این مقاله، ابتدا یک مجموعه دادگان جامع برای موقعیت یابی متن فارسی با نام FATD معرفی شده است.این مجموعه شامل بیش از 2000 تصویر متنوع است که متن&zwnj;هایی با فونت&zwnj;ها، اندازه&zwnj;ها و زاویه&zwnj;های مختلف، در شرایط محیطی متفاوت و با سطوح پیچیدگی بالا را در بر میگیرد. سپس، در مجموع شش مدل یادگیری عمیق شامل دو مدل مبتنی بر شبکه عصبی کانولوشنی (8YOLOv و CRAFT)، دو مدل ترانسفورمری (RRDETR و RRBDETR) و همچنین دو مدل زبان-بینایی (-VL5/2Qwen و 2Florence-)، تحت شرایط یکسان بر روی مجموعه دادگان معرفی شده، ارزیابی و مقایسه می شوند. نتایج ارزیابی نشان میدهد که ترانسفورمرها به قیمت هزینه محاسباتی بالاتر، عملکرد بهتر و دقیقتری را ارائه میدهند و بر بر اساس معیار ارزیابی H-mean دقتی تا 65 درصد را کسب میکنند. در مقابل، شبکه های عصبی کانولوشنی (CNN) با سرعت پردازش مناسب، دقت رقابتی ارائه میکنند. همچنین علیرغم آموزش محدود مدل های جامع زبان-بینایی روی دادههای متنی فارسی، بر اساس معیار ارزیابی  H-meanاین مدلها در موقعیت یابی عملکرد قابل قبولی را به نمایش میگذارند.

http://ijece.org/fa/Article/Download/51191