﻿<?xml version="1.0" encoding="utf-8"?>
<ArticleSet>
  <ARTICLE>
    <Journal>
      <PublisherName>مرکز منطقه ای اطلاع رسانی علوم و فناوری</PublisherName>
      <JournalTitle>فصلنامه مهندسی برق و مهندسی کامپيوتر ايران</JournalTitle>
      <ISSN>16823745</ISSN>
      <Volume>23</Volume>
      <Issue>4</Issue>
      <PubDate PubStatus="epublish">
        <Year>2026</Year>
        <Month>3</Month>
        <Day>23</Day>
      </PubDate>
    </Journal>
    <ArticleTitle>Challenges of Persian Scene Text  Detection and the Importance of a New Dataset for Evaluating Deep Learning Models</ArticleTitle>
    <VernacularTitle>چالش های موقعیت یابی متن فارسی در تصاویر طبیعی و اهمیت مجموعه دادگان جدید برای ارزیابی مدل های یادگیری عمیق</VernacularTitle>
    <FirstPage>246</FirstPage>
    <LastPage>256</LastPage>
    <ELocationID EIdType="doi" />
    <Language>fa</Language>
    <AuthorList>
      <Author>
        <FirstName>زبیر</FirstName>
        <LastName>رئیسی</LastName>
        <Affiliation>دانشگاه واترلو</Affiliation>
      </Author>
      <Author>
        <FirstName>رسول</FirstName>
        <LastName>دامنی</LastName>
        <Affiliation>دانشگاه شریف</Affiliation>
      </Author>
      <Author>
        <FirstName>اسماعیل</FirstName>
        <LastName>سارانی</LastName>
        <Affiliation>دانشگاه تهران</Affiliation>
      </Author>
      <Author>
        <FirstName>ولی محمد</FirstName>
        <LastName>نظرزهی حاد</LastName>
        <Affiliation>نیو سوز ولز</Affiliation>
      </Author>
    </AuthorList>
    <History PubStatus="received">
      <Year>2025</Year>
      <Month>8</Month>
      <Day>14</Day>
    </History>
    <Abstract>&lt;p style="direction: ltr;"&gt;Due to the structural complexity of the Persian script and the lack of standardized and reliable datasets, Persian scene text detection and word segmentation in natural scene images captured by conventional cameras remain key challenges in the field of image processing. In this paper, we introduce a comprehensive dataset for Persian text detection, named FATD (Farsi Text Detection Dataset). FATD comprises more than 2,000 diverse images containing texts with various fonts, sizes, orientations, and environmental conditions, covering a wide range of visual complexity. Subsequently, six deep learning models are evaluated and compared under identical conditions on this dataset, including two convolutional neural network (CNN)-based models (YOLOv8 and CRAFT), two transformer-based models (RRDETR and RRBDETR), and two vision-language models (Qwen2.5VL and Florence-2). Experimental results demonstrate that transformer-based models achieve superior accuracy&amp;mdash;up to 65% in H-mean&amp;mdash;at the expense of higher computational cost. In contrast, CNN-based models offer competitive accuracy with notably faster inference speed. Moreover, despite their limited training exposure to Persian text data, the evaluated vision-language models exhibit promising localization performance according to the H-mean metric. Overall, this study provides a valuable benchmark and comparative analysis for advancing Persian scene text detection and highlights the potential of modern vision-language architectures in low-resource languages.&lt;/p&gt;</Abstract>
    <OtherAbstract Language="FA">&lt;p&gt;به دلیل پیچیدگی&amp;zwnj;های ساختاری خط فارسی و کمبود مجموعه&amp;zwnj;داده&amp;zwnj;های (دادگان&amp;zwnj;های) استاندارد و معتبر، موقعیت&amp;zwnj;یابی متن فارسی و جداسازی کلمات در تصاویر ثبت&amp;zwnj;شده با دوربین&amp;zwnj;های معمولی، همچنان به عنوان یک چالش کلیدی در حوزه پردازش تصویر مطرح است. در این مقاله، ابتدا یک مجموعه دادگان جامع برای موقعیت یابی متن فارسی با نام FATD معرفی شده است.این مجموعه شامل بیش از 2000 تصویر متنوع است که متن&amp;zwnj;هایی با فونت&amp;zwnj;ها، اندازه&amp;zwnj;ها و زاویه&amp;zwnj;های مختلف، در شرایط محیطی متفاوت و با سطوح پیچیدگی بالا را در بر میگیرد. سپس، در مجموع شش مدل یادگیری عمیق شامل دو مدل مبتنی بر شبکه عصبی کانولوشنی (8YOLOv و CRAFT)، دو مدل ترانسفورمری (RRDETR و RRBDETR) و همچنین دو مدل زبان-بینایی (-VL5&lt;sub&gt;/&lt;/sub&gt;2Qwen و 2Florence-)، تحت شرایط یکسان بر روی مجموعه دادگان معرفی شده، ارزیابی و مقایسه می شوند. نتایج ارزیابی نشان میدهد که ترانسفورمرها به قیمت هزینه محاسباتی بالاتر، عملکرد بهتر و دقیق&amp;shy;تری را ارائه می&amp;shy;دهند و بر بر اساس معیار ارزیابی H-mean دقتی تا 65 درصد را کسب می&amp;shy;کنند. در مقابل، شبکه های عصبی کانولوشنی (CNN) با سرعت پردازش مناسب، دقت رقابتی ارائه می&amp;shy;کنند. همچنین علیرغم آموزش محدود مدل های جامع زبان-بینایی روی داده&amp;shy;های متنی فارسی، بر اساس معیار ارزیابی &amp;nbsp;H-meanاین مدل&amp;shy;ها در موقعیت یابی عملکرد قابل قبولی را به نمایش می&amp;shy;گذارند.&lt;/p&gt;</OtherAbstract>
    <ObjectList>
      <Object Type="Keyword">
        <Param Name="Value">مجموعه داده متن فارسی، موقعیت‌یابی متن در تصاویر، مدل‌های یادگیری عمیق ، مجموعه داده FATD.</Param>
      </Object>
    </ObjectList>
    <ArchiveCopySource DocType="Pdf">http://ijece.org/fa/Article/Download/51191</ArchiveCopySource>
  </ARTICLE>
</ArticleSet>