مرکز منطقه ای اطلاع رسانی علوم و فناوری فصلنامه مهندسی برق و مهندسی کامپيوتر ايران 16823745 24 1 2026 5 12 A Semi-Supervised Learning Framework for Accurate Test Case Classification Using Language Embeddings and Semantic Text Features یک چارچوب یادگیری نیمه‌نظارتی جهت دسته‌بندی دقیق موارد آزمون با بهره‌گیری از تعبیه‌های زبانی و ویژگی‌های معنایی متن 58 66 fa محمد حسین پروانه واحد بین المللی اروند مریم نورائی 2025 8 30 With the growing importance of integrating artificial intelligence and software testing, moving toward the intelligent automation of evaluation processes and exam item classification has become an essential necessity. One of the key challenges in this domain is the strong dependency on labeled data, the production of which is costly and time-consuming. In this study, a semi-supervised learning framework was designed and implemented using pseudo-labeling to incorporate unlabeled data into the training process and weighting the unsupervised loss. The dataset used was AG News, consisting of four news categories, where only 20% of the data was considered labeled and 80% unlabeled. For feature extraction, the BERT-base model was employed as a language embedder, producing 768-dimensional vectors (default configuration). Data preprocessing included tokenization with BertTokenizer, removal of punctuation and irrelevant characters, and text normalization. Performance evaluation using Accuracy, Precision, Recall, and F1-Score demonstrated that the semi-supervised approach outperformed the supervised SVM under limited labeled data conditions, achieving an average improvement of 5–10% across the metrics. با گسترش کاربرد هوش مصنوعی در مهندسی نرم&zwnj;افزار، استفاده از روش&zwnj;های هوشمند برای دسته&zwnj;بندی موارد آزمون به ضرورتی کلیدی تبدیل شده است. یکی از چالش&zwnj;های اصلی در این زمینه، وابستگی شدید مدل&zwnj;ها به داده&zwnj;های برچسب&zwnj;خورده است که تولید آن&zwnj;ها هزینه&zwnj;بر و زمان&zwnj;بر است. در این پژوهش، با هدف بررسی اثربخشی یادگیری نیمه&zwnj;نظارتی در چنین شرایطی، چارچوبی مبتنی بر pseudo-labeling طراحی شد تا داده&zwnj;های بدون برچسب را در فرآیند آموزش مدل ادغام کند و به بخش بدون&zwnj;نظارت وزن مناسبی در تابع خطا اختصاص دهد. برای ارزیابی، از مجموعه&zwnj;داده AG News شامل 12۰٬00۰ نمونه آموزشی و ۷٬۶۰۰ نمونه آزمایشی استفاده شد که از میان داده&zwnj;های آموزشی، ۲۰٪ (۲۴٬۰۰۰ نمونه) به&zwnj;عنوان داده برچسب&zwnj;خورده و ۸۰٪ (۹۶٬۰۰۰ نمونه) به&zwnj;عنوان داده بدون&zwnj;برچسب به کار رفت. استخراج ویژگی&zwnj;ها با مدل BERT-base انجام شد که بردارهای ۷۶۸ بعدی تولید می&zwnj;کند. نتایج بر اساس سنجه&zwnj;های صحّت، دقّت، فراخواني و معيارF1-  نشان داد که روش نیمه&zwnj;نظارتی در مقایسه با ماشین بردار پشتیبان نظارتی، بهبود اندک اما معناداری در عملکرد ارائه می&zwnj;دهد. این یافته&zwnj;ها نشان می&zwnj;دهد که داده&zwnj;های بدون&zwnj;برچسب می&zwnj;توانند به&zwnj;طور مؤثر در بهبود مدل&zwnj;های یادگیری ماشین در شرایط کم&zwnj;داده به&zwnj;کار گرفته شوند.

http://ijece.org/ar/Article/Download/51312