research centers


Search results: Found 2

Listing 1 - 2 of 2
Sort by

Article
Intelligent Documents Classification System
نظام تصنيف الوثائق الذكي

Authors: Hasanen S. Abdullah حسنين سمير عبدالله --- Hala Dhiaa Hasan هاله ضياء حسن
Journal: AL-MANSOUR JOURNAL مجلة المنصور ISSN: 18196489 Year: 2019 Issue: 31 Pages: 134-151
Publisher: Private Mansour college كلية المنصور الاهلية

Loading...
Loading...
Abstract

There are a huge number of documents that available in many various sources in unorganized format, therefore these unstructured documents needs to be classified. In this paper, a proposed system called "Intelligent Documents Classification System" which represents the system for classifying the documents to the correct class based on its textual information. This system contain through four steps which are preprocessing, features extraction, proposed method for features selection, and finally, modify model of naïve bays. Two datasets are used to evaluate the proposed system, the first dataset its name as "bbc from ucd repository" is standard that contains technical research documents distributed over five classes which available on the internet and the second dataset is collected dataset contains books documents distributed over six classes which collected during this work. The IDC system achieved the powerful results. For the standard dataset the accuracy is 95.1%, precision is 95%, recall is 95.8%, and f1-measure is 95.39% while the accuracy for the collected dataset is 95.3%, precision is 95.16%, recall is 95.83%, and f1-measure is 95.49%.

هناك عدد هائل من الوثائق المتاحة في العديد من المصادر المختلفة في شكل غير منظم، ولذلك فإن هذه الوثائق الغير مهيكلة تحتاج إلى تصنيف. في هذا البحث، تم اقتراح نظام يسمى "نظام تصنيف الوثائق الذكي" الذي يمثل نظام لتصنيف الوثائق إلى الفئة الصحيحة استنادا إلى المعلومات النصية. هذا النظام يحتوي على أربع خطوات وهي المعالجة المسبقة، الاستخراج الميزات، طريقة مقترحة لاختيار الميزات وتحديث المصنفNaïve Bayes. في هذا النظام تم استخدام مجموعتي بيانات، مجموعة البيانات الأولى هي مجموعة البيانات القياسية والتي يحتوي على وثائق البحوث التقنية الموزعة على خمس فئات والتي تتوفر على شبكة الإنترنت، ومجموعة البيانات الثانية هي عبارة عن مجموعة تم تجميعها اثناء عمل هذا البحث والتي تحتوي على وثائق الكتب والموزعة على ستة فئات. حقق نظام إدك نتائج قوية. لمجموعة البيانات القياسية accuracy هي 95.1٪، وprecision هي 95٪، و recall هي 95.8 ٪، و f1-measure هو 95.39٪ في حين أن accuracy لمجموعة البيانات التي تم جمعها هي 95.3٪، وprecision هي 95.16٪، وrecall هي 95.83٪، و f1-measure هو 95.49٪.


Article
Dual Heuristic Feature Selection Based on Genetic Algorithm and Binary Particle Swarm Optimization

Authors: Ali Hakem Jabor --- Ali Hussein Ali
Journal: Journal of University of Babylon مجلة جامعة بابل ISSN: 19920652 23128135 Year: 2019 Volume: 27 Issue: 1 Pages: 171-185
Publisher: Babylon University جامعة بابل

Loading...
Loading...
Abstract

The features selection is one of the data mining tools thatused to select the most important features of a given dataset. It contributestosavetime and memory during the handling a given dataset. According to these principles, we haveproposed features selection method based on mixing two metaheuristic algorithms Binary Particle Swarm Optimization and Genetic Algorithm work individually. The K-Nearest Neighbour (K-NN) is used asan objective function to evaluate the proposed features selection algorithm. The Dual Heuristic Feature Selection based on Genetic Algorithm and Binary Particle Swarm Optimization (DHFS) test, and compared with 26 well-known datasets of UCI machine learning. The numeric experiments result imply that the DHFS better performance comparedwithfullfeatures and thatselected by the mentioned algorithms (Genetic Algorithm and Binary Particle Swarm Optimization).

اختيار الصفات هو أحد ادوات تنقيب البيانات الذي يستخدم لاختيار الصفات المهمة للبيانات المعطاة. ان الفائدة من اختيار صفات البيانات هو توفير الوقت وتقليل الذاكرة المستخدمة في معالجة البيانات. حسب تلك المبادئ صممنا خوارزمية اختيار الصفات على اساس دمج خوارزميتين من خوارزميات البحث العشوائي هما خوارزمية الأسراب الثنائية والخوارزمية الجينية لتعملا معاً بشكل منفصل. أستخدم التصنيف على اساس الجيران كدالة لتقييم عمل الخوارزمية المقترحة. فحصت وقورنت مع بيانات مصنفة بدون اختيار الصفات المهمة وبيانات مصنفة باختيار الصفات على اساس خوارزمية الأسراب الثنائية والخوارزمية الجينية. استخدمت في عملية التصنيف 26 مجموعة من البيانات التابعة للـ , UCIنتائج التجارب الرقمية بينت ان الخوارزمية المقترحة أفضل مقارنة مع البيانات بدون اختيار الصفات او باختيار الصفات للخوارزميات المشار اليها سابقاً.

Listing 1 - 2 of 2
Sort by
Narrow your search

Resource type

article (2)


Language

Arabic and English (1)

English (1)


Year
From To Submit

2019 (2)