research centers


Search results: Found 4

Listing 1 - 4 of 4
Sort by

Article
Handling missing Data values in a Database Model using Random Forest

Author: Abbas M. AL-Bakry
Journal: Journal of University of Babylon مجلة جامعة بابل ISSN: 19920652 23128135 Year: 2012 Volume: 20 Issue: 2 Pages: 482-486
Publisher: Babylon University جامعة بابل

Loading...
Loading...
Abstract

Missing values in a databases one of critical problem faced by the researchers in Data analysis and data mining. This work presents a suggested method for handling missing data values in data sets using Random Forest (RF) Technique. The use of RF present new principles to random splitting, it alters the tree growing process by narrowing its focus during split selection. For example, if the database contains numbers of columns usable for prediction, RF would begin randomly of selection number of variables and then chooses the splitter from the list of predictors. Using the suggested method we can get the actual values for the missing records entries and handling the uncertainty and outliers problem.

تعتبر القيم المفقودة في قواعد البيانات واحده من التحديات ألمحرجه التي تواجه الباحثين في مجال تنقيب وتحليل البيانات. يعرض هذا العمل طريقه مقترحه لمعالجة قيم البيانات المفقودة باستخدام تقنية الغابات العشوائية (Random Forest). إن استخدام هذه ألطريقه وضح مبادئ جديدة للفصل العشوائي حيث يتعامل مع نمو الأشجار بتضييق البحث من خلال اختيار طريقة الفصل. وكمثال إذا كانت قاعدة البيانات تتكون من عدد من الأعمدة تستخدم للتنبؤ تبدأ هذه ألطريقه بالاختيار العشوائي لعدد من المتغيرات ومن ثم اختيار الفاصل الملائم من قائمة التنبؤات. إن استخدام هذه ألطريقه ألمقترحه يمكننا من ان نحصل على القيم الحقيقية لقيم القيود المفقودة ومعالجة مشاكل التشتت وعدم التأكيدية.


Article
Handling missing Data values in a Database Model using Random Forest

Author: Abbas M. AL-Bakry عباس محسن البكري
Journal: Journal of University of Babylon مجلة جامعة بابل ISSN: 19920652 23128135 Year: 2012 Volume: 20 Issue: 2 Pages: 482-486
Publisher: Babylon University جامعة بابل

Loading...
Loading...
Abstract

Missing values in a databases one of critical problem faced by the researchers in Data analysis and data mining. This work presents a suggested method for handling missing data values in data sets using Random Forest (RF) Technique. The use of RF present new principles to random splitting, it alters the tree growing process by narrowing its focus during split selection. For example, if the database contains numbers of columns usable for prediction, RF would begin randomly of selection number of variables and then chooses the splitter from the list of predictors. Using the suggested method we can get the actual values for the missing records entries and handling the uncertainty and outliers problem.

تعتبر القيم المفقودة في قواعد البيانات واحده من التحديات ألمحرجه التي تواجه الباحثين في مجال تنقيب وتحليل البيانات. يعرض هذا العمل طريقه مقترحه لمعالجة قيم البيانات المفقودة باستخدام تقنية الغابات العشوائية (Random Forest). إن استخدام هذه ألطريقه وضح مبادئ جديدة للفصل العشوائي حيث يتعامل مع نمو الأشجار بتضييق البحث من خلال اختيار طريقة الفصل. وكمثال إذا كانت قاعدة البيانات تتكون من عدد من الأعمدة تستخدم للتنبؤ تبدأ هذه ألطريقه بالاختيار العشوائي لعدد من المتغيرات ومن ثم اختيار الفاصل الملائم من قائمة التنبؤات. إن استخدام هذه ألطريقه ألمقترحه يمكننا من ان نحصل على القيم الحقيقية لقيم القيود المفقودة ومعالجة مشاكل التشتت وعدم التأكيدية.


Article
Finding Accurate And Comprehensible Knowledge Discovery In Database Model

Author: Abbas M. AL-Bakry
Journal: Journal of University of Babylon مجلة جامعة بابل ISSN: 19920652 23128135 Year: 2013 Volume: 21 Issue: 3 Pages: 725-745
Publisher: Babylon University جامعة بابل

Loading...
Loading...
Abstract

Available data in scientific fields mainly consist of huge datasets which gathered by a different techniques. These data are saved in much diversified and often incompatible repositories, such of these data are in bioinformatics, geoinformatics, astroinformatics and Scientific World Wide Web sites. From the other hand, the lack of reference data is very often to give a poor performance of learning. One of the key problems in supervised learning is due to the insufficient size of the trained dataset. Therefore, we suggest developing a theoretical and practical valid tool for analyzing small of the data sample which remains as a critical and challenging issue for the researches. In this work we suggest to design and develop instructions and tools for knowledge discovery from any type of database domain, based on the state of the art information. The proposed method to construction data, determining the best features for each dataset, generating association rules then classifying and simplifying these rules.

ان البيانات المتوفرة في الحقول العلمية تتكون كم هائل من القيود والتي يتم جمعها بتقنيات مختلفة. ان هذة البيانات تحفظ بطرق غير مناسبة ومن الأمثلة على هذه البيانات ( المعرفية الحيوية والبيانات الجغرافية وايضا مواقع الشبكة العنكبوتية). ومن جانب اخر النقص في البيانات المرجعية يعطي كفائة ضعيفة للتعلم. ان المشكلة الرئيسيه في عملية التعلم بوجود المشرف يعود الى عدم كفاية البيانات المدربه. لذا تم اقتراح تطوير اداة نظرية وتطبيقية لتحليل البيانات الصغيرة والتي مازالت تمثل تحدي في المجال البحثي. ان هذه الورقة تمثل اقتراح لتصميم وتطوير ادوات وايعازات لأستكشاف البيانات من قواعد البيانات المختلفة وذلك بالأعتماد على المعلومات المهمة. الطريقة المقرحة هي في هيكلة البيانات و تحديد افضل الصفات لكل قيد بيانات وتوليد القواعد الموزعة ومن ثم تصنيف وتبسيط مجموعة القواعد الناتجة.


Article
Anomaly Detection by Using Hybrid Method
كشف المتطفلين باستخدام طريقة هجينة

Author: Mohamed H. Ghaleb محمد حسين غالب
Journal: Journal of Al-Qadisiyah for Computer Science and Mathematics مجلة القادسية لعلوم الحاسوب والرياضيات ISSN: 20740204 / 25213504 Year: 2017 Volume: 9 Issue: 1 Pages: 99-107
Publisher: Al-Qadisiyah University جامعة القادسية

Loading...
Loading...
Abstract

In this paper a new approach has been designed for Intrusion Detection System (IDS). The detection will be for misuse and anomalies for training and testing data detecting the normal users or attacks users. The method used in this research is a hybrid method from supervised learning and text recognition field for (IDS). Random Forest algorithm used as a supervised learning method to choose the features and k-Nearest Neighbours is a text recognition algorithm used to detect and classify of the legitimate and illegitimate attack types. The experimental results have shown that the most accurate results is that obtained by using the proposed method and proved that the proposed method can classify the unknown attacks. The results obtained by using benchmark dataset which are: KDD Cup 1999 dataset.

في هذا البحث تم تصميم طريقة جديدة في انظمة الكشف عن الدخلاء ( المتطفلين) للشبكة الحاسوبية الالكترونية, عملية الكشف كانت لسيئي الاستخدام للشبكة من خلال استخدام بيانات تجريبية وتدريبية صنفت عالميا للتمييز بين المستخدمين الاعتياديين والمستخدمين اللذين يهاجمون الشبكة. الطريقة المستخدمة في هذا البحث هي طريقة هجينة بين خوارزمية التمييز العشوائي ( supervised learning random forest) والتي استخدمت في تحديد الخصائص المهمة في الكشف عن المستخدمين السيئين وخوارزمية ( K-nearest Neighbours) والتي استخدمت لعملية الكشف والتصنيف لانواع الهجومات المعروفة والغير معروفة. اضهرت النتائج ان الطريقة المقترحة اعطت دقة عالية في التصنيف واثبتت بان لها فعالية في تصنيف الهجومات الغير معروفة وان العينات المتقدمة كانت عينات عالمية من شركة (KDD Cap 1999) والتي تحتوي على انواع مختلفة من الهجومات .

Keywords

IDS --- Random Forest --- RF --- k-Nearest Neighbour --- kNN

Listing 1 - 4 of 4
Sort by
Narrow your search

Resource type

article (4)


Language

English (4)


Year
From To Submit

2017 (1)

2013 (1)

2012 (2)