research centers


Search results: Found 17

Listing 1 - 10 of 17 << page
of 2
>>
Sort by

Article
PDF Web Documents Categorization Using Association Rules Mining

Author: Fadhil Hannoon Abbood
Journal: Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات ISSN: 19948638/26640600 Year: 2014 Volume: 6 Issue: 4 اللغة الانكليزية Pages: 125-139
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Loading...
Loading...
Abstract

Documents categorization aims to mapping text documents into one or more predefined class based on its contents. This problem has recently attracted many scholars in the web mining and machine learning communities since the numbers of online documents that hold useful information for decision makers, are numerous. This paper investigates the method of classifying PDF Web documents using association rule mining. The number of PDF documents is collected and analyzed, to detect vital and essential features. Ranks values are suggested for these features. A Mutual Meaning Unify (MMU) technique is proposed for increasing the accuracy of documents representations. To reduce the document vector space, stop words are removed. To reduce the documents terms, a stemming algorithm is using. Because the large number of generated rules, a pruning process is proposed to keep on only the highly distinguishing rules. The resulting rules which construct the classifier are used for categorization process. As a result, the classifier is accurate and operates well, it has accuracy about (97%) and the error rate (3%).

إن تقنية إستكشاف قواعد الإرتباط أُستخدمت لإستخلاص الخصائص وقواعد التصنيف بإستخدام مجموعة من الوثائق المعدة مسبقاً والمعروف أصنافها. لتحقيق أهداف هذا البحث في عملية تصنيف وثائق الويب، تم اعتبار المشكلة من أربعة مهام أساسية وهي، إستخلاص النصوص، إعادة معالجة و تمثيل الوثائق، تكوين المصنف وأخيراً تقييم هذا المصنف. تم جمع عدد من ملفات الوثائق المحمولة وتحليلها لإكتشاف عدد من الخصائص الأساسية والمهمة. نتيجة التحليل أدت إلى أن بعض الخصائص الظاهرية يمكن أن تؤثر بشكل كبير جداً على عملية التصنيف وتحسينه. لذلك، تم تكرارها بعدد معين ضمن النصوص. ولغرض زيادة الدقة في البيانات تم تقديم طريقة الكلمات التبادلية التي لها معنى واحد. قائمة من الكلمات غير الضرورية تم جمعها لغرض حذفها. ومن المعروف أن الكثير من كلمات اللغة الانكليزية تحوي ذيل فوضعت خوارزمية لمعالجة ذلك. تم تشذيب القواعد التي لا تحقق بعض الشروط والمتبقي منها أُستخدم في عملية التصنيف. تم استخدام مقاييس لقياس دقة المصنف، فتبين أن للمصنف دقة عالية جداً وصلت 97% ونسبة خطأ بلغت3%.


Article
Proposed Parallel Association Rules Algorithm
خوارزمية قواعد الارتباط المتوازية المقترحه

Authors: Emad kadhiem Jabbar --- Waheed Abd Al-Kadhiem Salman
Journal: Engineering and Technology Journal مجلة الهندسة والتكنولوجيا ISSN: 16816900 24120758 Year: 2014 Volume: 32 Issue: 1 Part (B) Scientific Pages: 157-168
Publisher: University of Technology الجامعة التكنولوجية

Loading...
Loading...
Abstract

Data mining is an advanced technique for extracting knowledge from a large amount of data for classification, prediction, estimation, clustering or association rules or any activities, which need decision. Mining for associations rules between items in large transactional distributed databases is a central problem in the field of knowledge discovery. When distributed databases are merged at single machine to mining knowledge it will require a large capacity of storage, long execution time in addition to transferring a huge volume of data over network might take extremely long time and also require an unbearable financial cost. In this paper an algorithm is presented toward saving communication cost over the network, central storage cost requirements, and accelerating required execution time. In this paper a new algorithm is proposed, called Proposed Parallel Association Rules Algorithm (PPARA) which aims to extract association rules from one record only for each site from distributed association rules in parallel instead of extracting association rules from huge quantity of distributed data at several sites in parallel, and that is through collecting the one record of local association rules from each site and storing it, these Local Association Rules turn in to produce global association rules over distributed systems in parallel.

تنقيب البيانات هو تقنيه متقدمه لانتزاع المعرفه من كميه ضخمه من البيانات, للتصنيف والتوقع والتخمين والتجميع او لقواعد الارتباط او أي نشاطات, التي تحتاج الى قرار. ان تنقيب قواعد الارتباط بين العناصر في قواعد البيانات الصفقه الكبيره هي مشكله مركزيه في حقل اكتشاف المعرفه. عندما قواعد البيانات الموزعه تدمج في ماكنه واحده لتنقيب المعرفه الذي سيتطلب سعه كبيره من الخزن, وقت تنفيذ طويل بالاضافه الى ذلك تحويل حجم ضخم من البيانات عبر الشبكه قد يستغرق وقت طويل جدا ويتطلب ايظا كلفه ماليه لا تطاق. في هذه الورقةِ خوارزميةَ مُقَدَّمةُ باتجاه توفير كلفه الاتصال عبر الشبكه, ومتطلبات كلف الخزن المركزي , وتعجيل وقت التنفيذ المطلوب. في هذه الورقه خوارزميه جديده تدعى خوارزمية قواعد الارتباط المتوازيه المقترحه, الخوارزميه التي تهدف لانتزاع قواعد الارتباط من سجل واحد فقط لكل موقع من قواعد الارتباط الموزعه بالتوازي بدلا من انتزاع قواعد الارتباط من الكميه الكبيره من البيانات الموزعه في عده مواقع بالتوازي وذلك خلال جمع سجل واحد من قواعد الارتباط المحليه من كل موقع وخزنهم, هذه قواعد الارتباط المحليه تحول لانتاج قواعد الارتباط العامه على الانظمه الموزعه بالتوازي. خوارزمية قواعد الارتباط المتوازيه المقترحه


Article
Web Usage Pattern Discovery Using Time Stamp Association Rules
استكشاف أنماط استخدام شبكة الانترنيت باستخدام قواعد الارتباط المحدد بالوقت

Author: Nidal Ali Hussein نضال علي حسين
Journal: Journal of university of Anbar for Pure science مجلة جامعة الانبار للعلوم الصرفة ISSN: ISSN: 19918941 Year: 2010 Volume: 4 Issue: 2 Pages: 99-104
Publisher: University of Anbar جامعة الانبار

Loading...
Loading...
Abstract

Abstract: Association rules are typically used to describe what items are frequently bought together. One could also use them in web usage mining to describe the pages that are often visited together .The goal of web usage mining is to extract useful knowledge from the data that web servers store about the behaviour of the customers. In this paper, we introduce an extension to association rules by the introduction of time stamp that can give us a better insight into the data. Subsequently, the introduced concepts are used in an experiment to pre-process log files for web usage mining. We also describe how the method could be useful for market basket analysis and give an overview of related research. The paper is concluded by some suggestions for future research.

إن قواعد الارتباط تستخدم لوصف أي المواد التي تشترى بشكل دائم مرتبطة مع بعضها البعض ( أكثر من مادة مرتبطة بالش ا رءمعاً) ، وتستخدم أیضاً لوصف صفحات البحث في شبكات الانترنیت التي غالباً ما ت ا زر من قبل أكثر من زبون (مستخدم) .إن الهدف مناستخدام البحث في شبكات الانترنیت هو الاستخ ا رج المعرفة المفیدة من البیانات التي تم خزنها حول سلوك الزبائن (أي المستخدمین) .نقترحفي هذا البحث تطویر طریقة قواعد الارتباط وذلك باستخدام محددات الوقت ، التي ممكن أن تعطینا طریقة أفضل في البحث عن المعلوماتومعالجة سجلات البیانات على شبكات الانترنیت كتحلیل أسعار السوق وغیرها .ویقدم هذا البحث أیضاً استنتاجات واقت ا رحات لبحوث مستقبلیةذات العلاقة .


Article
Propose Data Mining System to Advance E-Learning Over Online Social Network (Facebook)
مقترح نظام التنقيب لتحسين التعليم خلال الشبكات الاجتماعية (الفيسبوك)

Authors: Soukaena Hassan Hashem --- Sarraa Mowaffaq Abood
Journal: Engineering and Technology Journal مجلة الهندسة والتكنولوجيا ISSN: 16816900 24120758 Year: 2015 Volume: 33 Issue: 3 Part (B) Scientific Pages: 512-527
Publisher: University of Technology الجامعة التكنولوجية

Loading...
Loading...
Abstract

This research presents a proposal to advance e-learning over online social network, facebook, through analyzing the structure of this network and the behavior of their users. This proposalwill construct facebook group for Iraqi postgraduate higher education computer sciences students (IPHECSS), this group consist of 300 users.The Proposal has four consequence steps to advance the e-learning over facebook, these steps are:1.Constructing a proposed student’s facebooks dataset for Iraq students' society called Iraqi postgraduate higher education students (IPHES), which contains self-defined characteristics of a student’s facebooks. 2.Applying customized Frequent Pattern (FP-growth) Association Rule (AR) technique to IPHES dataset as a ranker (since it calculates the frequency of attributes) and mining technique (since it extracts knowledge to predict decision making to support e-learning over facebook through analyzing student’s behavior). 3.Applying Traditional k-mean and proposed Modified k-mean techniques to IPHES dataset to advance the traditional KM in clustering the students to introduce the structure of network’s users; this helps in supporting e-learning over facebok through analyzing students broadcasting and activities. Modification on k-mean is done by injecting a preprocessing substep in traditional KM called attributes weighting depending on ranking results obtained by applying AR as a ranker and modifying Euclidian distance similarity measure to result vectors instead of single value. 4.Analyzing the results of both association rules and clustering using excel2007 and UCINET software.

هذا البحث يقدم مقترح لتطوير التعليم الالكتروني خلال الشبكات الاجتماعية,الفيسبوك, من خلال تحليل هيكلية الشبكة وسلوك مستخدميها.في هذا المقترح سوف نبني بالفيسبوك مجموعة من التعليم العالي لطلاب الدراسات العليا لعلوم الحاسوب ,هذه المجموعة تتكون من 100 طالب.المقترح يتكون من اربع خطوات متسلسلة لتطوير التعليم خلال الفيسبوك, هذه الخطوات هي :اول خطوة للمقترح هي بناء وتجهيز مجموعة البيانات الذي يحتوي على بيانات شخصية للطالب بما في ذلك متغيرات مثل الجامعة, الجنس, سنة التخرج, المتابعة,المتابعين, الفعالية,التواجد وعدم التواجد على الانترنت, الوظيفة, محل الاقامة, المجاميع, اختصاص الطالب, سنة التخرج,الاصدقاء المشتركين.الخطوة الثانية تقترح لتطبيق قاعدة الربط على مجموعة البيانات باعتباره تقنية ضابط مراتب وتعدين لاستخراج انماط متكررة (السمات الهامة مع النظر في العلاقات المتبادلة مع بعضها البعض) ولاستخراج المعرفة للتنبؤ باتخاذ القرار لدعم التعليم الالكتروني. لتطوير الخوارزمية التقليدية بتجميع الطلاب بشكل اكفأk-meanثالث خطوة تقترح استخدام خوارزمية وذلك بضخ خطوة فرعية معالجة مسبقا فيه تسمى اوزان الصفات تعتمد على النتائج التي تم الحصول عليها في نتائج الترتيب التي حصلنا عليها من الخطوة الثانية. لتطوير التعليم الالكتروني خلال الفيسبوك AR و proposed k_meanواخيرا, الخطوة الرابعة تحلل نتائج كلاللتنبؤ بمعلومات جديدة لم تكتشف من قبل UC INET باتجاهين بنية الشبكة وسلوك الطالب. ثم سوف يستخدم برنامج من خلالARو.KM


Article
Combining the Attribute Oriented Induction and Graph Visualization to Enhancement Association Rules Interpretation

Authors: Safaa O. Al-Mamory د. صفاء عبيس المعموري --- Zahraa Najim Abdullah زهراء نجم عبدالله
Journal: Iraqi Journal for Computers and Informatics ijci المجلة العراقية للحاسبات والمعلوماتية ISSN: 2313190X 25204912 Year: 2016 Volume: 42 Issue: 1 Pages: 10-22
Publisher: University Of Informatics Technology And Communications جامعة تكنولوجيا المعلومات و الاتصالات

Loading...
Loading...
Abstract

The important methods of data mining is large andfrom these methods is mining of association rule. The miningof association rule gives huge number of the rules. These hugerules make analyst consuming more time when searchingthrough the large rules for finding the interesting rules. One ofthe solutions for this problem is combing between one of theAssociation rules visualization method and generalizationmethod. Association rules visualization method is graph-basedmethod. Generalization method is Attribute OrientedInduction algorithm (AOI). AOI after combing calls ModifiedAOI because it removes and changes in the steps of thetraditional AOI. The graph technique after combing also callsgrouped graph method because it displays the aggregated thatresults rules from AOI. The results of this paper are ratio ofcompression that gives clarity of visualization. These resultsprovide the ability for test and drill down in the rules orunderstand and roll up.


Article
Modified Bees Swarm Optimization Algorithm for Association Rules Mining
خوارزمية سرب النحل ألامثل المعدلة للتنقيب عن قواعد الارتباط

Authors: Rasha A. Mohammed رشا عبود محمد --- Mehdi G. Duaimi مهدي كزار دعيمي --- Ahmed T. Sadiq احمد طارق صادق
Journal: Iraqi Journal of Science المجلة العراقية للعلوم ISSN: 00672904/23121637 Year: 2017 Volume: 58 Issue: 1B Pages: 364-376
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

Mining association rules is a popular and well-studied method of data mining tasks whose primary aim is the discovers of the correlation among sets of items in the transactional databases. However, generating high- quality association rules in a reasonable time from a given database has been considered as an important and challenging problem, especially with the fast increasing in database's size. Many algorithms for association rules mining have been already proposed with promosing results. In this paper, a new association rules mining algorithm based on Bees Swarm Optimization metaheuristic named Modified Bees Swarm Optimization for Association Rules Mining (MBSO-ARM) algorithm is proposed. Results show that the proposed algorithm can be used as an alternative to the traditional methods.

التنقيب عن قواعد الارتباط هو من الطرق الشائعة والمهمة من مهام التنقيب عن البيانات والتي تهدف بشكل رئيسي الى ايجاد العلائقية بين مجموعة من العناصر في قاعدة البيانات . ومع ذلك فان توليد قواعد ارتباط ذات جودة عالية في وقت مناسب من قاعدة بيانات معينة يعتبر تحدي مهم و صعب خصوصا" مع الازدياد السريع في احجام قواعد البيانات .العديد من خوارميات التنقيب عن قواعد الارتباط قد اقترحت مع نتائج واعدة . هذا البحث يقدم خوارزمية جديدة للتنقيب عن قواعد الارتباط باستخدام خوارزمية سرب النحل الامثل . النتائج اظهرت امكانية استخدام الخوارزمية المقترحة كبديل للطرق التقليدية.


Article
New Replica Selection Technique for Binding Replica Sites in Data Grids

Authors: Rafah M. Almuttairi --- Rajeev Wankar --- Atul Negi --- C. R. Rao --- et al.
Journal: Iraqi Journal for Electrical And Electronic Engineering المجلة العراقية للهندسة الكهربائية والالكترونية ISSN: 18145892 Year: 2010 Volume: 6 Issue: 2 Pages: 186-192
Publisher: Basrah University جامعة البصرة

Loading...
Loading...
Abstract

The objective in Data Grids is to reduce access andfile (replica) transfer latencies, as well as to avoid single sitecongestion by the numerous requesters. To facilitate access andtransfer of the data, the files of the Data Grid are distributedacross the multiple sites. The effectiveness of a replicaselection strategy in data grids depends on its ability to servethe requirement posed by the users' jobs. Most jobs arerequired to be executed at a specific execution time. To achievethe QoS perceived by the users, response time metrics shouldtake into account a replica selection strategy. Total executiontime needs to factor latencies due to network transfer rates andlatencies due to search and location. Network resources affectthe speed of moving the required data and searching methodscan reduce scope for replica selection. This paper presents areplica selection strategy that adapts its criteria dynamically soas to best approximate application providers’ and clients’requirements. We introduce a new selection technique (EST)that shows improved performance over the more commonalgorithms


Article
Hiding Sensitive Frequent Itemsets over Privacy Preserving Distributed Data Mining

Authors: Sufyan T. F. Al-Janabi --- Alaa Kh. Juma'a --- Nazar A. Ali
Journal: AL-Rafidain Journal of Computer Sciences and Mathematics مجلة الرافدين لعلوم الحاسوب والرياضيات ISSN: 18154816 Year: 2013 Volume: 10 Issue: 1 Pages: 91-105
Publisher: Mosul University جامعة الموصل

Loading...
Loading...
Abstract

Data mining is the process of extracting hidden patterns from data. One of the most important activities in data mining is the association rule mining and the new head for data mining research area is privacy of mining. Privacy preserving data mining is a new research trend in privacy data for data mining and statistical database. Data mining can be applied on centered or distributed databases. Most efficient approaches for mining distributed databases suppose that all of the data at each site can be shared. Privacy concerns may prevent the sites from directly sharing the data, and some types of information about the data. Privacy Preserving Data Mining (PPDM) has become increasingly popular because it allows sharing of privacy sensitive data for analysis purposes. In this paper, the problem of privacy preserving association rule mining in horizontally distributed database is addressed by proposing a system to compute a global frequent itemsets or association rules from different sites without disclosing individual transactions. Indeed, a new algorithm is proposed to hide sensitive frequent itemsets or sensitive association rules from the global frequent itemsets by hiding them from each site individually. This can be done by modifying the original database for each site in order to decrease the support for each sensitive itemset or association rule. Experimental results show that the proposed algorithm hides rules in a distributed system with the good execution time, and with limited side effects. Also, the proposed system has the capability to calculate the global frequent itemsets from different sites and preserves the privacy for each site.

إن عملية تنقيب البيانات هي عبارة عن استخلاص الأنماط المخفية من البيانات. وإن التنقيب عن العلاقات الرابطة يعد واحدا من أهم فعاليات تنقيب البيانات والتي أصبح التوجه الحديث للباحثين فيها هو الحفاظ على سرية تلك البيانات المنقب عنها. فالتنقيب المحافظ على خصوصية البيانات هو من أهم توجهات البحوث العلمية الجديدة في خصوصية البيانات وقواعد البيانات الإحصائية. ويمكن تطبيق فعاليات التنقيب هذه على قواعد البيانات المركزية والموزعة. ورغم أن أكثر الأساليب فعالية لقواعد البيانات الموزعة تفترض التنقيب في البيانات التي يمكن تشاركها بين المواقع المختلفة، غير أن تلك الأساليب لم يعد بالإمكان تطبيقها في كثير من الأحيان بسبب المخاوف المتعلقة بخصوصية منع المواقع من تبادل البيانات بشكل مباشر، أو تبادل بعض أنواع المعلومات حول البيانات. لذلك أصبح للتنقيب المحافظ على خصوصية البيانات (PPDM) شعبية متزايدة لأنه يسمح بتبادل البيانات الحساسة الخصوصية لأغراض التحليل.في هذا البحث، تم التصدي لمشكلة الحفاظ على خصوصية التنقيب للعلاقات الرابطة في قاعدة بيانات موزعة أفقيا من خلال اقتراح نظام لحساب العناصر ((itemsets العامة المتكررة أو العلاقات الرابطة من مواقع مختلفة دون الكشف عن المعاملات الفردية. كما نقدم هنا أيضا خوارزمية جديدة لإخفاء هذه العناصر المتكررة الحساسة أو قواعد الرابطة الحساسة من خلال إخفائها في كل موقع على حدة. ويمكن أن يتم ذلك عن طريق تعديل قاعدة البيانات الأصلية لكل موقع من أجل خفض الدعم لكل من العناصر الحساسة أو العلاقات الرابطة. النتائج التي تم الحصول عليها من تطبيق الخوارزمية المفترضة تشير إلى قدرتها على إخفاء العناصر المتكررة الحساسة بوقت تنفيذ جيد وبأقل تأثيرات جانبية. كما أن النظام المفترض استطاع الحصول على العناصر المتكررة العامة للبيانات (Global Frequent Itemset) الموزعة على عدة مواقع مع الحفاظ على خصوصية كل موقع.


Article
Proposal for Enhancing Medical Diagnosis of Disease Related With Patients Environment

Author: Zahraa A. Saed
Journal: Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات ISSN: 19948638/26640600 Year: 2014 Volume: 6 Issue: 1 اللغة الانكليزية Pages: 14-27
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Loading...
Loading...
Abstract

Data mining is a process that uses a variety of data analysis tools to discover patterns and relationships that can be hidden among vast amount of data. This research introduces a proposal to improve and enhance a medical diagnosis using association rules of data mining technique, especially for medical diagnosis of diseases related with patient’s environment. That proposal found new relationships and predications to support early medical diagnosis, that by build a two proposed databases: the first data base contained a basic attributes of blood and tissues for the patients. The second database contained a basic attributes of patients profile and environment. After finding all associations rules from these two proposed databases, these rules will be mixed by a proposed method to gain a new rules give new patterns will predict relations among the physiology and environment of patients and disease.

استخراج البيانات هي العملية التي تستخدم مجموعة متنوعة من أدوات تحليل البيانات لاكتشاف الأنماط والعلاقات التي يمكن أن تكون مخفية بين كمية هائلة من البيانات. هذا البحث يقدم اقتراحا لتحسين وتعزيز التشخيص الطبي باستخدام قواعد رابطة تقنية التنقيب عن البيانات، وخاصة في مجال التشخيص الطبي من الأمراض المرتبطة مع بيئة المريض. وجدت أن الاقتراح علاقات جديدة والتنبؤات لدعم التشخيص الطبي المبكر، وذلك عن طريق بناء قاعدتي بيانات مقترحة: قاعدة البيانات الأولى تحتوي على سمات أساسية من الدم والأنسجة للمرضى. قاعدة البيانات الثانية تحتوي سمات الشخصية الأساسية للمرضى والبيئة. وبعد العثور على جميع القواعد المترابطة من هاتين القاعدتين المقترحتين، سيتم مزج هذه القواعد من خلال طريقة مقترحة للحصول على قواعد جديدة تعطي أنماط جديدة للتنبؤ بالعلاقات بين بيئة المرضى وفسلجة اجسامهم والمرض.


Article
Intrusion Detection and Attack Classifier Based on Three Techniques: A Comparative Study

Authors: Adel Sabry Issa --- Adnan Mohsin Abdulazeez Brifcani
Journal: Engineering and Technology Journal مجلة الهندسة والتكنولوجيا ISSN: 16816900 24120758 Year: 2011 Volume: 29 Issue: 2 Pages: 386-412
Publisher: University of Technology الجامعة التكنولوجية

Loading...
Loading...
Abstract

Different soft-computing based methods have been proposed in recent yearsfor the development of intrusion detection systems. The purpose of this work is todevelopment, implement and evaluate an anomaly off-line based intrusiondetection system using three techniques; data mining association rules, decisiontrees, and artificial neural network, then comparing among them to decide whichtechnique is better in its performance for intrusion detection system. Severalmethods have been proposed to modify these techniques to improve theclassification process. For association rules, the majority vote classifier wasmodified to build a new classifier that can recognize anomalies. With decisiontrees, ID3 algorithm was modified to deal not only with discreet values, but alsoto deal with numerical values. For neural networks, a back-propagation algorithmhas been used as the learning algorithm with different number of input patterns(118, 51, and 41) to introduce the important knowledge about the intruder to theneural networks. Different types of normalization methods were applied on theinput patterns to speed up the learning process. The full 10% KDD Cup 99 traindataset and the full correct test dataset are used in this work. The results of theproposed techniques show that there is an improvement in the performancecomparing to the standard techniques, furthermore the Percentage of SuccessfulPrediction (PSP) and Cost Per Test (CPT) of neural networks and decision treesare better than association rules. On the other hand, the training time for neuralnetwork takes longer time than the decision trees.

Listing 1 - 10 of 17 << page
of 2
>>
Sort by
Narrow your search

Resource type

article (17)


Language

English (15)


Year
From To Submit

2017 (3)

2016 (2)

2015 (1)

2014 (3)

2013 (2)

More...