research centers


Search results: Found 2

Listing 1 - 2 of 2
Sort by

Article
Privacy Preserving in Data Mining
أبقاء السريه في تعدين البيانات

Authors: Heba Adnan Raheem --- Safaa O. Al-Mamory
Journal: journal of kerbala university مجلة جامعة كربلاء ISSN: 18130410 Year: 2014 Volume: 12 Issue: 3 Pages: 179-195
Publisher: Kerbala University جامعة كربلاء

Loading...
Loading...
Abstract

Privacy preserving data mining is a latest research area in the field of data mining. It is defined as “protecting user’s information”. Protection of privacy has become an important in data mining research because of the increasing ability to store personal data about users and the development of data mining algorithms to infer this information. The main goal in privacy preserving data mining is to develop a system for modifying the original data in some way, so that the private data and knowledge remain private even after the mining process. In this paper we proposed system that used PAM clustering algorithm in health datasets in order to generate set of clusters, then we suggested to select only one cluster to be hidden between another clusters in order to increasing the privacy of users information .The selected cluster are considered as sensitive cluster. Protecting the sensitive cluster is done by using privacy techniques through of modifying the data values(attributes) in the dataset. We suggest to use randomization techniques )Additive Noise , Data Swapping( and Data copying (which it is new suggested technique in this thesis) to prevent attacker from concluding users privacy information in the sensitive cluster. After modification the same clustering algorithm is applied for modified data set to verify whether the selected cluster are hidden or not. Experimental results on these proposed techniques proved that the PAM algorithm is efficient for clustering in all data sets and the selected cluster are protected efficiently by using (Additive Noise , Data Swapping, Data Copying) techniques. These techniques are applied on Wisconsin breast cancer, diabetes and heart stat log data set. The privacy ratio on heart stat log data set was 48%, 52.1739 % and 31.25% in Data Copying, Additive Noise and Data Swapping techniques, respectively, because these kinds of data sets have the special property that they are extremely sparse. Experimental results also proved that the Data copying technique is faster than the existing techniques (swapping and noise addition), finally the results of proposed system proved that the distortion of data can be reduced when the privacy ratio was increased. These are an important issues in PPDM, therefore the proposed system is highly successful in achieving the protection of privacy.

الحفاظ على خصوصية تنقيب البيانات هو أحدث مجال بحوث التنقيب عن البيانات. وتعرف بأنها " حماية معلومات المستخدم " . أصبحت حماية الخصوصية ذات أهمية في مجال البحوث وتنقيب البيانات بسبب زيادة القدرة على تخزين بيانات شخصية عن المستخدمين ، وتطوير خوارزميات التنقيب عن البيانات للاستدلال على هذه المعلومات.الهدف الرئيسي في الحفاظ على خصوصية تنقيب البيانات هو تطوير نظام لتعديل البيانات الأصلية بطريقة ما، بحيث أن البيانات الخاصة والمعرفة تبقى سريه حتى بعد انتهاء عملية التعدين.في هذا البحث اقترحنا نظاما يستخدم خوارزمية التجمع PAM في مجموعات بيانات طبيه لغرض توليد مجموعه من العناقيد ، ثم أقترحنا أختيار عنقود واحد فقط لكي يخفى بين العناقيد الأخرى لغرض زيادة سرية معلومات المستخدمين . أن العنقود المختار يعتبر كعنقود حساس.حماية العنقود الحساس تتم باستعمال تقنيات السريه ومن خلال تعديل قيم البيانات( الصفات) في قاعدة البيانات. ثم أقترحنا أستخدام تقنيات البعثره العشوائية ( الضوضاء المضافة ، نسخ البيانات ) ومبادلة البيانات (وهي طريقه جديده مقترحه في هذه الأطروحه) لمنع المهاجمين من أستنتاج معلومات الأفراد االسريه في التجمع الحساس. بعد التعديل نفس خوارزمية التجمع تطبق على قاعدة البيانات المحدثه للتحقق من أن العنقود الذي تم أختياره مخفي أم لا.النتائج التجريبية على هذه التقنيات المقترحة أثبتت أن الخوارزمية PAM فعالة للتجميع في جميع مجموعات البيانات وأن الكتلة المحددة تم حمايتها بكفاءة باستخدام تقنيات( الضوضاء المضافة ، مبادلة البيانات ، نسخ البيانات).هذه التقنيات تم تطبيقها على بيانات سرطان الثدي , مجموعة بيانات السكري وبيانات سجل معلومات القلب.نسبة السريه لبيانات سجل معلومات القلب كانت ,48% ,52.1739% 31.25% في تقنيات مبادلة البيانات, الضوضاء المضافة , نسخ البيانات , على التوالي , لأن هذه الأنواع من مجموعات البيانات لديها مواصفات خاصة حيث تمتاز بأنها متناثره للغاية . أثبتت النتائج التجريبيه أيضا أن تقنية مبادلة البيانات أسرع من التقنيات الحاليه الموجوده(التبديل وأضافة الضوضاء), أخيرا نتائج النظام المقترح أثبتت أن تشويه البيانات يمكن أن يخفض عندما نسبة الخصوصية تزداد .هذه القضايا مهمه في عملية حفظ الخصوصيه (السريه) في تعدين البيانات، لذا فأن النظام المقترح ناجح جدا في تحقيق حماية السريه.

Keywords


Article
Privacy Preserving in Data Mining Using PAM Clustering Algorithm

Authors: Heba A. Raheem --- Safaa O. Al-Mamory
Journal: Journal of University of Babylon مجلة جامعة بابل ISSN: 19920652 23128135 Year: 2014 Volume: 22 Issue: 9 Pages: 2266-2276
Publisher: Babylon University جامعة بابل

Loading...
Loading...
Abstract

“Data mining is the extraction of hidden predictive information from large databases and also a powerful new technology with great potential to analyze important information in the data warehouses. Privacy preserving data mining is a latest research area in the field of data mining which generally deals with the side effects of the data mining techniques. Privacy is defined as “protecting individual’s information”. Protection of privacy has become an important issue in data mining research”(S.Vijayarani et al.,2011) . Clustering is a division of data into groups of similar objects. In this paper we have used PAM clustering algorithms in health datasets. The cluster selected to be hided are considered as sensitive cluster. This sensitive cluster is protected by using Additive Noise Perturbation random method.

تعدين البيانات هي أنتزاع المعلومات التنبؤيه المخفيه من قواعد البيانات الكبيره وأيضا تقنيه جديده قويه ذات أمكانيه عظيمه لتحليل معلومات مهمه في مخازن البيانات. أبقاء السريه في تعدين البيانات هي آخر منطقة بحث في حقل تنقيب البيانات والتي هي بصورهعامه تتعامل مع الآثار الجانبيه لتقنيات تنقيب البيانات.السريه معرفه على أنها"حماية معلومات الفرد".حماية السريه أصبحت قضيه مهمه في بحث تعدين البيانات. في هذا البحث استخدمنا خوارزمية التجمعأو العنقده PAM في بيانات طبيه. والعنقده هي تقسيم البيانات الى مجموعة كيانات أوقيود متماثله.العنقود الذي يتم أختياره ليكون مخفيا يعتبر على أنه عنقود حساس(مهم).وتتم حمايته بأستخدام خوارزمية اضافة ضوضاء عشوائية . Additive Noise Perturbation Randome Method

Listing 1 - 2 of 2
Sort by
Narrow your search

Resource type

article (2)


Language

English (2)


Year
From To Submit

2014 (2)