تقييم صحـة العنقـدة

Abstract

ABSTRACT
Clustering is a mostly unsupervised procedure and the majority of the clustering algorithms depend on certain assumptions in order to define the subgroups present in a data set. As a consequence, in most applications the resulting clustering scheme requires some sort of evaluation as regards its validity.
In this paper, we present a clustering validity procedure, which evaluates the results of clustering algorithms on data sets. We define a validity indexes, S_Dbw & SD, based on well-defined clustering criteria enabling the selection of the optimal input parameters values for a clustering algorithm that result in the best partitioning of a data set.
We evaluate the reliability of our indexes experimentally, considering clustering algorithm (K_Means) on real data sets.
Our approach is performed favorably in finding the correct number of clusters fitting a data set.

الملخص
العنقدة هي إجراءات تكون على الأغلب دون مشرف ، واغلب خوارزميات العنقدة تعتمد على افتراضات معينة لغرض تعريف المجاميع الجزئية الموجودة في مجموعة
البيانات.
نتيجة لذلك فان اغلب تطبيقات نماذج العنقدة الناتجة تتطلب شيئا من التقييم لإثبات صحة العنقدة .
في هذا البحث تم عرض إجراء لتقييم نتائج خوارزميات العنقدة في مجموعة البيانات، اذ تم تعريف مؤشري صحة هما S_Dbw و SD يستندان إلى معيار عنقدة كفوء يساهم في تحصيل أفضل قيمة في معاملات البيانات المدخلة لخوارزمية العنقدة والتي تنتج من أفضل تجزئة لمجموعة البيانات.
تم تقييم الوثوقية للموشرات المختارة عمليا ، استناداً إلى خوارزمية العنقدة (K_Means) المطبقة على مجموعة بيانات حقيقية .
يهدف البحث الى إيجاد العدد الصحيح للعناقيد التي تلائم مجموعة البيانات تحت الأختبار. واستخدمت لغة Visual basic 6 في تصميم البرامج وتنفيذها.