Fulltext

Proposed Method to Enhance Text Document Clustering Using Improved Fuzzy C Mean Algorithm with Named Entity Tag

طریقة مقترحة لتحسین عنقدة الوثائق النصیة باستخدام خوارزمیة العنقدة المضببة المحسنة مع علامات اسماء الكیانات

Raghad M. Hadi رغد محمد ھادي --- Soukaena H. Hashem سكینة حسن ھاشم --- Abeer T. Maolood عبیر طارق محمود

AL-MANSOUR JOURNAL مجلة المنصور
ISSN: 18196489 Year: 2017 Issue: 28 Pages: 43-62
Publisher: Private Mansour college كلية المنصور الاهلية

Abstract

Text document clustering denotes to the clustering of correlated textdocuments into groups for unsupervised document society, text datamining, and involuntary theme extraction. The most common documentrepresentation model is vector space model (VSM) which embodies a setof documents as vectors of vital terms, outmoded document clusteringmethods collection related documents lacking at all user contact. Theproposed method in this paper is an attempt to discover how clusteringmight be better-quality with user direction by selecting features to separatedocuments. These features are the tag appear in documents, like NamedEntity tag which denote to important information for cluster names in text,through introducing a design system for documents representation modelwhich takes into account create combined features of named entity tagand use improvement Fuzzy clustering algorithms.The proposed method is tested in two levels, first level uses only vectorspace model with traditional Fuzzy c mean, and the second level usesvector space model with combined features of named entity tag and useimprovement fuzzy c mean algorithm, through uses a subset of Reuters21578 datasets that contains 1150 documents of ten topics (150)document for each topic. The results show that using second level asclustering techniques for text documents clustering achieves goodperformance with an average categorization accuracy of 90%.

عنقدة الوثائق النصیة یعني تجمیع الوثائق والنصوص المتشابھة الى عناقید وھذا التجمیع للوثائق غیرخاضع للرقابة ، عند استخراج البیانات المھمة من النص وأستخراج موضوع غیر الطوعي. النموذج الأكثرالذي یجسد مجموعة من الكلمات المھمة الموجودة (VSM) شیوعا لتمثیل الوثائق ھو نموذج متجھ الفضاءفي الوثائق ، والاسالیب القدیمة في تجمیع الوثائق المتعلقة كانت تفتقر الى اتصال المستخدم. النظام المقترحفي ھذا البحث حاول أكتشاف كیفیة تجمیع ھذه الوثائق كي تعطي جودة أفضل مع تدخل المستخدم عنطریق تحدید ملامح لفصل ھذه الوثائق. ھذه المیزات تظھر كالعلامات في الوثائق، مثل علامات الكیانالمسماة التي تدل على معلومات ھامة عن أسماء تستخدم للتصنیف في النص، من خلال تصمیم نظاممع میزات (VSM) یستخدم لتمثیل الوثائق والذي یأخذ في نظر الاعتبار إنشاء نموذج الفضاء ناقلاتمشتركة من كیان مسمى بالعلامات ویستخدم خوارزمیة تحسین العنقدة المضببة. تم اختبار النظام فيمع VSM التقلیدي، ویستخدم المستوى الثاني FCM مع VSM مستویین، یستخدم المستوى الأول الوحیدالخوارزمیة، من خلال استخدام مجموعة FCM میزات مشتركة من ا لكیان مسمى مع استخدام تحسینفرعیة من بیانات رویترز 21578 قاعدة البیانات التي تحتوي على 1150 وثیقة متكونة من عشرة مواضیعو( 150 ) وثیقة لكل موضوع. وأظھرت النتائج أن استخدام المستوى الثاني قد حقق أداء جیدا مع متوسط دقةتصنیف 90 ٪ مقارنة مع ثقنیات تجمیع الوثائق النصیة الاخرى.

Keywords

Fuzzy clustering --- documents datasets --- information extraction --- named entity