TY - JOUR ID - TI - A New Adaptive Method for Extracting Header Words from Official Printed Arabic Documents طريقة جديدة ومتكيفة لأستخراج كلمات الرأس من الوثائق العربية الرسمية المطبوعة AU - Matheel E. Abdulmunim AU - Haithem K. Abass هيثم كريم عباس PY - 2017 VL - 9 IS - 9 SP - 114 EP - 121 JO - AL-yarmouk Journal مجلة اليرموك SN - 20752954 AB - Words extraction techniques from documents have very significant and effective role in document image analysis and retrieval systems. In this paper, a new method has been proposed for detecting and extracting header words from official printed Arabic documents. In the proposed method line of Arabic words with various fonts, styles, and sizes have been extracted from printed Arabic documents with different shapes, colors and resolutions. The extraction of header words based on effective segmentation technique that will separate different objects in a document including text lines, graphics, signature, logo, and other objects. The segmentation operation depends on document analysis that will efficiently predict vertical and horizontal distances between objects in Arabic documents. After segmentation operation, header words detection will performed by using sequence of influential rules within decision tree that correctly detected header words in a document image. Finally, list of header words will extracted as separated text lines from document image. Extracted header words can be utilized in many applications like words matching, words spotting, documents classification, documents retrieval and other applications that depends on words extraction. In this paper, a dataset of different official printed Arabic documents has been constructed and tested by the proposed method. These Arabic documents dataset obtained and gathered from various official institutions websites and offices. The proposed Arabic header words extraction method obtained 96% for recall, 98% for precision and 97% for f-score.

أصبحت لتقنيات استخراج الكلمات من الوثائق دور مهم ومؤثر في انظمة تحليل واسترجاع الوثائق المصورة. تم في هذا البحث اقتراح طريقة جديدة لتحديد واستخراج كلمات الرأس من الوثائق العربية الرسمية المطبوعة. تم في هذه الطريقة استخراج عبارات من الكلمات العربية متنوعة الخطوط والانماط والاحجام من الوثائق العربية المطبوعة المختلفة الاشكال والالوان والدقة. عملية استخراج كلمات الراس تعتمد على تقنية تجزئة فعالة تعمل على فصل مكونات الوثائق المتضمنة النصوص والشعارات والرسومات والتواقيع وغيرها. عملية التجزئة تعتمد على تحليل الوثيقة والتي يمكن من خلالها استنتاج ابعاد المسافات الافقية والعمودية بين المكونات. بعد عملية التجزئة يتم تحديد كلمات الرأس من خلال سلسلة من القواعد المؤثرة مع شجرة اتخاذ القرار التي سوف تحدد يشكل صحيح كلمات الرأس في الوثيقة المصورة. الكلمات المستخلصة يمكن الانتفاع منها في الكثير من التطبيقات مثل مطابقة الكلمات، اكتشاف الكلمات، تصنيف واسترجع الوثائق وغيرها من التطبيقات التي تعتمد على استخراج الكلمات. تم في هذا البحث بناء مجموعة بيانات من وثائق عربية رسمية مطبوعة واختبارها في الطريقة المقترحة. هذه الوثائق العربية تم الحصول عليها وتجميعها من مختلف المواقع الالكترونية الرسمية ومن المكاتب. الطريقة المقترحة لاستخراج كلمات الرأس من الوثائق العرية حصلت على 96% لنسبة الاســتدعاء و98% لنسبة الدقة و97% لمعامل الهدف. ER -