TY - JOUR ID - TI - Software Engineering-Based Design for a Bayesian Spam Filter تصميم مرشح Bayesian لرسائل الدعاية يعتمد هندسة البرامجيات AU - Mumtaz Mohammed Ali AL-Mukhtar ممتاز محمد علي المختار PY - 2010 VL - 6 IS - 2 SP - 83 EP - 92 JO - Al-Khwarizmi Engineering Journal مجلة الخوارزمي الهندسية SN - 18181171 23120789 AB - The rapid spread and the easy availability of a free e-mail service have made it the medium of choice for the sending of unsolicited advertising and bulk e-mail in general. These messages, known as junk e-mail or spam mail, are an increasing problem to both Internet users and Internet service providers (ISPs).
The research resolves one aspect of the spam problem by developing an appropriate filter for the e-mail client. The proposed filter is a combination of three forms of filters: Whitelist, Blacklist, and a Bayesian filter. Whitelist-based filter only accepts e-mails from known addresses. Blacklist filter blocks e-mails from addresses known to send out spam. Bayesian content-based filter makes estimations of spam probability based on the text and filters messages based on a pre-selected threshold.
The Bayesian filter is selected to be the main filter. The Bayesian filter is manually trained on a set of gathered e-mails; some of them are spam and the others are legitimate based on the contents of an e-mail. Thereafter the classification phase has been implemented for new entered e-mails. All the required databases are constructed in form of tables stored in the Structured Query Language (SQL) server. The filter at the client side can transparently access the database in order to carry on the intended filtering. The proposed system (e-mail client interface and the filters) can manage messages written in both Arabic and English languages which is crucial for the users in our region.
Software engineering principals are implemented throughout the design process to make the system less vulnerable to faults and easily maintained. The design steps have followed the Waterfall-model using the ASCENT software. A user-friendly interface has been developed to access the features of the spam filter at the client side. Visual Basic version 6 has been used to develop the system. As well, the SQL server has been implemented to build and process the database.
A number of performance measurements have been carried out with asset of gathered e-mails. The results are used to evaluate the performance of the filter and to prove its efficiency.

الانتشار االسريع و توفر السهل لخدمة البريد الاكتروني المجاني جعلا منه وسطا مختارا لارسال بريد الاعلانات الغير مرغوبة و بريد الدعاية بشكل عام. هذه الرسائلـ، والمعروفة بالبريد التافه او (spam) مشكلة متزايدة لكل من المستعملين و مزودي خدمة الانترنت (ISP). يقدم البحث حلا لاحدى جوانب مشكلة رسائل الدعاية (spam) من خلال تطوير مرشح ملائم لبريد المستفيد (e-mail client). المرشح المقترح يتكون من ثلاثة اجزاء تعمل معا: القائمة البيضاء (Whitelist)، القائمة السوداء (Blacklist)، و مرشح Bayesian. يسمح مرشح القائمة البيضاء باستقبال الرسائل البريدية من عناوين معروفة للمستفيد. بينما يمنع مرشح القائمة السوداء استقبال الرسائل البريدية من عناوين عرفت بارسالها لرسائل الدعاية. يعتمد مرشح Bayesian في تقديراته على محتوى الرسائل ويرشح هذه الرسائل نسبة ال معيار (threshold) محدد سلفا. تم بناء قواعد البيانات المطلوبة بشكل جداول تخزن في خادم ال SQL. المرشح المقترح للمستفيد يمكن ان يصل الى قواعد البيانات هذه بشكل شفاف لكي يتمكن من تنفيذ الترشيح المطلوب. النظام المقترح يتعامل مع رسائل الدعاية التي تكتب في كلتا اللغتين العربية و الانكليزية و الذي يعتبر امرا هاما للمستفيدين في منطقتنا.تم اعتماد مبادئ هندسة البرامجيات خلال تصميم النظام مما يجعل النظام اقل عرضة للاخطاء وادامته اسهل. خطوات التصميم نفذت باستحدام نموذج Waterfall وبرامجيات ASCENT. تم تطوير واجهة للمستفيد سهلة الاستخدام للحصول على مزايا المرشح المقترح. تم استخدام بيئة Visual Basic 6 لبناء النظام كما استخدم SQL Server لبناء وتنفيذ قواعد البيانات المطلوبة.تم استخدام عدد من مقاييس الاداء و استحصال النتائج التجريبية مع مجموعة من البريد المجموع لتقييم الاداء للمرشح المقترح واثبات كفائته. ER -