TY - JOUR ID - TI - Toward constructing a balanced intrusion detection dataset based on CICIDS2017 بناء مجموعة بيانات متوازنة لكشف التسلل استنادا الى CICIDS2017 AU - Mahmood Khalel Ibrahem محمود خليل ابراهيم AU - Amer Abdulmajeed Abdulrahman عامر عبد المجيد عبد الرحمن PY - 2020 VL - 2 IS - 3 SP - 132 EP - 142 JO - Samarra Journal of Pure and Applied Science مجلة سامراء للعلوم الصرفة والتطبيقية SN - 26637405 27896838 AB - Several Intrusion Detection Systems (IDS) have been proposed in the current decade. Most datasets which associate with intrusion detection dataset suffer from an imbalance class problem. This problem limits the performance of classifier for minority classes. This paper has presented a novel class imbalance processing technology for large scale multiclass dataset, referred to as BMCD. Our algorithm is based on adapting the Synthetic Minority Over-Sampling Technique (SMOTE) with multiclass dataset to improve the detection rate of minority classes while ensuring efficiency. In this work we have been combined five individual CICIDS2017 dataset to create one multiclass dataset which contains several types of attacks. To prove the efficiency of our algorithm, several machine learning algorithms have been applied on combined dataset with and without using BMCD algorithm. The experimental results have concluded that BMCD provides an effective solution to imbalanced intrusion detection and outperforms the state-of-the-art intrusion detection methods.

تم اقتراح العديد من أنظمة كشف التسلل (IDS) في العقد الحالي. تعاني معظم مجموعات البيانات التي ترتبط بمجموعة بيانات كشف التسلل من مشكلة الفئات الغير متوازنة. تحد هذه المشكلة من أداء المصنف للفئات الاقل. قدمت هذه الورقة تقنية جديدة لمعالجة الخلل في التوازن لمجموعة بيانات متعددة الفئات على نطاق واسع، واشيراليها باسم BMCD. تعتمد خوارزمياتنا على تكييف تقنية أخذ العينات الزائدة للأقليات الاصطناعية (SMOTE) مع مجموعة بيانات متعددة الفئات لتحسين معدل الكشف عن فئات الأقليات مع ضمان الكفاءة. في هذا العمل ، تم دمج خمس مجموعات بيانات CICIDS2017 فردية لإنشاء مجموعة بيانات متعددة الفئات تحتوي على عدة أنواع من الهجمات. لإثبات كفاءة الخوارزمية الخاصة بنا، تم تطبيق العديد من خوارزميات التعلم الآلي على مجموعة البيانات المدمجة مع خوارزمية BMCD وبدونها. وقد خلصت النتائج التجريبية إلى أن BMCD يوفر حلاً فعالًا لاكتشاف الاختراق غير المتوازن ويتفوق على أساليب كشف الاختراق الحديثة ER -