TY - JOUR ID - TI - Data Mining Techniques for Iraqi Biochemical Dataset Analysis تقنيات تنقيب البيانات لتحليل مجموعة البيانات البيوكيميائية العراقية AU - Suhad Faisal Behadili سهاد فيصل البهادلي AU - Sarah Sameer سارة سمير PY - 2022 VL - 19 IS - 2 SP - 385 EP - 398 JO - Baghdad Science Journal مجلة بغداد للعلوم SN - 20788665 24117986 AB - This research aims to analyze and simulate biochemical real test data for uncovering the relationships among the tests, and how each of them impacts others. The data were acquired from Iraqi private biochemical laboratory. However, these data have many dimensions with a high rate of null values, and big patient numbers. Then, several experiments have been applied on these data beginning with unsupervised techniques such as hierarchical clustering, and k-means, but the results were not clear. Then the preprocessing step performed, to make the dataset analyzable by supervised techniques such as Linear Discriminant Analysis (LDA), Classification And Regression Tree (CART), Logistic Regression (LR), K-Nearest Neighbor (K-NN), Naïve Bays (NB), and Support Vector Machine (SVM) techniques. CART gives clear results with high accuracy between the six supervised algorithms. It is worth noting that the preprocessing steps take remarkable efforts to handle this type of data, since its pure data set has so many null values of a ratio 94.8%, then it becomes 0% after achieving the preprocessing steps. Then, in order to apply CART algorithm, several determined tests were assumed as classes. The decision to select the tests which had been assumed as classes were depending on their acquired accuracy. Consequently, enabling the physicians to trace and connect the tests result with each other, which extends its impact on patients’ health.

يهدف هذا البحث إلى تحليل ومحاكاة بيانات تحاليل الكيمياء الحيوية الحقيقية للكشف عن العلاقات فيما بين التحاليل ، وكيف يؤثر كل منها على الآخرين. تم الحصول على البيانات من مختبر الكيمياء الحيوية العراقي الخاص. كذلك فإن هذه البيانات لها أبعاد عديدة ذات معدل مرتفع من القيم الخالية وأعداد كبيرة من المرضى. بعد ذلك ، تم تطبيق العديد من التجارب على هذه البيانات بدءًا بتقنيات غير خاضعة للرقابة مثل التجمعات الهيكلية وك-الوسائل ، ولكن النتائج لم تكن واضحة. ثم تم تنفيذ خطوة المعالجة المسبقة ، لجعل مجموعة البيانات قابلة للتحليل من خلال تقنيات خاضعة للإشراف مثل التحليل التمييزي الخطي (LDA) ، وشجرة التصنيف والانحدار (CART) ، والانحدار اللوجستي (LR) ، و ك-اقرب جار (K-NN) ، و نايف بايز ( NB) ، وتقنيات آلة ناقل الدعم (SVM). يعطي CART نتائج واضحة بدقة عالية بين الخوارزميات الستة الخاضعة للإشراف. من الجدير بالذكر أن خطوات المعالجة المسبقة تتطلب جهودًا ملحوظة للتعامل مع هذا النوع من البيانات ، نظرًا لأن مجموعة البيانات الخالصة بها العديد من القيم الصفرية بنسبة 94.8٪ ، ثم تصبح 0٪ بعد تحقيق خطوات المعالجة المسبقة. ثم ، من أجل تطبيق خوارزمية CART ، تم افتراض العديد من الاختبارات المحددة كفئات. قرار اختيار الاختبارات التي تم افتراضها على أنها فئات كانت تعتمد على دقتها المكتسبة. وبالتالي ، تمكين الأطباء من تتبع وربط نتائج الاختبارات مع بعضها البعض ، مما يوسع تأثيرها على صحة المرضى. ER -