@Article{, title={A Hybrid Method of Linguistic and Statistical Features for Arabic Sentiment Analysis دمج الاليات اللغوية والاحصائية لتحليل الرأي في اللغة العربية}, author={Ahmed Sabah Ahmed AL-Jumaili احمد صباح احمد الجميلي and Huda Kadhim Tayyeh هدى كاظم تايه}, journal={Baghdad Science Journal مجلة بغداد للعلوم}, volume={17}, number={1 Supplement}, pages={385-390}, year={2020}, abstract={Sentiment analysis refers to the task of identifying polarity of positive and negative for particular text that yield an opinion. Arabic language has been expanded dramatically in the last decade especially with the emergence of social websites (e.g. Twitter, Facebook, etc.). Several studies addressed sentiment analysis for Arabic language using various techniques. The most efficient techniques according to the literature were the machine learning due to their capabilities to build a training model. Yet, there is still issues facing the Arabic sentiment analysis using machine learning techniques. Such issues are related to employing robust features that have the ability to discriminate the polarity of sentiments. This paper proposes a hybrid method of linguistic and statistical features along with classification methods for Arabic sentiment analysis. Linguistic features contains stemming and POS tagging, while statistical contains the TF-IDF. A benchmark dataset of Arabic tweets have been used in the experiments. In addition, three classifiers have been utilized including SVM, KNN and ME. Results showed that SVM has outperformed the other classifiers by obtaining an f-score of 72.15%. This indicates the usefulness of using SVM with the proposed hybrid features.

تحليل الآراء هي عملية إيجاد تصنيف إيجابي أو سلبي لنص يحتمل احتوائه على آراء. اللغة العربية واحدة من اللغات التي تضخم محتواها بشكل كبير في العقد السابق وخصوصا مع تصاعد وسائل الاتصال الاجتماعي مثل تويتر، فيسبوك وآخرين. دراسات كثيرة عاينت مهمة تحليل الآراء في اللغة العربية باستخدام تقنيات متعددة. أحد أكفأ الطرق المستخدمة في الدراسات السابقة كانت تعود لتقنيات تعلم الآلة وذلك لقدرتها على بناء قاعدة من التعلم من الحالات السابقة. مع ذلك هنالك قضايا كثيرة ممكن أن تواجه تقنيات تعلم الآلة في مهمة تحليل الرأي. واحدة من هذه القضايا هي كيفية إيجاد خصائص دقيقة في اللغة العربية التي بدورها ممكن أن تساعد على التفريق بين الآراء السلبية والإيجابية. هذه الدراسة تهدف الى اقتراح خليط من الادوات اللغوية والاحصائية في سبيل الحصول على خصائص مميزة لتحليل الرأي في اللغة العربية. الأدوات اللغوية تحتوي على تقنيات إرجاع الكلمة لأصلها وتصنيف الكلمات بالنسبة لنوعها النحوي، بينما الادوات الاحصائية تحتوي على تقنيات إيجاد أكثر الكلمات ترددا. تمت التجاربباستخدام قاعدة بيانات لآراء باللغة العربية . بالإضافة الى ذلك، تم استخدام ثلاث أنواع من تقنيات تعلم الآلة وهم (اس في ام)، (كي ان ان) و (ام اي). النتائج أظهرت بأن الـ (اس في ام) تفوقت على الطرق الأخرى باستخدام الخصائص المقترحة وذلك بحصولها على دقة تساوي 72.15 بالمئة. تشير هذه النتائج الى فائدة استخدام الـ (اس في ام) مع الخصائص المقترحة في تصنيف الآراء باللغة العربية.} }