@Article{, title={Arabic Speech Classification Method Based on Padding and Deep Learning Neural Network طريقة تصنيف الكلام العربي على أساس الحشو والشبكة العصبية للتعلم العميق}, author={Asroni Asroni آرسوني آرسوني and Ku Ruhana Ku-Mahamud كوروهانا كو محمود and Cahya Damarjati كحيا دمارجاتي and Hasan Basri Slamat حسن بصري سلامات}, journal={Baghdad Science Journal مجلة بغداد للعلوم}, volume={18}, number={2 ملحق}, pages={925-936}, year={2021}, abstract={Deep learning convolution neural network has been widely used to recognize or classify voice. Various techniques have been used together with convolution neural network to prepare voice data before the training process in developing the classification model. However, not all model can produce good classification accuracy as there are many types of voice or speech. Classification of Arabic alphabet pronunciation is a one of the types of voice and accurate pronunciation is required in the learning of the Qur’an reading. Thus, the technique to process the pronunciation and training of the processed data requires specific approach. To overcome this issue, a method based on padding and deep learning convolution neural network is proposed to evaluate the pronunciation of the Arabic alphabet. Voice data from six school children are recorded and used to test the performance of the proposed method. The padding technique has been used to augment the voice data before feeding the data to the CNN structure to developed the classification model. In addition, three other feature extraction techniques have been introduced to enable the comparison of the proposed method which employs padding technique. The performance of the proposed method with padding technique is at par with the spectrogram but better than mel-spectrogram and mel-frequency cepstral coefficients. Results also show that the proposed method was able to distinguish the Arabic alphabets that are difficult to pronounce. The proposed method with padding technique may be extended to address other voice pronunciation ability other than the Arabic alphabets.

تم استخدام الشبكة العصبية لالتفاف التعلم العميق على نطاق واسع للتعرف على الصوت أو تصنيفه. تم استخدام تقنيات مختلفة مع الشبكة العصبية الالتفافية لإعداد البيانات الصوتية قبل عملية التدريب في تطوير نموذج التصنيف. ومع ذلك ، لا يمكن لجميع النماذج إنتاج دقة تصنيف جيدة نظرًا لوجود العديد من أنواع الصوت أو الكلام. ان تصنيف الفاظ الأبجدية العربية هو أحد أنواع الصوت والنطق الدقيق المطلوب في تعلم قراءة القرآن. وبالتالي ، تتطلب تقنية معالجة النطق وتدريب البيانات المعالجة نهجًا محددًا. وللتغلب على هذه المشكلة ، تم اقتراح طريقة تعتمد على الحشو والشبكة العصبية لالتفاف التعلم العميق لتقييم نطق الأبجدية العربية. وقد تم تسجيل البيانات الصوتية لستة أطفال في المدارس واستخدامها لاختبار أداء الطريقة المقترحة. تم استخدام تقنية الحشو لزيادة البيانات الصوتية قبل تغذية البيانات إلى بنية CNN لتطوير نموذج التصنيف. بالإضافة إلى ذلك ، تم تقديم ثلاث تقنيات أخرى لاستخراج الميزات لتمكين مقارنة الطريقة المقترحة التي تستخدم تقنية الحشو. أداء الطريقة المقترحة مع تقنية الحشو هو على قدم المساواة مع الطيف ولكن أفضل من ميل الطيف ومعاملات cepstral التردد ميل. كما أظهرت النتائج أن الطريقة المقترحة كانت قادرة على تمييز الحروف الهجائية العربية التي يصعب نطقها. يمكن توسيع الطريقة المقترحة مع تقنية الحشو لمعالجة قدرة نطق الصوت الأخرى بخلاف الحروف الهجائية العربية.} }