research centers


Search results: Found 2

Listing 1 - 2 of 2
Sort by

Article
Isolated Word Speech Recognition Using Mixed Transform
تمييز الكلمات المفصولة باستخدام التحويلات الخليطة

Authors: Shahad Mujeeb Abdul-Razzaq شهد مجيب عبد الرزاق --- Sadiq Jassim Abou-Loukh صادق جاسم ابو اللوخ
Journal: Journal of Engineering مجلة الهندسة ISSN: 17264073 25203339 Year: 2013 Volume: 19 Issue: 10 Pages: 1271-1286
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

Methods of speech recognition have been the subject of several studies over the past decade. Speech recognition has been one of the most exciting areas of the signal processing. Mixed transform is a useful tool for speech signal processing; it is developed for its abilities of improvement in feature extraction. Speech recognition includes three important stages, preprocessing, feature extraction, and classification. Recognition accuracy is so affected by the features extraction stage; therefore different models of mixed transform for feature extraction were proposed. The properties of the recorded isolated word will be 1-D, which achieve the conversion of each 1-D word into a 2-D form. The second step of the word recognizer requires, the application of 2-D FFT, Radon transform, the 1-D IFFT, and 1-D discrete wavelet transforms were used in the first proposed model, while discrete multicircularlet transform was used in the second proposed model. The final stage of the proposed models includes the use of the dynamic time warping algorithm for recognition tasks. The performance of the proposed systems was evaluated using forty different isolated Arabic words that are recorded fifteen times in a studio for speaker dependant. The result shows recognition accuracy of (91% and 89%) using discrete wavelet transform type Daubechies (Db1) and (Db4) respectively, and the accuracy score between (87%-93%) was achieved using discrete multicircularlet transform for 9 sub bands.

طرائق تمييز الكلام كان موضوع كثير من الدراسات خلال العقد الماضي. الكلام هو الطريقة الطبيعية للتواصل بين البشر ويعتبر تمييز الكلام واحد من المجالات المهمة في معالجة الإشارة. التحويلات الخليطة هي أداة مفيدة في معالجة إشارة الكلام، وقد تم تطويرها من اجل تحسين تمثيل الإشارة المستخلصة. يتضمن تمييز الكلام ثلاث أجزاء أساسية: معالجة مسبقة للإشارة، استخلاص الميزات، والتصنيف. تتاثر دقة تمييزالكلام بمرحلة استخلاص الميزات لذلك فقد تم اقتراح نماذج مختلفة من التحويلات الخليطة. ان خصائص الكلمات المسجلة ستكون احادية الابعاد (1-D) مما سيمكننا تحويلها الى صيغة ثنائية الابعاد (2-D). المرحلة الثانية في التصنيف تتطلب تطبيق التحويلات الخليطة، تحويل فورير ثنائي الابعاد يطبق على الإشارة ثنائية الأبعاد ثم تحويل رادون ثم تحويل فورير المعكوس احادي البعد. بعد ذلك تم استخدام تحويل المويجي المتقطع في النموذج الأول، بينما تم استخدام التحويل الدائري المتعدد في النموذج الثاني. المرحلة النهائية تتضمن استخدام تحويل الزمن الديناميكي لغرض التمييز بين الكلمات. أربعون كلمة عربية مسجلة بخمسة عشر زمن مختلف في الاستوديو بواسطة متكلم واحد استخدمت كقاعدة بيانات في هذا العمل. أداء كل الطرق المستخدمة تم تحليلها وتقييمها بواسطة الحاسوب باستخدام لغة MATLAB (2010a) .إن دقة تمييز الكلام في النموذج الأول تساوي (91% and 89%) عندما استعمل التحويل المويجي المتقطع نوع Db4 وDb1 على التوالي بينما كانت الدقة في النموذج الثاني بين 87%-93%)) عندما استخدمت تسعة أحزمة مختلفة من التحويل الدائري المتعدد.


Article
Speech Recognition using Wavelets and Improved SVM

Loading...
Loading...
Abstract

Speaker recognition (identification/verification) is the computing task of validating a user’s claimed identity using speaker specific information included in speech waves: that is, it enables access control of various services by voice. Discrete Wavelet Transform (DWT) based systems for speaker recognition have shown robust results for several years and are widely used in speaker recognition applications. This paper is based on text independent speaker recognition system that makes use of Discrete Wavelet Transform (DWT) as a feature extraction and kernel Support Vector Machine (SVM) approach as a classification tool for taking the decision through applying simplified-Class Support Vector Machine approach. The proposed SVM approach can convert local Euclidean distances between frame vectors to angles by projecting these d-dimensional vectors together, and get the minimum global distance from the non-linear aligned speech path in order to address audio classification, and hence, sound recognition.The DWT for each frame of the spoken word are taken as a tool for extracting the main feature as a data code vectors, next these data is normalized utilizing the normalized power algorithm that is used to reduce the number of feature vector coefficients then these data is scaled and tested with those stored of the training spoken words to achieve the speaker identification tasks, also the DWT gives fixed amount of data that can be utilized modesty by SVM. Finally, the proposed method is tested and trained upon a very large data base with results limited to ten speakers only (5 males and 5 females) with words of maximally 17 phenomena and its performance gives an accurate and stable results which rises the algorithm efficiency and reduce the execution time with 97% overall accuracy.

يعتبر تمييز المتكلم (تحديد الهوية والتحقق) من المهام الحسابية للتحقق من صحة المتكلم باستخدام معلومات موجات الكلام لنمكن الوصول للخدمات المختلفة بالصوت. تحويل المويجات المتقطعة (DWT) تم استعمالها لاستخلاص مويجات الصوت وقد اثبتت كفائتها لسنوات عدة على نطاق واسع في تطبيقات التعرف على المتكلم. في هذا العمل استعمل تحويل المويجات المتقطعة (DWT) مع نصوص الصوت المستقلة للمتكلم لاستخراج مميزات الصوت ثم استعمال ال ( SVM ) كمصنف, حيث تم تطبيق تصنيف سهل ( SVM ) لقياس المسافة بين متجهات الصوت وتحويلها لزوايا ليسهل استخراج الاصغر بينهم رغم تباين مقايس الاداء للصوت. يقوم ال (DWT) باستخراج ميزات كل الكلمة المنطوقة كمتجهات مصفوفة للبيانات ثم عمل تسوية normalize ) ) بالنسبة للقدرة لتقليل عدد معاملات البيانات التي ستدخل للمصنف SVM) ) كأداة لاتخاذ القرار من خلال عمل التدريب ومعرفة الكلمات المطلوبة , ومن سمات ال (DWT) هو استخراجه لكمية ثابتة من البيانات والتي يستفاد منها ال SVM) ) على اعتبار سهولة عمل المصنفات مع البيانات الثابتة. وأخيراً، تم اختبار الأسلوب المقترح بناء على قاعدة بيانات كبيرة جدا مع اخذ النتائج من عشرة متكلمين فقط (5 من الذكور و 5 من الإناث) مع كلمات أقصى حد لها 17 صوت للكلمة وترتفع كفاءة الخوارزمية ويقل وقت التنفيذ بنسبة .97%

Listing 1 - 2 of 2
Sort by
Narrow your search

Resource type

article (2)


Language

English (2)


Year
From To Submit

2013 (2)