research centers


Search results: Found 4

Listing 1 - 4 of 4
Sort by

Article
Investigation of distance effect on Gaussian Mixture Models in Speaker Identification
دراسة تأثير المسافة على موديلات الخليط الكاوسي في تمييز هوية المتكلم

Author: Nada A. GH. Shindala ندى عبد الغني شندالة
Journal: AL Rafdain Engineering Journal مجلة هندسة الرافدين ISSN: 18130526 Year: 2011 Volume: 19 Issue: 5 Pages: 53-65
Publisher: Mosul University جامعة الموصل

Loading...
Loading...
Abstract

Abstract This paper investigate the effect of distance on the Gaussian Mixture Models (GMM) for text dependent speaker identification. Three stages are used for three different distances from the microphone (1m, 2m, and 3m). The set of feature extraction used here include Mel frequency cepstral coefficient (MFCC), Bark frequency cepstral coefficient (BFCC) and linear predictive cepstral coefficient (LPCC). These features are obtained from 20 speakers (10 adults and 10 children) ;all spoke five Arabic words in 5 seconds. The set of classification includes two types GMM and multilayer perceptron neural network (MLP). Total results show that MFCC has the best performance in feature extraction, and GMM has better recognition than MLP as total recognition in GMM is 93.15% and recognition in MLP is 88.06%.The results show also that the recognition rate decreases from 93.15% to 80.82% as the distance is increased from 1m to 3m.

الخلاصةيتناول هذا البحث دراسة تأثير المسافة على موديلات الخليط الكاوسي (GMM) لتمييز هوية المتكلم، استخدمت ثلاث مراحل ولثلاث مسافات مختلفة البعد عن المايكروفون (1 مترو 2 مترو3 متر)، أنواع استخلاص الصفات هي معاملات التردد الميلي (MFCC)و معاملات التردد الباركي (BFCC) ومعاملات التنبؤ الخطي (LPCC) وهذه الطرائق استخلصت من 20 متكلم (10 بالغين، 10 أطفال) وكل متكلم نطق خمس كلمات عربية ولمدة خمسة ثوان .إن طرائق التمييز المستخدمة تتضمن نوعان: الأول موديلات الخليط الكاوسي (GMM)، والثاني الشبكة العصبية متعددة الطبقات (MLP) وأثبتت النتائج إن استخدام طريقة معاملات التردد الميلي هي الأحسن في استخلاص الصفات وطريقة (GMM) هي الأحسن في التمييز، حيث كانت نسبه التمييز في (GMM) %93.15 وفي الشبكة العصبية %88.06. كما بينت النتائج أن نسبة التمييز تقل من%93.1 إلى %80.82 كلما زيدت المسا فه من 1متر إلى 3متر.


Article
A Wavelet Neural Network Ramwork for Speaker Idntifcation

Authors: Saleem M-R. Taha --- Dhiadeen M. Salih --- W.A. Mahmoud
Journal: Journal of Engineering مجلة الهندسة ISSN: 17264073 25203339 Year: 2006 Volume: 12 Issue: 1 Pages: 227-236
Publisher: Baghdad University جامعة بغداد

Loading...
Loading...
Abstract

This paper introduces a new model-free identification methodology to detect and identify speakers and recognize them. The basic module of the methodology is a novel multi-dimensional wavelet neural network . The WNN approach include: a universal approximator ; the time – frequency localization : property of wavelets leads to reduced networks at a given level of performance ; The construct used as the feature mode classifier . Wavelet transform has been successfully applied to the processing of non – stationary speech signal and the feature vector that obtained becomes the input to the wavelet neural network which is trained off-line to map features to used for the classification procedure. An example is employed to illustrate the robustness and effectiveness of proposed scheme.

في هذا البحث تم اقتراح طريقة لنظام تمييز تعتمد على شبكة عصبية للتحويل المتموج ذات الابعاد (wavelet neural network) حيث ان نظرية (WN) يتضمن التحديد الزمني والترددي والتابع للتحويل التموجي مساعدا بتقليل نسبة تعقيد الشبكة وعلى الاساس استخدم هذه الشبكة كمصنف لخصائص لنماذج معينة من صوت كل متكلم حيث يستخلص بطريقة التحويل المتموج المتقطع (Discreet wavelet transform) لعدة مستويات بعد تقسيم كل صوت الى عدد من مقاطع متساوية ومن ثم اخذ الطاقة المعدلة لكل مستوى حيث يتحصل بذلك على متجه ذات معاملات تدل لخصائص الكلمة للمتكلم وبعده يطبق جميع المتجهات المستحصلة لكل متكلم على شبكة التحويل المتموج (WN) وذلك لغرض تعليم الشبكة (Learning face) ومن ثم تطبيق صوت متكلم مجهول على الشبكة للتعرف عليه وقد اعطىت هذه الطريقة عدد اوطىء من الحسابات وبذلك يزيد من كفاءة النظام ويقلل من وقت التنفيذ مقارنة لبقية الشبكات العصبية المستخدمة سابقا. هذه الطريقة تم تطبيقها على حاسبة سرعة معالجها (850 MHz Celeron) و(RAM 128 MB) ولغة برنامج هي MATLTAB 6 . اما قاعدة البيانات فهي مكونة من خمسة وعشرين شخص (12 ذكور و 13 اناث) وقد كانت نسبة التمييز هي 82% مع زمن تعلم للشبكة لايتجاوز 47 ثانية في حالة النص المستقل ونسبة 100% مع زمن تعلم للشبكة تصل الى 155 ثانية في حالة النص المتعمد


Article
Speaker Identification Using Wavelet Transform and Artificial Neural Network

Author: Manal Hadi Jaber
Journal: Engineering and Technology Journal مجلة الهندسة والتكنولوجيا ISSN: 16816900 24120758 Year: 2011 Volume: 29 Issue: 15 Pages: 3242-3255
Publisher: University of Technology الجامعة التكنولوجية

Loading...
Loading...
Abstract

This paper presents an effective method for improving the performance ofspeaker identification system based on schemes combines the multiresolution properly of the wavelet transform and radial basis function neural net works (RBFNN), evaluated its performance by comparing the results with other method. The input speech signal is decomposed into L sub band. To capture the characteristic of the vocal tract, the liner prediction code of each (including the linear predictive code (LPC) for full band) are calculated. The radial basis function neural network (RBFNN) approach is used for matching purpose. Experimental results shows that the speaker identification using the methodsachieve (combines the wavelet and RBFNN) give (100%) identification rateand higher identification rate compared with multi band liner predictivecode, in this paper used Matlab program to prove the results.


Article
Evaluation of Human Voice Biometrics and Frog Bioacoustics Identification Systems Based on Feature Extraction Method and Classifiers
التقييم على انظمة تحديد الصوتيات البشرية والصوتيات الحيوية للضفدع اعتماداً على طريقة استخراج وتصنيف الخصائص

Author: Aws Saad Shawkat أوس سعد شوكت حسن
Journal: Journal of Al-Ma'moon College مجلة كلية المأمون ISSN: 19924453 Year: 2018 Issue: 31 Pages: 176-195
Publisher: AlMamon University College كلية المامون الجامعة

Loading...
Loading...
Abstract

Biometrics is defined as the science of recognizing human by using their personal biological characteristics, for example voice, fingerprint and signature. Biometrics approach has then been implemented for recognizing animal for the purpose of biological and ecological research and development. Due to the research on animal based recognition is still in infancy, so in this study, the evaluation on the effectiveness of the audio based biometric system approach to the bioacoustics identification system is experimented. Bioacoustics based on frog call in order to identify the frog species is employed in this study. Consequently, the well-known features used in audio based biometric system i.e. Mel-frequency Cepstral Coefficients (MFCC) is experimented as features for the frog bioacoustics based identification system. For the classification process, performances of Support Vector Machine (SVM), k-Nearest Neighbor (k-NN), Local Mean k Nearest Neighbor (LMkNN) and Fuzzy k-NN (FkNN) classifiers have been compared in this study. The performances of the biometric system and the frog bioacoustics system based on the proposed classifiers are evaluated. The best performance has been observed using FkNN classifier with the accuracy of 97% for the frog bioacoustics identification system and 93.38% for the biometric speaker identification system with 20 training data.

يتم تعريف القياسات الحيوية كعلم تمييز الإنسان باستخدام خصائصه البيولوجية الشخصية على سبيل المثال الصوت وبصمات الأصابع والتوقيع. ثم تم تطبيق نهج القياسات الحيوية لتمييز الحيوان لغرض البحوث البيولوجية والبيئية والتنمية. ويرجع ذلك إلى كون بحوث التمييز على أساس الحيوان لا يزال في مرحلة الطفولة، لذلك في هذه الدراسة، يتم عمل تقييم فعالية النهج القائم على نظام القياسات الحيوية الصوتية لنظام تحديد الصوتيات الحيوية. يستخدم علم الصوتيات الحيوية على أساس دعوة الضفدع من أجل التعرف على الضفادع الاخرى في هذه الدراسة. ونتيجة لذلك، يتم اختبار الميزات المعروفة المستخدمة في نظام القياسات الحيوية الصوتية مثل استخدام Mel-frequency Cepstral Coefficients (MFCC) كميزات لنظام التعرف على الصوتيات الحيوية للضفدع. أما بالنسبة لعملية التصنيف، فقد تمت مقارنة أداء Support Vector Machine (SVM), k-Nearest Neighbor (k-NN), Local Mean k Nearest Neighbor (LMkNN) and Fuzzy k-NN (FkNN)وقد تم في هذه الدراسة تقييم أداء نظام القياسات الحيوية للضفدع على أساس المصنفات المقترحة. وقد لوحظ أفضل أداء باستخدام FkNN classifier مع دقة 97٪ لنظام التعرف على الصوتيات البيولوجية للضفدع و 93.38٪ لنظام تمييز القياسات الحيوية على المتحدث مع 20 بيانات التدريب.

Listing 1 - 4 of 4
Sort by
Narrow your search

Resource type

article (4)


Language

English (4)


Year
From To Submit

2018 (1)

2011 (2)

2006 (1)