《電子技術應用》
您所在的位置:首頁 > 測試測量 > 設計應用 > 基于VQ-MAP與LS-SVM融合的說話人識別系統
基于VQ-MAP與LS-SVM融合的說話人識別系統
來源:電子技術應用2010年第6期
展 領, 景新幸
桂林電子科技大學 信息與通信學院, 廣西 桂林 541004
摘要: 傳統的最小二乘支持向量機(LS-SVM)使用特征向量作為訓練樣本,在說話人識別系統中應用時區分性不夠明顯。對此,提出VQ-MAP與LS-SVM融合的方法,使用通用背景模型(UBM)經過VQ-MAP過程得到說話人自適應參數集,把此參數集作為最小二乘支持向量機的訓練樣本應用于說話人識別系統中。用Matlab進行仿真實驗,結果表明,該識別系統SVM訓練時間短,且具有較高的識別率。
中圖分類號: TP391.4
文獻標識碼: A
Speaker recognition system based on VQ-MAP and LS-SVM
ZHAN Ling, JING Xin Xing
Information & Communication College, Guilin University of Electronic Technology, Guilin 541004,China
Abstract: Feature vectors used as the training samples of the traditional least square support vector machines does not give enough information to discriminate the voice in speaker recognition system. To solve this problem,this paper proposes the method based on VQ-MAP and LS-SVM. Adaptive parameter sets are got through VQ-MAP procedure using universal background model and are used as the training samples of LS-SVM in speaker recognition system. According to the results of simulation using Matlab, speaker recognition system based on VQ-MAP and LS-SVM uses less the training time of SVMs and it also has high recognition rate.
Key words : MAP; VQ; LS-SVM; speaker recognition

    說話人識別是從說話人的一段語音中提取出說話人的個性特征,通過對這些個性特征的分析和識別,從而達到對說話人進行辨認或者確認的目的。它可以分為兩個范疇:說話人辨認和說話人確認。說話人辨認是辨認出待識別的語音是來自待考察的個人中的哪一個;而說話人確認則是特定的參考模型和待識別模式之間的比較,系統只做出“是”或“不是”的二元判決[1]。
 Ville Hautamaki[2]等人提出了最大后驗概率矢量量化(VQ-MAP)過程,它可以看作是GMM-MAP的一種特殊形式;Suykens等人[3]提出了最小二乘支持向量機LS-SVM的概念,而志平等人[4]將最小二乘向量機應用在說話人識別系統中,并取得了較好的效果。
 VQ-MAP過程首先只依照均值對通用背景模型UBM(Universal Bakground Model)進行聚類,然后應用VQ-MAP過程來更新自適應參數,由此訓練語音未覆蓋到的部分就可以用UBM中說話人無關的特征分布近似,以減小訓練語音太短帶來的影響。將得到的自適應參數集作為最小二乘向量機的訓練樣本,在說話人識別中進行應用,取得了較好的效果。本文介紹了VQ-MAP和LS-SVM融合的說話人識別系統,并在說話人識別中進行了應用。
1 VQ-MAP過程
 在說話人識別中,可以使用訓練集中的發音數據對UBM進行參數自適應來得到發音人的模型。高斯混合模型在最大后驗概率自適應(GMM-MAP)過程中需要更新3種參數:權值、均值向量和協方差矩陣。VQ-MAP過程是GMM-MAP的一種特殊形式,它只依照均值向量來得到新的自適應說話人模型。依照均值向量為參數用K均值聚類算法對UBM進行聚類,從而得到一組均值核心矢量:

2 最小二乘支持向量機[3-4]
    Suykens等人[3]在SVM的優化函數中引入方差項,并將SVM中的不等式約束條件改為等式約束,提出了一種以二次等式約束條件為基礎的改進型向量機即最小二乘向量機(LS-SVM)。這樣LS-SVM的求解問題從標準SVM的二次函數尋優問題轉換為線性方程求解問題, 解決了二次尋優算法費時且不易用于實時數據處理的問題,從而大大地簡化了問題的復雜性[4]。
      
    方程的最優性條件如下:

3 融合算法
3.1選擇樣本


設計1個SVM,分別標記這2個說話人自適應參數集為{+ 1,- 1}類,將每幀測試語音特征矢量輸入到1個訓練支持向量機中,對每幀矢量判別是哪一類,當所有的測試語音特征矢量判別完畢后, 采用投票方法判決,得票最多者就為目標說話人。
 實驗1:同一語音庫下,隨著說話人人數的變化,VQ-MAP和LS-SVM融合的說話人識別系統與基于LS-SVM的說話人識別系統中SVM訓練時間進行對比,兩個系統中LS-SVM均采用徑向基核函數,取γ=0.125,結果如圖1所示。

 由圖1可以看出,隨著說話人數越多,所需SVM訓練時間越長。當說話人數為50時,應用VQ-MAP和SVM融合的系統SVM訓練時間僅僅是直接用LS-SVM訓練時間的36.6%。這是因為直接用LS-SVM時,把每個說話人所有幀的特征向量都作為輸入矢量來訓練SVM,而在VQ-MAP和LS-SVM融合方法中,只把VQ-MAP自適應更新模型中的K個向量作為輸入矢量訓練SVM,大大減少了運算量,因而提高了識別速度。
    實驗2:同一語音庫下,VQ-MAP和LS-SVM融合的說話人識別系統與基于LS-SVM的說話人識別系統識別率進行對比,比較結果如表1所示。

    從表1可以看出,隨著測試時長的增加, VQ-MAP和LS-SVM融合方法識別率不斷提高,且明顯高于LS-SVM方法。這是因為在VQ-MAP算法中,采用了均值矢量通過UBM進行自適應來得到說話人模型,在訓練語音未覆蓋到的部分就可以用UBM中說話人無關的特征分布近似,減小訓練語音太短帶來的影響,從而為提高識別率打下良好的基礎。
    本文介紹的VQ MAP和LS-SVM融合說話人識別系統,比直接應用LS-SVM訓練效率提高了36.6%,且識別率也高于LS-SVM方法,尤其是在測試時長為8 s時,比傳統的LS-SVM方法識別率提高了4.2%,為在說話人識別系統中使用多系統融合提供了新的途徑,是一種行之有效的方法。
參考文獻
[1] 趙力.語音信號處理[M]. 北京:機械工業出版社,2003.
[2] HAUTAMAKI V, KINNUNEN T, KARKKAINEN I. Maximum a posteriori adaptation of the centroid Model for  Speaker Verification[J]. IEEE Signal Process. Lett.2008,15:162-165.
[3] SUYKENS J K, VANDEWALLE J. Least squares support vector machine classifiers[J].Neural Processing Letter,1999,9(3):293-300.
[4] 但志平,鄭勝. 基于最小二乘向量機的說話人識別研 究[J]. 計算機工程與應用,2007(7):49-51.
[5] 趙虹,韋麗華.基于支持向量機的說話人識別研究[J].現代電子技術,2008(6):123-127.

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 国产又黄又大又粗的视频| 天堂网www在线资源| 亚欧免费无码aⅴ在线观看| 爽爽影院色黄网站在线观看| 四影虎影ww4hu32海外| 鲁大师成人一区二区三区| 国产精品亚洲w码日韩中文| 99久久人妻精品免费二区| 好男人神马视频在线观看| 中文字幕在线国产| 日本午夜免费福利视频| 久久综合色88| 欧洲成人爽视频在线观看| 亚洲日韩欧洲无码av夜夜摸| 清冷受被放置play分腿器| 免费人成在线观看网站品爱网日本| 羞羞色院91精品网站| 日本a级片免费看| 九九在线中文字幕无码| 欧美大尺度电影| 午夜欧美精品久久久久久久| 色综合天天综合中文网| 国产午夜影视大全免费观看| 很污很黄的网站| 国产精品中文久久久久久久| 777奇米视频| 国产黄大片在线观看| 99久热re在线精品视频| 天天影视综合网| gogo全球高清大胆啪啪| 好硬好大好爽18漫画| 一本一本久久a久久综合精品蜜桃 一本一本久久a久久综合精品蜜桃 | 成人乱码一区二区三区AV| 中文字幕手机在线免费看电影| 日本不卡高字幕在线2019| 久久精品五月天| 日韩女同互慰专区| 久久香蕉精品视频| 日韩精品第一页| 么公的又大又深又硬想要小雪| 最新夫妇交换乱的中文字幕|