《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 基于深度學(xué)習(xí)的詞語級中文唇語識別
基于深度學(xué)習(xí)的詞語級中文唇語識別
2022年電子技術(shù)應(yīng)用第12期
陳紅順1,陳觀明1,2
1.北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080
摘要: 在無聲或噪聲干擾嚴重的環(huán)境下,或?qū)τ诖嬖诼犛X障礙的人群,唇語識別至關(guān)重要。針對詞語級中文唇語識別的問題,提出了SinoLipReadingNet模型,前端采用Conv3D+ResNet34結(jié)構(gòu)用于時空特征提取,后端分別采用Conv1D結(jié)構(gòu)和Bi-LSTM結(jié)構(gòu)用于分類預(yù)測,并引入Self-Attention、CTCLoss對Bi-LSTM后端進行改進。最終在新網(wǎng)銀行唇語識別數(shù)據(jù)集上進行實驗,結(jié)果表明,SinoLipReadingNet模型在識別準確率上明顯優(yōu)于中科院D3D模型,多模型融合的預(yù)測準確率達到了77.64%,平均字錯率為21.68%。
中圖分類號: TP391.4
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.222903
中文引用格式: 陳紅順,陳觀明. 基于深度學(xué)習(xí)的詞語級中文唇語識別[J].電子技術(shù)應(yīng)用,2022,48(12):54-58.
英文引用格式: Chen Hongshun,Chen Guanming. Chinese word-level lip reading based deep learning[J]. Application of Electronic Technique,2022,48(12):54-58.
Chinese word-level lip reading based deep learning
Chen Hongshun1,Chen Guanming1,2
1.School of Information Technology,Beijing Normal University(Zhuhai),Zhuhai 519087,China; 2.Zhuhai Orbita Aerospace Science & Technology Co.,Ltd.,Zhuhai 519080,China
Abstract: Lip reading is crucial in the silent environment or environments with serious noise interference, or for people with hearing impairment. For word-level Chinese lip reading problem, SinoLipReadingNet model is proposed, the front end of which with Conv3D and ResNet34 is used to extract temporal-spatial features, and the back end of which with Conv1D and Bi-LSTM are used for classification and prediction respectively. Also, self-attention and CTCLoss are added to improve the back end with Bi-LSTM. Finally,the SinoLipReadingNet model is tested on XWBank lipreading dataset and results show that the prediction accuracy is significantly better than that of D3D model, the prediction accuracy and avrage CER of multi-model fusion reaches 77.64% and 21.68% respectively.
Key words : lip reading;ResNet;Bi-LSTM;CTCLoss;self-attention

0 引言

    語言是人類溝通交流的主要方式,語音是人類語言交流的主要載體之一。在無聲或噪聲干擾嚴重的環(huán)境下,或?qū)τ诖嬖诼犛X障礙的人群,如何利用通過嘴唇運動進行語言識別至關(guān)重要。唇語識別是指通過觀察和分析人說話時唇部運動的特征變化,識別出人所說話的內(nèi)容。唇語識別具有廣闊的應(yīng)用前景:在醫(yī)療健康領(lǐng)域,可以借助唇語識別輔助患有聽力障礙的病人溝通交流[1];在安防領(lǐng)域,人臉識別同時通過唇語識別以提高活體識別的安全性[2];在視頻合成領(lǐng)域, 利用唇語識別可以合成特定人物講話場景的視頻[3],或者合成高真實感的虛擬人物動畫等。

    唇語識別主要包含4個步驟[4]:人臉關(guān)鍵點檢測與跟蹤、唇語區(qū)域提取、時空特征提取和分類與解碼。其中,時空特征提取和分類與解碼是唇語識別的研究重點。近年來,隨著大規(guī)模數(shù)據(jù)集[5]的出現(xiàn),基于深度學(xué)習(xí)的方法可以自動抽取深層特征,逐漸成為唇語識別研究的主流方法[6]。如圖1所示,基于深度學(xué)習(xí)的唇語學(xué)習(xí)方法將一系列的唇部圖像送入前端以提取特征,然后傳遞給后端以進行分類預(yù)測,并以端到端的形式進行訓(xùn)練。




本文詳細內(nèi)容請下載:http://www.jysgc.com/resource/share/2000005040




作者信息:

陳紅順1,陳觀明1,2

(1.北京師范大學(xué)珠海分校 信息技術(shù)學(xué)院,廣東 珠海519087;2.珠海歐比特宇航科技股份有限公司,廣東 珠海519080)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 欧美综合图区亚欧综合图区| 色综合a怡红院怡红院首页| 壮熊私gay网站的| 中文字幕中文字幕中中文| 日韩精品久久无码人妻中文字幕 | 老太脱裤子小伙bbbaaa| 国产在线精品一区二区不卡| 中文字幕色婷婷在线精品中| 国产美女自慰在线观看| 99麻豆久久久国产精品免费| 婷婷人人爽人人做人人添| 中文字幕一区二区三区在线播放| 日本不卡视频免费| 久久精品欧美日韩精品| 橘子没熟svk| 亚洲剧情在线观看| 欧美日韩综合在线视频免费看 | 亚洲婷婷第一狠人综合精品| 爱情岛永久地址www成人| 免费成人福利视频| 精品人妻系列无码一区二区三区 | 欧美特黄a级高清免费大片| 亚洲精品视频免费看| 男人都懂的网址在线看片| 全部免费a级毛片| 精品乱码久久久久久久| 午夜性色一区二区三区不卡视频 | 日韩精品久久无码人妻中文字幕| 亚洲av日韩av不卡在线观看| 欧美不卡一区二区三区免| 亚洲国产一二三精品无码| 欧美怡红院免费全视频| 亚洲性一级理论片在线观看| 欧美最猛黑人xxxx黑人猛交 | 波多野结衣bt| 亚洲精品成人av在线| 波多野结衣影视作品| 亚洲色图欧美在线| 狠狠入ady亚洲精品| 亚洲综合无码一区二区| 波多野结衣痴汉电车|