《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 設(shè)計應(yīng)用 > 基于邊緣增強和多尺度時空重組的視頻預(yù)測方法
基于邊緣增強和多尺度時空重組的視頻預(yù)測方法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
吳孔賢,鄭明魁
福州大學(xué) 物理與信息工程學(xué)院
摘要: 針對當(dāng)前視頻預(yù)測算法在生成視頻幀時細節(jié)模糊、精度較低的問題,提出了一種基于邊緣增強和多尺度時空重組的視頻預(yù)測方法。首先通過頻域分離技術(shù),將視頻幀劃分為高頻信息和低頻信息,并對二者分別進行針對性處理。其次,設(shè)計了高頻邊緣增強模塊,專注于高頻邊緣特征的學(xué)習(xí)與優(yōu)化。同時,引入多尺度時空重組模塊,針對低頻結(jié)構(gòu)信息,深入挖掘其時空依賴性。最終將高低頻特征進行充分融合,用以生成高質(zhì)量的預(yù)測視頻幀。實驗結(jié)果表明,與現(xiàn)有先進算法相比,該方法在預(yù)測性能上實現(xiàn)了提升,充分驗證了其有效性。
中圖分類號:TP181文獻標(biāo)識碼:ADOI:10.19358/j.issn.2097-1788.2025.03.004
引用格式:吳孔賢,鄭明魁. 基于邊緣增強和多尺度時空重組的視頻預(yù)測方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(3):22-26.
A video prediction method based on edge enhancement and multi-scale spatio-temporal reorganisation
Wu Kongxian,Zheng Mingkui
School of Physics and Information Engineering,F(xiàn)uzhou University
Abstract: Aiming at the current video prediction algorithms with blurred details and low accuracy in generating video frames, a video prediction method based on edge enhancement and multiscale spatio-temporal reorganisation is proposed. Firstly, the video frame is divided into high-frequency information and low-frequency information through the frequency domain separation technique, and the two are targeted separately. Secondly, a high-frequency edge enhancement module is designed to focus on the learning and optimisation of high-frequency edge features. At the same time, a multi-scale spatio-temporal restructuring module is introduced to target the low-frequency structural information and deeply excavate its spatio-temporal dependence. Ultimately, the high and low frequency features are fully fused and used to generate high-quality predictive video frames. The experimental results show that compared with the existing advanced algorithms, the proposed method achieves an improvement in prediction performance, which fully validates its effectiveness.
Key words : video prediction; frequency domain separation; edge enhancement; multi-scale spatio-temporal reorganisation

引言

視頻預(yù)測[1]旨在通過分析現(xiàn)有的視頻幀來預(yù)測未來幀的內(nèi)容,是一項逐像素的預(yù)測任務(wù)。視頻預(yù)測對于自動駕駛[2]、動作預(yù)測[3]、天氣預(yù)測[4]等領(lǐng)域具有重要研究意義。與圖像分類和目標(biāo)檢測等傳統(tǒng)的計算機視覺任務(wù)不同,視頻預(yù)測要求模型在時間和空間維度上雙重建模,從而捕捉到場景的動態(tài)變化和長期的依賴關(guān)系。然而,視頻中物體突然變化的運動軌跡以及復(fù)雜多樣的背景信息使得預(yù)測任務(wù)變得困難。

以往的視頻預(yù)測模型主要是基于卷積長短期記憶網(wǎng)絡(luò)(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列變體來建模時空特性。ConvLSTM通過在長短期記憶網(wǎng)絡(luò)(LSTM)單元中引入卷積運算,有效地捕捉了時空數(shù)據(jù)中的局部空間特征和全局時間動態(tài)。其變體PredRNN[5] (Predictive RNN) 提出了一種新的時空記憶單元,并將狀態(tài)信息沿之字形進行水平和垂直方向的傳遞和更新。PredRNN++[6]在PredRNN基礎(chǔ)上進行改進,提出了因果長短時記憶單元(Causal LSTM)和梯度高速公路單元(Gradient Highway Unit, GHU)來對長短期時空依賴進行自適應(yīng)學(xué)習(xí),并緩解梯度消失問題。同樣采用此遞歸循環(huán)策略來進行模型推理的還有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8]、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等。這些遞歸模型通過學(xué)習(xí)歷史信息的隱藏狀態(tài)來生成預(yù)測幀,當(dāng)前幀的生成依賴于上一幀的預(yù)測幀。然而,隨著預(yù)測幀序列的長度增加,早期預(yù)測幀中的誤差會被逐步傳遞和累積,導(dǎo)致后續(xù)預(yù)測幀的質(zhì)量和準(zhǔn)確性逐漸下降。

近年來的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了這種依靠循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)堆疊的單幀輸入單幀輸出架構(gòu)的局限性。該方法完全依賴卷積來建模時空相關(guān)性,采用多幀輸入多幀輸出(MIMO)的架構(gòu),將所有輸入一次性輸入到編碼器中,并從解碼器輸出所有預(yù)測幀。后續(xù)相關(guān)工作進一步改進了時間注意力單元(Temporal Attention Unit,TAU)[12],專注于幀內(nèi)和幀間相關(guān)性。朱俊宏等[13]也提出了一種卷積與內(nèi)卷算子結(jié)合的中間模塊,讓模型擁有多個不同大小的感受野,來提高模型的準(zhǔn)確性。李衛(wèi)軍等[14]通過建立門控時空注意力機制來學(xué)習(xí)時空變化特征,取得一定效果。雖然此類方法取得了一定研究進展,但仍然存在一些需要改進的問題。例如,此類方法都采用編碼器、翻譯器、解碼器結(jié)構(gòu),將高維的視頻序列通過卷積下采樣轉(zhuǎn)換為低維的潛在表示,再經(jīng)過翻譯器進行時空的學(xué)習(xí),最后由解碼器完成對視頻序列的預(yù)測。此過程通過跨步卷積下采樣實現(xiàn)降維,會造成像素的丟失,導(dǎo)致圖像細節(jié)被忽略,從而導(dǎo)致預(yù)測幀細節(jié)不夠清晰的問題。其次,翻譯器在捕捉時空信息方面的不足是導(dǎo)致視頻預(yù)測效果不理想的關(guān)鍵因素。

針對以上問題,本文提出了基于邊緣增強多尺度時空重組的視頻預(yù)測方法,具體貢獻如下:

(1)引入小波變換分離高低頻特征并實現(xiàn)下采樣操作,避免了卷積下采樣造成的像素信息丟失的問題,有效地保留了圖像的細節(jié)特征。

(2)設(shè)計了一種高頻邊緣增強模塊,通過一階 Sobel 卷積算子提取垂直和水平邊緣信息,并結(jié)合小核卷積對邊緣特征進行精細化增強處理,提升模型對高頻信息中細節(jié)和紋理特征的敏感性。

(3)設(shè)計了一種多尺度時空重組模塊,采用不同尺度的卷積核對視頻的時空信息進行提取,并通過交叉連接進行交互式特征重組,強化了不同感受野下時空信息的融合能力,實現(xiàn)更豐富的時空特征表達。


本文詳細內(nèi)容請下載:

http://www.jysgc.com/resource/share/2000006373


作者信息:

吳孔賢,鄭明魁

(福州大學(xué) 物理與信息工程學(xué)院,福建福州350108)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。
主站蜘蛛池模板: 九九热精品国产| 亚洲精品在线电影| 韩国资源视频一区二区三区| 国产精品自在自线免费观看| m.jizz4.com| 影音先锋女人aa鲁色资源| 久久久久亚洲av成人网| 日韩精品无码一区二区三区免费 | 夜夜燥天天燥2022| 一本高清在线视频| 把英语课代表按在地上c网站| 久久伊人色综合| 日韩欧美一区二区三区久久| 亚洲а∨精品天堂在线| 欧美日韩加勒比一区二区三区| 亚洲美女视频网址| 男人插女人免费| 全彩成人18h漫画在线| 老司机免费在线| 国产一国产一级毛片视频| 青青青伊人色综合久久| 国产小视频免费| 久久精品国产清自在天天线| 欧美人与物VIDEOS另类| 亚洲天堂电影网| 欧美最猛黑人xxxx| 亚洲理论片在线中文字幕| 爆乳少妇在办公室在线观看| 伊人久久无码中文字幕| 精品一区二区三区波多野结衣| 午夜私人影院免费体验区| 美女毛片免费看| 国产91热爆ts人妖在线| 色吧首页dvd| 国产a三级三级三级| 色先锋资源久久综合5566| 国产一级二级三级在线观看| 西西午夜无码大胆啪啪国模| 国产亚洲色婷婷久久99精品| 韩剧学生的妈妈| 国产亚洲日韩欧美一区二区三区|