中文字幕一区二区三区久久网站,国产精品久久久久久久久久新婚,国产精品久久影院

藏文網絡敏感信息檢測研究

網絡安全與數據治理

吳瑜，嚴李強，徐梓恒，卓瑪央金

西藏大學信息科學技術學院

摘要： 隨著互聯網的普及，藏文網絡空間也面臨著日益增多的敏感信息傳播風險，給社會穩定和國家安全帶來挑戰。傳統的敏感信息檢測方法難以有效應對藏文語言的特殊性和網絡信息的復雜性。為了解決這一問題，提出了一種基于CINO-DPCNN的混合神經網絡模型。該模型結合了CINO模型對藏文語義的深層次理解和DPCNN模型對文本特征的高效提取能力，能夠更準確地識別藏文網絡敏感信息。實驗結果表明，CINO-DPCNN模型在準確率、F1值等指標方面取得了良好的結果，相較于現有模型有顯著提高。這為構建安全、健康的藏文網絡環境提供了新的技術支撐，也為其他少數民族語言的敏感信息檢測提供了借鑒。

關鍵詞： 藏文敏感信息 CINO模型深度學習

中圖分類號：TP181文獻標識碼：ADOI:10.19358/j.issn.2097-1788.2025.04.012
引用格式：吳瑜，嚴李強，徐梓恒，等. 藏文網絡敏感信息檢測研究［J］.網絡安全與數據治理，2025，44（4）：79-83.

Research on sensitive information detection in Tibetan network

Wu Yu，Yan Liqiang，Xu Ziheng，Zhuoma Yangjin

School of Information Science and Technology, Tibet University,Lasa

Abstract： With the increasing popularity of the Internet, the Tibetan-language online space is facing growing risks of sensitive information dissemination, posing challenges to social stability and national security. Traditional methods for detecting sensitive information are unable to effectively address the unique characteristics of the Tibetan language and the complexity of online information. To address this issue, this paper proposes a hybrid neural network model based on CINO-DPCNN. This model combines the deep understanding of Tibetan semantics provided by the CINO model with the high-efficiency feature extraction capabilities of the DPCNN model, enabling more accurate identification of sensitive information in Tibetan-language online networks. The experimental results demonstrate that the CINO-DPCNN model has achieved excellent performance in terms of accuracy, F1 score, and other indicators, showing significant improvements over existing models. This provides new technical support for building a secure and healthy Tibetan-language online environment and serves as a reference for sensitive information detection in other minority languages.

Key words : Tibetan；sensitive information；CINO model；deep learning

引言

隨著網絡基礎設施和信息通信技術的提升，互聯網的規模迅速擴大。根據2024年發布的第53次《中國互聯網絡發展狀況統計報告》，我國網民人數已達10.92億，互聯網普及率達到77.5%［1］。互聯網的發展帶來了信息傳播的便利，也帶來了信息安全和內容監管方面的挑戰。在西藏等少數民族地區，這一挑戰尤為顯著。西藏地處中國的邊疆地區，擁有悠久的歷史和豐富的文化遺產，同時也面臨著綜合治理的重大挑戰。網絡上發布的敏感信息，其中包含惡意攻擊和歧視性語言等，嚴重侵犯了個人權利和尊嚴，導致個體心理、價值觀和行為規范的扭曲。此外，虛假新聞或謠言的泛濫可能會破壞社會信任，嚴重違反社會公德和法律法規，很容易引起社會大眾的不滿與抵制，還會給社會秩序、國家穩定與團結帶來不利影響［2］。

針對網絡敏感信息的自動檢測和過濾問題，相關研究者采用了各種方法來提高檢測的效率和準確性。袁斐洋等［3］根據藏文敏感詞權重值對網頁進行等級劃分，對含有敏感信息的網頁進行攔截，避免不法言論和信息的傳播，以優化藏區網絡環境。南奎娘若等［4］采用基于不同特征加權及權重度量的方法抽取基于敏感的藏文自動摘要。江濤等［5］提出了基于藏文網頁的輿情監控系統，系統監控藏文網頁的“敏感點”并對“熱點”實現預警。湯烈等［6］提出了一個基于K最近鄰算法的網絡不良信息過濾模型。在樣本預處理時對訓練樣本進行了篩選，使系統的查準率、查全率和處理速度都有一定的提高，更適應實時在線系統的不良信息過濾。普措才仁［7］根據不良信息的特點對潛在語義分析進行了簡化，并設計了基于簡化的潛在語義分析的藏文Web不良信息檢索算法。該檢索算法能夠對具有關于某個主題的特定傾向的文本進行過濾，對于那些冗長文本中因為關鍵字分散而造成的假匹配，通過語義分析可以很好地甄別處理，從而提高系統的召回率。陸向艷［8］提出一種基于支持向量機（Support Vector Machine,SVM）的不良信息識別方法，包括文本標記、文本分詞、Doc2Vec文本向量化、SVM不良信息分類器訓練、SVM不良信息測試5個步驟。實驗結果表明該方法能有效識別網絡不良信息，為網絡不良信息的甄別提供了一種方法參考。

傳統的藏文敏感信息檢測方法在處理大規模、多樣化的藏文文本時效率低下，已無法滿足快速增長的在線內容需求。因此，將深度學習技術應用于藏文敏感信息檢測以提高檢測的準確性，已成為亟待研究的重要課題。本文采用一種基于混合神經網絡模型——CINODPCNN，用于藏文網絡敏感信息的檢測。首先利用面向中國少數民族語言的多語言預訓練模型（Chinese Minority Pretrained Language Model,CINO）對敏感信息文本進行動態的詞向量構建，捕獲藏文文本的語義信息，之后深度卷積神經網絡層（Deep Pyramid Convolutional Neural Networks,DPCNN）通過卷積和池化操作對詞向量進行局部特征提取，以獲得文本的重要模式和特征，最后加入全連接層和分類器實現對敏感信息的識別與分類。

本文詳細內容請下載：

http://www.jysgc.com/resource/share/2000006417

作者信息：

吳瑜，嚴李強，徐梓恒，卓瑪央金

(西藏大學信息科學技術學院，西藏拉薩850000)

Magazine.Subscription.jpg

原創聲明：此內容為AET網站原創，未經授權禁止轉載。

相關內容