《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 領域大語言模型的內容安全控制研究
領域大語言模型的內容安全控制研究
網(wǎng)絡安全與數(shù)據(jù)治理
張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3
1.中國人民解放軍92981部隊;2.中國人民解放軍91977部隊; 3.中國人民解放軍91526部隊
摘要: 隨著大語言模型在非通用領域中的廣泛應用,其在知識管理、決策支持和安全信息交流等方面展現(xiàn)出巨大潛力。然而,這些領域具有高度的專業(yè)性和敏感性,在特定場景下確保輸出內容的安全性與合規(guī)性是主要挑戰(zhàn)。現(xiàn)有方法主要依賴模型的重新訓練或微調,成本高且靈活性不足。提出了一種無需重新訓練模型的精細化輸出控制方法,將輸出控制抽象為分類問題,利用分類算法對生成內容進行判斷,決定是否輸出。該機制結合數(shù)學建模與特征工程,力求在滿足業(yè)務需求的同時,最大限度地減少潛在風險,提升輸出的安全性與合規(guī)性。
中圖分類號:TP309文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.11.001引用格式:張欣欣,李濤,趙龍彪,等. 領域大語言模型的內容安全控制研究[J].網(wǎng)絡安全與數(shù)據(jù)治理,2025,44(11):1-6.
Research on content safety control of domainspecific large language models
Zhang Xinxin1,Li Tao1,Zhao Longbiao1,Jia Zhenzhen2,Zhou Hengguang3
1. Unit 92981 of the PLA;2. Unit 91977 of the PLA; 3. Unit 91526 of the PLA
Abstract: With the increasing adoption of large language models in specialized domains, these models have demonstrated significant potential in areas such as knowledge management, decision support, and secure information exchange. However, given the high level of specialization and sensitivity in these domains, ensuring the safety and compliance of generated content in specific scenarios presents a major challenge. Current approaches predominantly rely on model retraining or finetuning, which are resourceintensive and lack flexibility. This study proposes a refined output control method that bypasses the need for model retraining. By framing output control as a classification problem, classification algorithms are employed to evaluate generated content and determine its appropriateness for release. This mechanism combines mathematical modeling and feature engineering to strike a balance between meeting business requirements and minimizing potential risks, thereby enhancing the safety and compliance of generated outputs.
Key words : large language model; safety control; content filtering; classification algorithm

引言

大型語言模型(Large Language Models,LLMs)近年來因其卓越的語言理解和生成能力而受到了廣泛的關注。然而,這些模型也可能生成有害、侵犯隱私或者不安全的內容[1-2],對用戶和社會造成潛在的風險。而特定領域的大語言模型面向特定行業(yè)和特定需求,通常具有高度的專業(yè)性和敏感性,對安全要求更高。因此,對于非通用領域大模型來說,輸出內容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同,本研究提出的方法具有跨領域適用性,可以獨立于LLMs的底層設計進行應用,并且通過干預模型輸出來確保生成文本的安全性和合規(guī)性,從而為領域LLMs的安全控制提供了一種新穎且實用的解決方案。

為了有效控制大語言模型生成的內容,必須確保敏感信息的精準識別和安全過濾,同時滿足特定場景的業(yè)務需求。為此,學者們提出了多種方法來增強模型的可靠性和內容質量,以應對這些問題。目前,主流的增強模型安全性和可靠性的方法是基于人類反饋的強化學習(Reinforcement Learning with Human Feedback,RLHF)[3]。通過人類反饋構建獎勵模型,并利用該模型對LLMs進行訓練,使其能夠生成符合人類期望的內容。RLHF架構的多個變體也相繼提出,如SafeRLHF[4]、SENSEI[5]和fDPG[6],這些方法在不同方面進行了優(yōu)化,如采用預訓練的LLMs作為獎勵模型,或者在信息檢索領域中提升模型的表現(xiàn)[7]。然而,收集人類標注數(shù)據(jù)需要大量時間和成本。為了解決這一問題,一些研究提出了通過人工智能反饋代替人類反饋的強化學習[8],從而降低對人類標注的依賴。還有研究致力于自動構建訓練數(shù)據(jù),以進一步降低成本和復雜性。為提高計算效率,差分偏好優(yōu)化[9]是一種重要的嘗試,該方法的核心思想是允許在不訪問獎勵模型的情況下使用相同的訓練數(shù)據(jù)對LLMs進行訓練。另一種常見的提高模型可靠性的方法是監(jiān)督微調(Supervised FineTuning,SFT)[10],該方法通過大規(guī)模標注數(shù)據(jù)集對模型進行微調,以提升模型對用戶需求的響應能力。RLHF和SFT的共同點在于它們通過直接修改模型參數(shù)來提高模型的可靠性。

除了修改模型參數(shù)外,增強LLMs可靠性的另一種替代方法是直接干預輸入提示或輸出生成的過程。上下文學習(InContext Learning,ICL)[11]是通過干預輸入提示的一種主要方法。在ICL中,通過提供少量示例,可以引導LLMs完成特定任務,例如少樣本學習[12],從而減少生成不合規(guī)內容的風險。此外,一些研究集中于干預輸出生成的方式。文獻[13]提出了用于檢索應用的輸出格式化方法,避免LLMs在輸出中重復相同詞匯或短語。此外,Transformers模塊還提供了一些用于修正輸出的函數(shù),如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。

現(xiàn)有的LLMs安全性控制方法主要依賴于預訓練模型本身的優(yōu)化或后處理技術。然而,這些方法通常存在局限性,例如依賴底層模型的設計或難以適用于不同領域的文本生成需求。為了解決上述方法靈活性不足的問題,有學者對LLM的輸出過濾技術進行了一些研究,即在LLM生成文本后實施內容審查,無需修改模型參數(shù)[14]。針對輸出內容的過濾技術,當前主要是通過預定義敏感詞庫或正則表達式匹配攔截的基于規(guī)則的過濾,這種方法實現(xiàn)簡單但泛化能力有限,難以識別語義變體以及進行細粒度權限控制[15]。

為了有效控制非通用領域大語言模型生成的內容,本文提出了一種基于數(shù)學建模、特征工程和分類算法的安全過濾控制方法,通過應用一個安全過濾器來干預LLMs的輸出(即干預大語言模型生成序列的軌跡),進而確保生成內容符合安全和合規(guī)標準,以生成用戶期望的結果。該方法不僅獨立于LLMs的設計,還能夠靈活地應用于不同領域的文本生成場景,具有廣泛的適用性和較強的實用價值。

本文主要貢獻如下:

本文提出了一種面向特定領域大語言模型的內容安全控制機制,設計了一個添加于LLMs輸出層的外部過濾器,從而實現(xiàn)無需訪問其模型參數(shù)即可控制輸出內容。這是一個新穎的“無需學習”的LLMs安全控制策略,它不依賴LLMs的底層設計,可以應用于多種特定領域的LLMs,具有良好的通用性和適應性。

此外,本文針對特定領域的行業(yè)特點和安全隱私特性,抽取了一些特征因素,并結合分類算法和特征工程,在大語言模型內容安全控制領域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過濾方法不同,特征工程技術結合分類算法能夠更精確地識別和過濾潛在的風險文本,極大提升了檢測精度和適用范圍。


本文詳細內容請下載:

http://www.jysgc.com/resource/share/2000006854


作者信息:

張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3

(1.中國人民解放軍92981部隊,北京100161;

2.中國人民解放軍91977部隊,北京100036;

3.中國人民解放軍91526部隊,廣東湛江524064)


subscribe.jpg

此內容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美激情日韩| 亚洲欧美成人一区二区三区| 欧美午夜精品| 亚洲制服少妇| 香蕉久久a毛片| 国产在线成人| 欧美成人官网二区| 在线一区二区日韩| 亚洲欧美卡通另类91av| 国产亚洲高清视频| 欧美**人妖| 一区二区三区国产盗摄| 亚洲欧美日韩在线高清直播| 亚洲视频第一页| 国产亚洲欧美中文| 欧美日本在线一区| 欧美呦呦网站| 亚洲免费av电影| 亚洲国内欧美| 国产精品―色哟哟| 久久字幕精品一区| 亚洲视频1区| 亚洲少妇最新在线视频| 亚洲一区二区久久| 久久精品国产一区二区电影 | 欧美在线视频日韩| 亚洲精品乱码久久久久久黑人| 欧美日精品一区视频| 久久久一区二区三区| 宅男66日本亚洲欧美视频| 一区二区不卡在线视频 午夜欧美不卡在 | 亚洲精品一区二区三区婷婷月| 亚洲精品在线观| 99精品国产福利在线观看免费| 亚洲男女自偷自拍图片另类| 亚洲欧美99| 久久精品盗摄| 最新国产精品拍自在线播放| 亚洲一区二区三区四区中文 | 欧美久久视频| 国产精品捆绑调教| 免费观看一区| 欧美一区二区三区喷汁尤物| 一区二区三区|亚洲午夜| 一区二区三区精品视频在线观看 | 久久综合狠狠综合久久激情| 欧美福利影院| 欧美视频你懂的| 国产日韩亚洲| 亚洲国产婷婷香蕉久久久久久99| 99re6这里只有精品| 韩日在线一区| 国产精品美女黄网| 国产亚洲精品久久久久久| 樱花yy私人影院亚洲| 国产一区二区三区成人欧美日韩在线观看| 国产日韩欧美一区二区| 亚洲国产精品va在线看黑人| 韩日成人av| 99re6热在线精品视频播放速度| 亚洲一级特黄| 亚洲国产精品va在线看黑人动漫| 亚洲欧美视频一区二区三区| 亚洲第一中文字幕在线观看| aa日韩免费精品视频一| 欧美影院成人| 欧美精品一区二区三区蜜桃| 久久在线免费视频| 久久久www成人免费毛片麻豆| 香蕉久久夜色| 亚洲视频久久| 久久久精品国产免大香伊| 欧美日韩国产免费| 欧美日韩高清在线观看| 国产精品亚洲第一区在线暖暖韩国| 影音先锋久久精品| 亚洲婷婷综合久久一本伊一区| 亚洲电影下载| 亚洲欧美综合精品久久成人| 亚洲制服丝袜在线| 免费不卡在线观看| 国产精品一区久久| 国产欧美亚洲一区| 国产欧美日韩精品a在线观看| 亚洲高清在线视频| 午夜亚洲性色视频| 欧美一级视频精品观看| 日韩视频在线播放| 久久久久**毛片大全| 国产精品国内视频| 国产精品视频在线观看| 亚洲激情图片小说视频| 欧美一区二区私人影院日本| 亚洲综合色婷婷| 欧美在线观看你懂的| 亚洲一二三区精品| 欧美激情一区二区三区成人| 国产亚洲欧美一区在线观看 | 一区二区三区日韩精品视频| 麻豆av福利av久久av| 国产欧美日韩在线视频| 夜夜狂射影院欧美极品| 一区二区三区四区国产精品| 亚洲小说区图片区| 日韩一区二区精品视频| 玖玖玖国产精品| 国产拍揄自揄精品视频麻豆| 一区二区黄色| 一本一道久久综合狠狠老精东影业| 免费观看国产成人| 一区精品久久| 最新成人av网站| 中文欧美在线视频| 99国产精品自拍| 美日韩精品免费| 尤物yw午夜国产精品视频明星| 午夜欧美大片免费观看 | 午夜精品久久99蜜桃的功能介绍| 欧美揉bbbbb揉bbbbb| 日韩视频在线免费| 在线亚洲精品福利网址导航| 亚洲精选成人| 欧美**人妖| 亚洲动漫精品| 亚洲美女视频在线免费观看| 亚洲区一区二| 欧美成年人网站| 亚洲激情专区| 99国产精品久久久久老师| 欧美精品一区二区三区在线看午夜| 国内精品美女在线观看| 久久精品国产v日韩v亚洲| 久久婷婷蜜乳一本欲蜜臀| 国内免费精品永久在线视频| 久久精品30| 欧美大片在线影院| 亚洲精品一区二区三区不| 99成人免费视频| 欧美日韩一区二区在线视频| 国产一区二区三区成人欧美日韩在线观看 | 亚洲在线观看视频网站| 性欧美精品高清| 国产日韩一区二区三区在线| 欧美在线欧美在线| 免费久久99精品国产自| 亚洲国产综合视频在线观看 | 亚洲一级在线观看| 国产精品尤物| 久久激情五月丁香伊人| 欧美激情成人在线| 一区二区av在线| 久久不射中文字幕| 激情欧美日韩一区| 一本色道久久88综合亚洲精品ⅰ | 国产欧美一区二区三区在线老狼| 久久精品成人一区二区三区| 欧美黄污视频| 亚洲综合999| 美女91精品| 亚洲毛片网站| 欧美一区午夜视频在线观看| 激情文学综合丁香| 在线视频亚洲欧美| 国产日韩欧美在线| 亚洲精品美女免费| 欧美在线观看一区| 在线国产欧美| 亚洲欧美成人网| 伊人精品成人久久综合软件| 亚洲精品日韩激情在线电影| 国产精品久久久久久久久久三级| 欧美在线短视频| 欧美日韩一二三四五区| 久久国产精品久久w女人spa| 欧美日本高清| 欧美在线黄色| 欧美日韩精品免费看| 欧美一区二区成人6969| 欧美激情va永久在线播放| 亚洲欧美在线网| 欧美日韩精品在线播放| 欧美一区二区三区免费视频| 欧美精品三区| 欧美一区二区大片| 欧美日韩一区二区三区免费看 | **性色生活片久久毛片| 亚洲欧美日韩国产一区二区| 在线观看视频欧美| 欧美一区二区日韩一区二区| 亚洲欧洲一二三| 久久精品久久99精品久久| 国产精品美女xx| 亚洲精品精选| 国产一区二区三区免费观看| 一片黄亚洲嫩模| 在线观看91精品国产入口| 欧美一级免费视频| 亚洲免费不卡| 欧美高清在线观看| 亚洲国产精品久久|