引言
大型語言模型(Large Language Models,LLMs)近年來因其卓越的語言理解和生成能力而受到了廣泛的關注。然而,這些模型也可能生成有害、侵犯隱私或者不安全的內容[1-2],對用戶和社會造成潛在的風險。而特定領域的大語言模型面向特定行業(yè)和特定需求,通常具有高度的專業(yè)性和敏感性,對安全要求更高。因此,對于非通用領域大模型來說,輸出內容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同,本研究提出的方法具有跨領域適用性,可以獨立于LLMs的底層設計進行應用,并且通過干預模型輸出來確保生成文本的安全性和合規(guī)性,從而為領域LLMs的安全控制提供了一種新穎且實用的解決方案。
為了有效控制大語言模型生成的內容,必須確保敏感信息的精準識別和安全過濾,同時滿足特定場景的業(yè)務需求。為此,學者們提出了多種方法來增強模型的可靠性和內容質量,以應對這些問題。目前,主流的增強模型安全性和可靠性的方法是基于人類反饋的強化學習(Reinforcement Learning with Human Feedback,RLHF)[3]。通過人類反饋構建獎勵模型,并利用該模型對LLMs進行訓練,使其能夠生成符合人類期望的內容。RLHF架構的多個變體也相繼提出,如SafeRLHF[4]、SENSEI[5]和fDPG[6],這些方法在不同方面進行了優(yōu)化,如采用預訓練的LLMs作為獎勵模型,或者在信息檢索領域中提升模型的表現(xiàn)[7]。然而,收集人類標注數(shù)據(jù)需要大量時間和成本。為了解決這一問題,一些研究提出了通過人工智能反饋代替人類反饋的強化學習[8],從而降低對人類標注的依賴。還有研究致力于自動構建訓練數(shù)據(jù),以進一步降低成本和復雜性。為提高計算效率,差分偏好優(yōu)化[9]是一種重要的嘗試,該方法的核心思想是允許在不訪問獎勵模型的情況下使用相同的訓練數(shù)據(jù)對LLMs進行訓練。另一種常見的提高模型可靠性的方法是監(jiān)督微調(Supervised FineTuning,SFT)[10],該方法通過大規(guī)模標注數(shù)據(jù)集對模型進行微調,以提升模型對用戶需求的響應能力。RLHF和SFT的共同點在于它們通過直接修改模型參數(shù)來提高模型的可靠性。
除了修改模型參數(shù)外,增強LLMs可靠性的另一種替代方法是直接干預輸入提示或輸出生成的過程。上下文學習(InContext Learning,ICL)[11]是通過干預輸入提示的一種主要方法。在ICL中,通過提供少量示例,可以引導LLMs完成特定任務,例如少樣本學習[12],從而減少生成不合規(guī)內容的風險。此外,一些研究集中于干預輸出生成的方式。文獻[13]提出了用于檢索應用的輸出格式化方法,避免LLMs在輸出中重復相同詞匯或短語。此外,Transformers模塊還提供了一些用于修正輸出的函數(shù),如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。
現(xiàn)有的LLMs安全性控制方法主要依賴于預訓練模型本身的優(yōu)化或后處理技術。然而,這些方法通常存在局限性,例如依賴底層模型的設計或難以適用于不同領域的文本生成需求。為了解決上述方法靈活性不足的問題,有學者對LLM的輸出過濾技術進行了一些研究,即在LLM生成文本后實施內容審查,無需修改模型參數(shù)[14]。針對輸出內容的過濾技術,當前主要是通過預定義敏感詞庫或正則表達式匹配攔截的基于規(guī)則的過濾,這種方法實現(xiàn)簡單但泛化能力有限,難以識別語義變體以及進行細粒度權限控制[15]。
為了有效控制非通用領域大語言模型生成的內容,本文提出了一種基于數(shù)學建模、特征工程和分類算法的安全過濾控制方法,通過應用一個安全過濾器來干預LLMs的輸出(即干預大語言模型生成序列的軌跡),進而確保生成內容符合安全和合規(guī)標準,以生成用戶期望的結果。該方法不僅獨立于LLMs的設計,還能夠靈活地應用于不同領域的文本生成場景,具有廣泛的適用性和較強的實用價值。
本文主要貢獻如下:
本文提出了一種面向特定領域大語言模型的內容安全控制機制,設計了一個添加于LLMs輸出層的外部過濾器,從而實現(xiàn)無需訪問其模型參數(shù)即可控制輸出內容。這是一個新穎的“無需學習”的LLMs安全控制策略,它不依賴LLMs的底層設計,可以應用于多種特定領域的LLMs,具有良好的通用性和適應性。
此外,本文針對特定領域的行業(yè)特點和安全隱私特性,抽取了一些特征因素,并結合分類算法和特征工程,在大語言模型內容安全控制領域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過濾方法不同,特征工程技術結合分類算法能夠更精確地識別和過濾潛在的風險文本,極大提升了檢測精度和適用范圍。
本文詳細內容請下載:
http://www.jysgc.com/resource/share/2000006854
作者信息:
張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3
(1.中國人民解放軍92981部隊,北京100161;
2.中國人民解放軍91977部隊,北京100036;
3.中國人民解放軍91526部隊,廣東湛江524064)

