亚洲成在线观看,国产午夜一区二区三区,久久国产综合

質量重于數量

平衡大型語言模型的算法透明度、問責制和知識產權

日期： 2023-08-04

作者：派拓網絡大中華區售前總經理董春濤

來源：派拓網絡

關鍵詞： 派拓網絡大型語言模型

在我們對推動算法革命的數據展開研究的過程中，算法透明度和問責制是核心原則。一些人可能誤認為這種說法是在隱晦地呼吁公開知識產權。然而，經過細致入微的研究，我們發現了一個更加復雜的敘事，即大型語言模型和專有模型之間的區別。

大型語言模型是在綜合文本數據集上訓練而成的AI系統，其設計意圖是根據輸入內容生成類似人類的文本。“大型”一詞體現了模型在參數數量和訓練數據量上的規模。比如 OpenAI 的GPT-3在訓練時運用了一個包含1750億個海量文本參數的巨大模型。這些模型必須能夠理解它們生成的文本，通過辨別訓練數據中的模式來生成并輸出預測結果。一個不變的原則是：只有綜合全面的高質量訓練數據才能使模型生成準確的預測結果。

與之相反的是，“專有模型”通常由特定實體或公司創建。其設計、結構和算法保護創建者的知識產權。這個詞往往指的是藍圖可供公眾使用、修改和傳播的開源模型。值得注意的是，專有模型與大型語言模型沒有本質區別，使用“專有模型”這個術語是為了強調模型的其他特征。

以OpenAI的GPT-3為例，它既可以是大型語言模型，也可以是專有模型。網絡安全行業給出了一個恰當的比喻：“垃圾進，垃圾出”。與網絡衛生實踐一樣，為模型提供經過整理的高質量數據可以影響輸出結果，在實現精準異常檢測的同時推動創新。

那么如何防止數據中毒呢？關鍵在于用細致入微的數據采集和整理取代雜亂無章的數據積累。無論是專有模型還是開源模型，確保采集高質量的數據可以幫助提升模型輸出結果的準確性。決定模型有效性的最終因素是數據的質量和相關性，而非數據的數量。

算法透明度要求明確算法的一般操作。例如貸款決策算法應說明其考慮的因素（收入、信用評分）及各項因素的權重。與之相對應的算法問責制則要求實體對其算法決策負責，尤其是當出現跡象表明結果帶有偏差或差別時。

由于應用了機器學習，入侵檢測系統（IDS）可監視網絡是否存在潛在威脅或違反政策的情況。機器學習可以根據以往數據識別威脅，大大提升了 IDS 的能力。但即便如此，透明度和問責制方面仍然存在挑戰。

因此，算法透明度的“潛臺詞”是 IDS 用戶需要對決策依據具備一定的了解。例如，威脅信號的特征是什么？IDS如何區分正常活動和惡意活動？雖然為了避免給攻擊者提供“參考”而不能公布具體的系統機制，但用戶只有在掌握足夠信息的情況下才能信任并有效利用該系統。

算法問責制提出了誤報和漏報的責任問題。IDS 提供商應對此類錯誤承擔責任，尤其是當這些錯誤是由算法缺陷引起時。

目前挑戰在于如何在透明度、問責制、專有利益保護和潛在攻擊防范之間保持平衡。這是一項涉及多方面的任務，需要細致入微的考量和各方面兼顧的方法。另外，需要認識到理解某些算法（如神經網絡）的決策過程及保護專有信息的技術復雜性。然而盡管存在這些障礙，但對于優化算法透明度和問責制，專家們已經達成共識。

鑒于日益智能和先進的黑客技術所帶來的威脅迫在眉睫，網絡安全行業必須擁有同等資源才能對抗這些AI驅動的攻擊。從長遠來看，安全行業的目標不僅是讓一群人類威脅獵手通過猜測來零散地解決問題。

當務之急是采取智能化措施來化解這些不斷發展的威脅。作為全球網絡安全領導企業，Palo Alto Networks（派拓網絡）一直在加速AI在網絡安全堆棧中的應用，是當今安全行業最成熟的AI應用之一。派拓網絡不僅在人工智能和機器學習方面的投資處于領先地位，而且還致力于將這些投資轉化為客戶可以獲得的實實在在的利益。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

質量重于數量

日期： 2023-08-04

作者：派拓網絡大中華區售前總經理 董春濤

來源：派拓網絡

相關內容

作者：派拓網絡大中華區售前總經理董春濤