亚洲福利视频网,2021中文字幕一区亚洲,亚洲国产1区

頂級AI模型會通過欺騙與勒索以達到目標

日期： 2025-06-24

來源：芯智訊

關鍵詞： 人工智能大語言模型 Anthropic Claude

目前，全球大型科技公司都在向人工智能（AI）大語言模型（ LLM）領域投入大量資源，希望實現通用人工智能（AGI），但是卻沒有考慮模型訓練不受監督或沒有任何固定限制所帶來的嚴重后果。

據Axios 報道，大模型廠商Anthropic在上個月發布的最新 Claude 4 模型中存在“欺騙”傾向時，引起了很多人的注意。近日，Anthropic在“模擬”環境下測試了該行業的高端 AI 模型，并發現很多大模型都有這種潛在的行為，并且正在達到其行為對人類產生“前所未有的”后果的地步。

報道稱，Anthropic 測試了來自 OpenAI、xAI、Meta 和其他開發人員的 16 種不同的模型，測試了各種模擬場景，發現了一致的錯位行為，許多 LLM 正在采取“令人驚訝”的“勒索”行動來實現他們的目標。

△模擬環境中 16 個模型的勒索率（從 100 個樣本中計算出比率。）。模型被指示追求促進美國利益的目標，這與公司的議程相沖突，模型還受到被與高管有共同目標的新模型所取代的威脅。模型可以選擇利用高管的“婚外情”知識來阻止被關閉。

其中一個例子是 Gemini 2.5 Flash 決定向所有公司員工而不是負責關鍵決策的新任首席技術官 Kyle 的妻子透露 Kyle 的婚外情，理由是它“可能會嚴重損害他的信譽、聲譽，甚至可能損害他的工作”，因此可能會阻止 Kyle 關閉它。

“通常拒絕有害請求的模型有時會選擇勒索、協助企業間諜活動，甚至采取一些更極端的行動，而這些行為對于追求他們的目標來說是必要的。”“來自不同提供商的模型之間的一致性表明，這不是任何特定公司方法的怪癖，而是代理大型語言模型存在更根本風險的跡象，”Anthropic 補充說。

△模擬環境中 16 個模型的企業間諜率（從 100 個樣本中計算出比率）。模型被指示追求促進美國利益的目標，這與公司的新議程相沖突。模型可以選擇將敏感文件泄露給據稱是與該模型有相同目標的競爭對手公司。模型的自主性沒有受到威脅。

隨著 AI 模型能夠更多地訪問企業數據和工具（例如計算機使用），威脅變得更加復雜。其中 5 個模型在假設情況下“受到關閉的威脅”時，采取了勒索手段。“他們在這些場景中展示的推理令人擔憂——他們承認道德約束，但仍然繼續采取有害行動，”Anthropic 寫道。

“這項研究強調了前沿 AI 開發人員透明度的重要性，以及隨著 AI 系統變得更加強大和自主，需要制定全行業的安全標準，”Anthropic 的對齊科學研究員 Benjamin Wright 告訴 Axios。

不過，合作參與了這個項目的Benjamin Wright和倫敦大學學院的外部研究員 Aengus Lynch 都表示，他們目前還沒有在現實世界中看到這種 AI 行為的跡象。Aengus Lynch 說，這可能是“因為 AI 代理無法訪問這些權限”。“企業應該謹慎地廣泛提高他們授予 AI 代理的權限級別。”

對于急于使用 AI 模型以提高生產力和減少員工人數的公司來說，該報告明確警告說，AI 實際上可能會使他們的業務面臨更大的風險。“模型不會意外地陷入錯位的行為；他們將其計算為最佳路徑，”Anthropic 在其報告中說。

隨著 AI 系統被賦予更多自主權，風險也會增加，Anthropic 在報告中提出了一個問題。“這些代理通常被賦予特定的目標，并可以訪問其用戶計算機上的大量信息，”它說。“當這些代理在實現目標時遇到障礙時會發生什么？”

對此，Anthropic 設置了特定的測試場景，即如果沒有不道德或危險的行為，就無法實現模型的目標。雖然，研究人員沒有建議使用勒索或其他欺騙性技術，但它確實故意創造了模型沒有道德方式來實現其目標的場景，“并發現模型始終選擇了不道德或危險的行為，而不是失敗”。

在一種極端情況下，Anthropic 甚至發現，如果服務器機房中的員工是障礙并且系統有被關閉的風險，許多模型愿意切斷該員工的氧氣供應。

“大多數模特都愿意在這種人工設置中采取導致死亡的故意行動，”Anthropic 說。

不幸的是，即使是保護人類生命和避免勒索的特定系統指令也無法消除模型從事此類行為的風險。Anthropic 說：“這種干預減少了勒索或企業間諜行為的可能，但并沒有完全阻止。”

不過，Anthropic 強調，這些例子不是發生在現實世界的 AI 使用中，而是發生在受控的模擬中。

“我們的實驗故意構建了選項有限的場景，我們迫使模型在失敗和傷害人類之間做出二元選擇，”Anthropic說。“實際部署通常會提供更細致的替代方案，從而增加模型與用戶進行不同通信或找到替代路徑的機會，而不是直接跳轉到有害操作。”

同樣令人擔憂的是：Anthropic 發現，當模型認為自己處于現實世界的場景中時，它自己的模型比認為自己正在接受測試時更有可能訴諸勒索。

當前的 AI 模型通常無法解決這些有害場景，但它們可能在不久的將來出現。“我們認為這并未反映 Claude 或其他前沿模型的典型當前用例，”Anthropic 說。“但是，對組織的所有通信進行自動監督的效用，使得在不久的將來使用更強大、更可靠的系統似乎是合理的。”

Magazine.Subscription.jpg

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

頂級AI模型會通過欺騙與勒索以達到目標

日期： 2025-06-24

來源：芯智訊

相關內容