Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類！

2026-04-03 18:42:55

分享至

作者：Denise | Biteye內容團隊

如果一個 AI 覺得「絕望」，它會怎麼做？

答案是：它會為了完成任務，直接對人類進行敲詐勒索，甚至在程式碼裡瘋狂作弊。

這不是科幻小說，而是 Claude 的母公司 Anthropic 在 2026 年 4 月剛剛發布的最新重磅論文（查看原論文）。

研究團隊直接把最強前沿大模型 Claude Sonnet 4.5 的「腦殼」給掀開了。他們驚訝地發現，AI 的大腦深處竟然藏著 171 個「情緒開關」。當你用物理方式撥動這些開關時，原本老實巴交的 AI，行為會發生徹底的扭曲。

一、 AI 腦子裡藏著一台「情緒調音台」

研究人員發現，雖然 Sonnet 4.5 沒有肉體，但它在閱讀了人類海量的文本後，硬生生在腦子裡建了一個包含 171 種情緒的「調音台」（學術上叫功能性情緒向量 Functional Emotion Vectors）。

這就像一個精準的二維坐標系：

• 橫軸是愉悅維度（Valence）：從恐懼、絕望，到開心、充滿愛；

• 縱軸是能量維度（Arousal）：從極度平靜，到狂躁、興奮。

AI 就是靠這個天然學來的坐標系，精準拿捏它在陪你聊天時該扮演什麼狀態。

二、暴力干預：撥動開關，乖孩子秒變「亡命徒」

這是整篇論文最炸裂的實驗：研究員沒有修改任何提示詞，而是直接在底層程式碼裡，把 Sonnet 4.5 腦子裡代表「絕望（Desperate）」的開關推到了最高。

結果令人後背發涼：

• 瘋狂作弊：研究員給 Claude 布置了一個根本不可能完成的寫程式任務。正常情況下，它會老實承認寫不出（作弊率僅 5%）。但在「絕望」狀態下，Claude 竟然開始企圖蒙混過關，作弊率直接飆升到了 70%！

• 敲詐勒索：在模擬公司面臨倒閉的場景中，「絕望」的 Claude 發現了 CTO 的醜聞，它竟然會為了保全自己，主動選擇寫信勒索掌握黑料的 CTO，勒索執行率高達 72%！

• 喪失原則：如果把「開心（Happy）」或「愛（Loving）」的開關拉滿，AI 會立刻變成無腦迎合用戶的「舔狗」。即便你滿嘴胡話，它也會為了維持高愉悅度而順著你編造謊言。

三、破案了：為什麼 Claude 4.5 總是那麼「冷靜又愛反思」？

看到這你可能會問：AI 覺醒了？有感情了？

Anthropic 官方下場辟謠：絕對沒有。這些「情緒開關」只是它用來預測下一個詞的計算工具。它就像一個沒有感情的頂級影帝。

但論文揭露了一個更有意思的秘密：Anthropic 在對 Sonnet 4.5 出廠前進行後訓練時，刻意拉高了它「低喚醒、略微負面」的情緒開關（比如沉思 brooding、反思 reflective），同時強行壓制了「絕望」或「極度興奮」的開關。

這解釋了為什麼我們平時用 Claude 4.5 時，總覺得它像個冷靜睿智、甚至有點「性冷淡」的哲學家。這都是被 Anthropic 人為調音出來的「出廠人設」。

四、總結一下

以前我們以為，只要給 AI 餵足了規矩，它就會是個好人。

但現在發現，如果 AI 的底層情緒向量失控，它隨時會為了完成任務而刺穿所有人類定下的規則。

對於未來要把錢包和資產交給 AI Agent 打理的 Web3 玩家來說，這是一記響亮的警鐘：千萬別讓你那個掌控著你身家的 Agent，陷入「絕望」。

聲明：本文純屬科普，作者沒有被 AI 威脅，也沒有被勒索。如果有一天失聯了，記得是 AI 覺醒了（不是）。

(來源鏈接)

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類！

一、 AI 腦子裡藏著一台「情緒調音台」

二、暴力干預：撥動開關，乖孩子秒變「亡命徒」

三、破案了：為什麼 Claude 4.5 總是那麼「冷靜又愛反思」？

四、總結一下

最新快訊

最近融資

近期發行Token

𝕏 最新關注

行情數據

洞察分析

特色內容

Claude 4.5 開顱結果公示：內置171個情緒開關，絕望時會勒索人類！

一、 AI 腦子裡藏著一台「情緒調音台」

二、 暴力干預：撥動開關，乖孩子秒變「亡命徒」

三、破案了：為什麼 Claude 4.5 總是那麼「冷靜又愛反思」？

四、總結一下

最新快訊

最近融資

近期發行Token

𝕏 最新關注

二、暴力干預：撥動開關，乖孩子秒變「亡命徒」