商務BD招聘中,快來加入我們! 【查看詳情】
API 下載RootData App

Founders Fund、Pantera 與 Franklin Templeton 加入 Sentient 的 “Arena”,對企業級 AI 智能體進行壓力測試

2026-02-27 22:37:19

分享至

過去兩年裡,企業一直在加速把 AI 智能體引入真實工作流程:從客服、後台運營,到金融與合規等需要高強度決策的流程。隨著這些系統越來越多地被嵌入實際業務,一個新問題正在浮現:智能體能夠檢索信息,但當工作變得"髒"、多步驟、或高風險時,它們往往難以給出穩定、可解釋、可複現的推理過程。

今天,開源 AI 實驗室 Sentient 正式推出 Arena------一個實時、可投入生產級使用的環境,面向全球數千名 AI 開發者,用來對各種企業最難的推理問題進行壓力測試與競賽式迭代。Arena 初始階段的首批參與陣容包括 Founders Fund、Pantera,以及管理資產規模超過 1.5 萬億美元的 Franklin Templeton(富蘭克林邓普顿)------這也釋放出一個信號:機構正在對"在上線部署前,對 AI 智能體進行結構化評測"產生早期、明確的興趣。

"當企業把 AI 智能體應用到研究、運營和面向客戶的工作流時,問題已經不再是這些系統是否足夠強大……而是它們在真實工作流中是否可靠。"Franklin Templeton Digital Assets(富蘭克林邓普顿數字資產)管理合夥人 Julian Love 表示。Love 補充說,像 Arena 這樣的結構化環境,將幫助行業把"有潛力的想法"和"真正能用於生產的能力"區分開來。

Sentient 聯合創始人 Himanshu Tyagi 表示:"AI 智能體在企業內部不再只是實驗;它們正在進入會觸及客戶、資金和運營結果的關鍵流程。這種變化改變了評判標準。系統在演示裡看起來很驚艷還不夠。企業需要知道:在生產環境裡,當失敗代價很高、信任又非常脆弱時,智能體是否還能穩定地推理。企業需要可比性、可重複性,以及一種不依賴底層模型或工具棧、能夠長期跟蹤可靠性提升的方法。"

Arena 模擬了企業工作流的真實混亂:信息不完整、上下文很長、指令含糊、來源相互衝突。Arena 不只評判智能體是否給出"正確答案",而是記錄完整的推理軌跡(reasoning trace),以便工程團隊定位失敗原因,並長期驗證改進是否有效。

這為跨模型、跨技術棧的推理評估提供了一個中立、與廠商無關的基準(vendor-agnostic benchmark)。Arena 強調生產級表現而非 Demo 表現,從而形成可驗證、適用於高風險場景的智能體能力,企業也可以把這些能力遷移到自己的私有數據和內部工具上。

在第一項挑戰中,加入 Arena 的開發者將聚焦一個企業級基礎難題:文檔推理(document reasoning)。AI 智能體需要對複雜、非結構化數據進行推理與計算------這類工作是金融分析、根因調查、投資備忘錄撰寫、客戶服務等場景的底層支撐。

初始階段的其他參與方還包括 alphaXiv、Fireworks、OpenHands、OpenRouter 等;隨著 Arena 在任務、行業與模型集成上的擴展,預計還會有更多參與者加入。

近期調研也凸顯了 Arena 試圖解決的缺口:85% 的企業表示希望成為"智能體企業(agentic enterprises)",近四分之三計劃部署自治智能體,但真正擁有成熟治理體系的不到四分之一;許多企業難以把試點擴展到大規模生產部署。企業平均已經在運行約十幾個智能體,通常分散在各自孤立的場景中;不少企業認為,如果沒有更好的編排與協同能力,繼續增加智能體只會帶來複雜度上升,價值反而下降。

"在 OpenHands,我們一直很願意支持開發者使用智能體解決真實、實用的問題。"OpenHands 首席科學家兼聯合創始人 Graham Neubig 表示,"我們也很高興支持參賽者使用 OpenHands Software Agent SDK 來應對這些複雜挑戰。"

OpenRouter 聯合創始人兼 CEO Alex Atallah 表示:"Arena 正是那種能推動開源 AI 向前的計劃------它讓研究者可以在公開環境中競爭、迭代和創新。我們很期待與 Sentient 加深合作,並提供基礎設施,讓實驗更快、更容易規模化。"

Arena 將面向全球啟動,邀請數千名 AI 開發者申請加入第一期限定隊列,並從 2026 年 3 月起在舊金山舉行線下活動。

關於 Sentient Labs

Sentient Labs 是一家領先的技術研究與產品組織,致力於推動開源 AI 的發展。作為 Sentient Foundation 旗下的創新引擎,Sentient Labs 在 AI 推理、對齊與智能體協作等方向開展前沿研究。Sentient 是 ROMA 等高性能框架以及 Dobby 等開源模型的核心研發方。Sentient 的使命是讓開源 AI 從"實驗"走向"必需"。通過提供構建強大、可組合智能體系統的基礎設施,Sentient 讓開發者能夠對開源工具實現商業化,並達到企業級可用性。Sentient 致力於推動開源成為全球關鍵任務 AI 操作的默認標準。

最近融資

查看更多
-- 02-26
$4M 02-26
$30M 02-26

近期發行Token

查看更多
02-27
02-26
02-26