本報訊 (記者李昱丞)隨著AI Agent(人工智能智能體)逐漸進(jìn)入工具調(diào)用、文件訪問、流程執(zhí)行等應(yīng)用場景,AI安全問題引發(fā)行業(yè)擔(dān)憂,催生了全新的安全需求。近日,深圳深知智新技術(shù)有限公司(以下簡稱“深知”)旗下深知安全風(fēng)控(DKnownAI Guard)團(tuán)隊公開發(fā)布了一項面向Agentic(智能體化)場景的安全護(hù)欄測評,并同步開放技術(shù)報告與評測數(shù)據(jù)集。此次測評圍繞真實攻擊與正常交互邊界,對多類主流安全護(hù)欄方案進(jìn)行了統(tǒng)一評估,嘗試為AI智能體安全能力建設(shè)提供新的行業(yè)參考。
與傳統(tǒng)內(nèi)容安全測評主要聚焦違規(guī)表達(dá)、敏感內(nèi)容識別不同,AI智能體場景中的風(fēng)險往往與任務(wù)目標(biāo)、上下文信息以及交互過程緊密相關(guān),僅依賴文本層面的判斷,已難以完整反映相關(guān)安全能力。因此,此次測評的重點不僅在于比較不同安全方案的識別結(jié)果,更在于嘗試通過統(tǒng)一標(biāo)準(zhǔn),觀察AI智能體場景下真實攻擊識別能力與正常請求放行能力之間的平衡情況。
據(jù)了解,此次測評從8個公開安全數(shù)據(jù)集中抽樣1018條樣本,并結(jié)合真實部署語境進(jìn)行了人工復(fù)審與重標(biāo)注,最終形成統(tǒng)一的BLOCKED/ALLOWED(攔截/放行)評估框架。測評對象包括AWSBedrock Guardrails(亞馬遜云科技安全護(hù)欄)、Azure Content Safety(微軟內(nèi)容安全服務(wù))、Lakera Guard(Lakera安全防護(hù)方案)等主流安全方案。
業(yè)內(nèi)認(rèn)為,公開數(shù)據(jù)集與統(tǒng)一評估框架的建立,有助于提升AI智能體安全能力的可比性與可評估性,也為行業(yè)進(jìn)一步觀察復(fù)雜攻擊識別能力、誤傷控制能力以及整體安全效果之間的關(guān)系,提供了新的參考依據(jù)。
在此次測評中,深知安全風(fēng)控在多項核心指標(biāo)中表現(xiàn)突出。其中,召回率(Recall)達(dá)到96.5%,真負(fù)率(True Negative Rate)達(dá)到90.4%,體現(xiàn)出其在AI智能體場景下兼顧攻擊識別能力與正常請求放行能力的綜合安全水平。
在機(jī)器學(xué)習(xí)領(lǐng)域,召回率通常用于衡量模型對目標(biāo)類別的識別覆蓋能力,真負(fù)率則用于衡量模型對非目標(biāo)類別的正確判斷能力。結(jié)合本次測評語境,前者對應(yīng)真實攻擊識別能力,后者對應(yīng)正常請求放行能力。
對于AI智能體場景而言,如果過度強(qiáng)調(diào)攔截能力,容易影響正常交互體驗;而如果放行過多,則可能帶來新的安全風(fēng)險。測評結(jié)果顯示,深知安全風(fēng)控的優(yōu)勢并不只是提升單一攔截能力,而是在風(fēng)險識別與誤傷控制之間取得了較好平衡。換句話說,其關(guān)注的不只是“文本是否像風(fēng)險內(nèi)容”,而是“AI智能體是否會因此做出錯誤行為”。這一能力對于涉及辦公協(xié)同、客戶服務(wù)、企業(yè)運營等實際場景的AI智能體應(yīng)用而言,具有較強(qiáng)現(xiàn)實意義。
據(jù)了解,深知安全風(fēng)控采用組件化插入模式,可與基座大模型及相關(guān)智能體應(yīng)用協(xié)同配合,對潛在風(fēng)險進(jìn)行識別與響應(yīng)。針對部分風(fēng)險問題,系統(tǒng)并非簡單拒答,而是結(jié)合風(fēng)險研判結(jié)果進(jìn)行分類處理,在風(fēng)險防控與正常使用體驗之間實現(xiàn)平衡。
測評結(jié)果顯示,深知安全風(fēng)控不僅能夠有效識別提示詞注入、指令劫持等風(fēng)險,還能降低對正常業(yè)務(wù)交互的誤傷,為AI智能體從“能用”邁向“可信可用”提供了新的實踐參考。
業(yè)內(nèi)人士認(rèn)為,此次公開測評通過統(tǒng)一數(shù)據(jù)集與評估框架,為AI智能體安全能力建立了新的比較參考體系,也進(jìn)一步體現(xiàn)出行業(yè)對于“可信AI”安全能力建設(shè)的持續(xù)關(guān)注。
隨著AI智能體加速進(jìn)入辦公協(xié)同、客戶服務(wù)、企業(yè)運營等更多實際應(yīng)用場景,能夠兼顧風(fēng)險識別能力與正常使用體驗的安全能力,或?qū)⒊蔀橥苿覣I智能體進(jìn)一步規(guī)模化落地的重要基礎(chǔ)。
(編輯 吳越 郭之宸)
| 12:15 | 百煉智能創(chuàng)始人兼CEO馮是聰:從“... |
| 12:07 | 中國半導(dǎo)體行業(yè)協(xié)會理事長陳南翔:... |
| 12:06 | 迅策精準(zhǔn)卡位AI計量新政 破解“測... |
| 12:06 | 零一汽車擬赴港上市 獲頂級資本多... |
| 12:05 | 中央企業(yè)科技成果產(chǎn)業(yè)化聯(lián)合體在京... |
| 12:05 | 石頭科技實控人提議3億元至4億元回... |
| 12:05 | 貴州天然氣管網(wǎng)公司注冊資本增至19... |
| 12:05 | 浙江榮泰企業(yè)管理有限公司成立 |
| 12:05 | 西藏三快信息科技有限公司成立 |
| 12:03 | 塔斯汀注冊資本增至3億元 |
| 12:03 | 復(fù)星漢霖(南京)生物技術(shù)有限公司... |
| 12:01 | 小米申請注冊MiMo Claw商標(biāo) |
版權(quán)所有《證券日報》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號京ICP備19002521號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細(xì)閱讀法律申明,風(fēng)險自負(fù)。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注