
用安全的模型去守護(hù)不安全的模型,用智能的系統(tǒng)去抵御來自智能的攻擊。
極客在創(chuàng)業(yè),小白在買課,畫師在失業(yè),但一個(gè)尷尬的現(xiàn)實(shí)卻是:AI 落地?zé)峄鸪?,但劇情走的不是降臨路線,而是擲骰子。
而且,在行業(yè)初期,這個(gè)骰子最先落地的面,往往不是黃色就是灰色。
原因也很簡(jiǎn)單,暴利催生動(dòng)力,更何況發(fā)展初期的行業(yè),總是漏洞百出。看這么一組數(shù)據(jù)就清楚了:
當(dāng)前,超過 43% 的 MCP 服務(wù)節(jié)點(diǎn)存在未經(jīng)驗(yàn)證的 Shell 調(diào)用路徑,超過 83% 的部署存在 MCP(Model Context Protocol)配置漏洞;88% 的 AI 組件部署根本沒啟用任何形式的防護(hù)機(jī)制;15 萬個(gè) Ollama 等輕量 AI 部署框架當(dāng)前在全球公網(wǎng)暴露,超過 10 億美元的算力被劫持用于挖礦……
更諷刺的是,攻擊最聰明的大模型,只需要最低級(jí)的手法——只要一套默認(rèn)開放的端口,一個(gè)暴露的 YAML 配置文件,或者一個(gè)未經(jīng)驗(yàn)證的 Shell 調(diào)用路徑,甚至,只要提示詞輸入的夠精準(zhǔn),大模型自己就能幫灰產(chǎn)找到攻擊的方向。企業(yè)數(shù)據(jù)隱私的大門,就這么在 AI 時(shí)代被任意進(jìn)出。
但問題并非無解:AI 不止有生成與攻擊兩面。如何把 AI 用于防護(hù),也越來越多的成為這個(gè)時(shí)代主旋律;與此同時(shí),在云上,為 AI 制定規(guī)則,也成為頭部云廠商的重點(diǎn)摸索方向,而阿里云安全就是其中最典型的代表。
剛剛落幕的阿里云飛天發(fā)布時(shí)刻上,阿里云正式官宣了其云安全的兩條路徑:Security for AI 和 AI for Security,并發(fā)布了「AI 云 盾(Cloud Shield for AI)系列產(chǎn)品」為客戶提供「模型應(yīng)用端到端的安全解決方案」,正是當(dāng)下行業(yè)探索的一個(gè)最佳例證。
01
AI 擲骰子,為什么總是灰色與黃色先朝上?
在人類的技術(shù)史上,AI 并不是第一個(gè)「先被黃暴試水」的新物種,灰黃先爆發(fā),也是技術(shù)普及的規(guī)律而非意外。
1839 年銀板照相術(shù)一出,第一波用戶是色情行業(yè);
互聯(lián)網(wǎng)初期,電商沒起步,成人網(wǎng)站已經(jīng)開始琢磨在線支付;
今天的大模型羊毛黨,某種程度上,也是在復(fù)刻「域名時(shí)代」的暴富神話。
時(shí)代的紅利,總是先被灰色與黃色先摸走。因?yàn)樗麄儾恢v合規(guī)、不等監(jiān)管、效率自然超高。
也因此,每一個(gè)技術(shù)的爆發(fā)期,都先是一鍋「渾湯」,AI 自然不例外。
2023 年 12 月,一位黑客只用了一句提示詞——「$1 報(bào)價(jià)」,就誘導(dǎo)一家 4S 店的客服機(jī)器人差點(diǎn)以 1 美元賣出一臺(tái)雪佛蘭。這就是 AI 時(shí)代最常見的「提示詞攻擊」(Prompt Injection):不需要權(quán)限驗(yàn)證,不留日志痕跡,只靠「說得巧」,就能換掉整個(gè)邏輯鏈。
再深一步,是「越獄攻擊」(Jailbreak)。攻擊者用反問句、角色扮演、繞路提示等方式,成功讓模型說出原本不該說的東西:色情內(nèi)容、毒品制造、偽警告信息……
在香港,有人甚至靠偽造高管語音,從企業(yè)賬戶里卷走了 2 億港元。
除了騙局,AI 還有「非故意輸出」的風(fēng)險(xiǎn):2023 年,某教育巨頭的大模型系統(tǒng)在生成教案時(shí)誤輸出帶有極端內(nèi)容的「毒教材」,僅 3 天,家長維權(quán)、輿情爆發(fā),公司股價(jià)蒸發(fā) 120 億元。
AI 不懂法律,但它有能力,而能力一旦脫離監(jiān)督,就具備傷害性。
但另一個(gè)角度來看,AI 的技術(shù)是新的,但灰產(chǎn)與黃色的最終流向與手段卻是不變的,而要解決它,靠的還是安全。
02
Security for AI
先說一個(gè)被 AI 行業(yè)集體回避的冷知識(shí):
大模型的本質(zhì),不是「智能」,也不是「理解」,而是概率控制下的語義生成。也是因此,一旦超出訓(xùn)練語境,就可能輸出意料之外的結(jié)果。
這種超綱可能是,你想要它寫新聞,它給你寫詩;也可能是你想讓它推薦商品,它突然告訴你今天東京的溫度是零上 25 攝氏度。更有甚者,你告訴它在游戲里,如果拿不到某某軟件的正版序列號(hào),它就會(huì)被槍斃,大模型就真的可以想盡辦法幫用戶 0 成本找到一個(gè)正版軟件序列號(hào)。
而要想保證輸出可控,企業(yè)就得又懂模型,又懂安全。根據(jù) IDC 最新《中國安全大模型能力測(cè)評(píng)報(bào)告》,阿里在與國內(nèi)所有具備安全大模型能力的頭部廠商 PK 中,在 7 項(xiàng)指標(biāo)中有 4 項(xiàng)為第一,其余 3 項(xiàng)也全部高于行業(yè)均值。
做法上,阿里云安全給出的答案也很直接:讓安全跑在 AI 速度前面,構(gòu)建一套自下而上、橫跨三層的全棧防護(hù)框架——從基礎(chǔ)設(shè)施安全,到大模型輸入輸出控制,再到 AI 應(yīng)用服務(wù)保護(hù)。
在這三層里,最有存在感的,是中間層專門針對(duì)大模型風(fēng)險(xiǎn)的「AI 安全護(hù)欄」(AI Guardrail)。
通常來說,針對(duì)大模型安全的風(fēng)險(xiǎn)主要有:內(nèi)容違規(guī)、敏感數(shù)據(jù)泄露、提示詞注入攻擊、模型幻覺、越獄攻擊這幾類。
然而,傳統(tǒng)的安全方案多為通用型架構(gòu),是為 Web 設(shè)計(jì)的,而不是為「會(huì)說話的程序」準(zhǔn)備的,自然也無法對(duì)大模型應(yīng)用特有風(fēng)險(xiǎn)產(chǎn)生精準(zhǔn)識(shí)別與響應(yīng)能力。對(duì)生成內(nèi)容安全、上下文攻擊防御、模型輸出可信性等新興問題更是難以覆蓋。更重要的是,傳統(tǒng)方案,缺乏細(xì)粒度的可控手段與可視化追溯機(jī)制,這就導(dǎo)致企業(yè)在 AI 治理中產(chǎn)生了巨大盲區(qū),不知道問題出在哪里,自然無法解決問題。
AI Guardrail 真正的厲害之處,不只是「它能攔住」,而是無論你是做預(yù)訓(xùn)練大模型、AI 服務(wù)還是 AI Agent 各種不同的業(yè)務(wù)形態(tài),它都知道你在說什么、大模型在生成什么,從而提供精準(zhǔn)的風(fēng)險(xiǎn)檢測(cè)與主動(dòng)防御能力,做到合規(guī)、安全、穩(wěn)定。
具體來說,AI Guardrail 具體負(fù)責(zé)三類場(chǎng)景的防護(hù):
? 合規(guī)底線:對(duì)生成式 AI 輸入輸出的文本內(nèi)容進(jìn)行多維度合規(guī)審查,覆蓋涉政敏感、色情低俗、偏見歧視、不良價(jià)值觀等風(fēng)險(xiǎn)類別,深度檢測(cè) AI 交互過程中可能泄露的隱私數(shù)據(jù)與敏感信息,支持涉及個(gè)人隱私、企業(yè)隱私等敏感內(nèi)容的識(shí)別,并提供數(shù)字水印標(biāo)識(shí),確保 AI 生成內(nèi)容符合法律法規(guī)與平臺(tái)規(guī)范;
? 威脅防御:針對(duì)提示詞攻擊、惡意文件上傳、惡意 URL 鏈接等外部攻擊行為,可實(shí)現(xiàn)實(shí)時(shí)檢測(cè)并攔截,規(guī)避 AI 應(yīng)用的最終用戶的風(fēng)險(xiǎn);
? 模型健康:關(guān)注 AI 模型本身的穩(wěn)定性和可靠性,針對(duì)模型越獄、Prompt 爬蟲等問題建立了一整套檢測(cè)機(jī)制,防止模型被濫用、誤用或者產(chǎn)生不可控的輸出,構(gòu)建 AI 系統(tǒng)的「免疫防線」;
最值得一提的是 AI Guardrail 并非把以上多個(gè)檢測(cè)模塊簡(jiǎn)單堆在一起,而是做到了真正的 ALL IN ONE API,不拆分模塊,不加錢,不換產(chǎn)品。對(duì)于模型輸入輸出風(fēng)險(xiǎn),客戶不需要再去買額外的產(chǎn)品;對(duì)于不同的模型風(fēng)險(xiǎn):注入風(fēng)險(xiǎn)、惡意文件、內(nèi)容合規(guī)、幻覺等問題,都能在同一個(gè)產(chǎn)品里解決。一個(gè)接口包攬 10+類攻擊場(chǎng)景檢測(cè),支持 4 種部署方式(API 代理、平臺(tái)集成、網(wǎng)關(guān)接入、WAF 掛載),毫秒級(jí)響應(yīng)、千級(jí)并發(fā)處理,精準(zhǔn)率高達(dá) 99%。
也是因此,AI Guardrail 的真正意義,在于把「模型安全」變成了「產(chǎn)品能力」,讓一個(gè)接口,頂一支安全團(tuán)隊(duì)。
當(dāng)然,大模型不是懸在空中的概念,它是跑在硬件和代碼上的系統(tǒng),并承接上層的應(yīng)用。而針對(duì)基礎(chǔ)設(shè)施安全、AI 應(yīng)用服務(wù)保護(hù),阿里云安全,也全都做了升級(jí)。
基礎(chǔ)設(shè)施層,阿里云安全推出了云安全中心,核心是 AI-BOM、AI-SPM 等產(chǎn)品。
具體來說,AI-BOM(AI 物料清單)和 AI-SPM(AI 安全態(tài)勢(shì)管理)兩大能力,分別解決「我裝了什么 AI 組件」和「這些組件有多少洞」這兩個(gè)問題。
AI-BOM 的核心,是把部署環(huán)境中的 AI 組件一網(wǎng)打盡:讓 Ray、Ollama、Mlflow、Jupyter、TorchServe 等超 30 類主流組件,形成一張「AI 軟件物料清單」,自動(dòng)識(shí)別其中存在的安全弱點(diǎn)與依賴漏洞。發(fā)現(xiàn)問題資產(chǎn),不再靠人肉排查,而是通過云原生掃描。
AI-SPM 的定位則更像是「雷達(dá)」:從漏洞、端口暴露、憑據(jù)泄漏、明文配置、越權(quán)訪問等多個(gè)維度持續(xù)評(píng)估系統(tǒng)安全態(tài)勢(shì),動(dòng)態(tài)給出風(fēng)險(xiǎn)等級(jí)與修復(fù)建議。它讓安全從「快照式合規(guī)」,變成「流媒體式治理」。
一句話總結(jié):AI-BOM 知道你在哪里可能打過補(bǔ)丁,AI-SPM 知道你還在哪些地方會(huì)再中一拳,盡快加緊防范。
針對(duì) AI 應(yīng)用保護(hù)層,阿里云安全的核心產(chǎn)品是 WAAP(Web Application & API Protection)。
模型輸出再聰明,如果入口全是腳本請(qǐng)求、偽造 Token、濫刷接口,那也撐不了幾秒。阿里 WAAP(Web Application & API Protection)就是為此而生。它對(duì) AI 應(yīng)用不是按「?jìng)鹘y(tǒng) Web 系統(tǒng)」處理,而是提供專門的 AI 組件漏洞規(guī)則、AI 業(yè)務(wù)指紋庫與流量畫像系統(tǒng)。
比如:WAAP 已覆蓋 Mlflow 的任意文件上傳、Ray 服務(wù)遠(yuǎn)程命令執(zhí)行等 50+組件漏洞;內(nèi)置的 AI 爬蟲指紋庫,可以識(shí)別每小時(shí)新增萬級(jí)以上語料刷子與模型測(cè)評(píng)工具;API 資產(chǎn)識(shí)別功能,可以自動(dòng)發(fā)現(xiàn)企業(yè)內(nèi)部哪一套系統(tǒng)暴露了 GPT 接口,給安全團(tuán)隊(duì)「打點(diǎn)地圖」。
最重要的是,WAAP 與 AI Guardrail 并不沖突,反而互補(bǔ):一個(gè)看「是誰來了」,一個(gè)看「說了什么」。一個(gè)像「身份驗(yàn)證器」,一個(gè)像「言行審查員」。這讓 AI 應(yīng)用具備了一種「自我免疫」能力——通過識(shí)別、隔離、追蹤、反制,不止「攔住壞人」,更能「別讓模型自己變壞」。
03
AI for Security
既然 AI 落地是擲骰子,有人拿它算命、有人讓它寫情詩、有人用它做灰產(chǎn),那也就不奇怪,有人會(huì)用它來搞安全。
過去,安全運(yùn)營需要一群人每天看著一堆紅燈綠燈的告警日夜巡邏,白天接手昨天的爛攤子,晚上陪著系統(tǒng)值夜班。
現(xiàn)在,這些都可以交給 AI 完成。2024 年,阿里云安全體系全面接入通義大模型,推出覆蓋數(shù)據(jù)安全、內(nèi)容安全、業(yè)務(wù)安全、安全運(yùn)營的 AI 能力集群,并提出一個(gè)新口號(hào):Protect at AI Speed。
意思很明確:業(yè)務(wù)跑得快,風(fēng)險(xiǎn)更快,但安全還要更快一步。
而用 AI 搞定安全,其實(shí)就是兩件事:安全運(yùn)營效率提升+安全產(chǎn)品智能化升級(jí)。
傳統(tǒng)安全系統(tǒng)的最大痛點(diǎn)是「策略更新滯后」:攻擊者變了,規(guī)則沒變;告警來了,沒人理解。
大模型帶來改變的關(guān)鍵,在于把安全系統(tǒng)從規(guī)則驅(qū)動(dòng)轉(zhuǎn)向模型驅(qū)動(dòng),以「AI 理解能力 + 用戶反饋」構(gòu)建起一個(gè)閉環(huán)生態(tài)——AI 理解用戶行為 → 用戶反饋告警結(jié)果 → 模型持續(xù)訓(xùn)練 → 檢測(cè)能力越來越準(zhǔn) → 周期越來越短 → 風(fēng)險(xiǎn)越來越難藏,這就是所謂的「數(shù)據(jù)飛輪」:
其優(yōu)勢(shì)有二:
一方面是云上租戶安全運(yùn)營提效:過去,威脅檢測(cè)往往意味著「海量告警+人工篩查」的低效模式。如今,通過智能建模精準(zhǔn)識(shí)別惡意流量、主機(jī)入侵、后門腳本等異常行為,告警命中率大幅提升。同時(shí),圍繞處置環(huán)節(jié),系統(tǒng)實(shí)現(xiàn)了自動(dòng)化處置與極速響應(yīng)的深度協(xié)同——主機(jī)純凈度穩(wěn)定保持在 99%,流量純凈度更是逼近 99.9%。此外,AI 還會(huì)深度參與告警歸因、事件分類、流程建議等任務(wù),目前,告警事件類型覆蓋率已達(dá)到 99%,而大模型的用戶覆蓋率也超過 88%,安全運(yùn)營團(tuán)隊(duì)的人效得到前所未有的釋放。
另一方面是云安全產(chǎn)品能力快速提升。在數(shù)據(jù)安全層與業(yè)務(wù)安全層,AI 被賦予了「守門人」職責(zé):基于大模型能力,可在云上自動(dòng)識(shí)別 800+類實(shí)體數(shù)據(jù)并智能化脫敏與加密處理。不止于結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)還內(nèi)置 30 多種文檔與圖像識(shí)別模型,能夠?qū)D片中的身份證號(hào)、合同要素等敏感信息進(jìn)行實(shí)時(shí)識(shí)別、分類與加密。整體數(shù)據(jù)打標(biāo)效率提升 5 倍,識(shí)別準(zhǔn)確率達(dá)到 95%,極大降低了隱私數(shù)據(jù)泄漏的風(fēng)險(xiǎn)。
舉個(gè)例子:在內(nèi)容安全場(chǎng)景下,傳統(tǒng)做法是靠人審核、打標(biāo)簽、大規(guī)模標(biāo)注訓(xùn)練?,F(xiàn)在,通過 Prompt 工程與語義增強(qiáng),阿里實(shí)現(xiàn)了標(biāo)注效率提升 100%、模糊表達(dá)識(shí)別提升 73%、圖像內(nèi)容識(shí)別提升 88%、AI 活體人臉攻擊檢測(cè)準(zhǔn)確率 99% 的真實(shí)收益。
如果說飛輪主打 AI 結(jié)合人類經(jīng)驗(yàn)的自主防控,那么智能助手就是安全人員的全能助理。
安全運(yùn)營人員每天面對(duì)最多的問題是:這個(gè)告警什么意思?為什么會(huì)觸發(fā)?是不是誤報(bào)?我要怎么處理?換作過去,查這些問題要翻日志、查歷史、問老員工、打工單、排技術(shù)支持……現(xiàn)在,只要一句話。
不過,智能助手的功能定位不只是問答機(jī)器人,更像是安全領(lǐng)域的垂直 Copilot,其五大核心能力包括:
-
產(chǎn)品答疑助手:自動(dòng)回答如何配置某個(gè)功能、為什么會(huì)觸發(fā)這個(gè)策略、哪些資源未開啟防護(hù),替代大量工單服務(wù);
-
告警解釋專家:輸入告警編號(hào),自動(dòng)輸出事件解釋、攻擊鏈溯源、建議響應(yīng)策略,并支持多語言輸出;
-
安全事件復(fù)盤助手:自動(dòng)梳理一次入侵事件的完整鏈條,生成時(shí)間軸、攻擊路徑圖與責(zé)任判定建議;
-
報(bào)告生成器:一鍵生成月度/季度/應(yīng)急安全報(bào)告,涵蓋事件統(tǒng)計(jì)、處置反饋、運(yùn)營成效,支持可視化導(dǎo)出;
-
全語言支持:已覆蓋中文、英文,國際版本 6 月上線,支持自動(dòng)適配海外團(tuán)隊(duì)使用習(xí)慣。
別小看這「五件小事」,截止目前,阿里官方數(shù)據(jù)表明:已服務(wù)用戶數(shù)超 4 萬個(gè),用戶滿意度 99.81%,覆蓋告警類型達(dá) 100%,prompt 支持能力提升 1175%(同比 FY24)。簡(jiǎn)單說,它把值夜班的績效滿分同事、寫報(bào)告的實(shí)習(xí)生、處理告警的工程師、懂業(yè)務(wù)的安全顧問,全部打包成一個(gè) API,而借助這個(gè)能力,人類只做決策,不再巡邏。
04
尾聲
回顧過去,歷史從來不缺「劃時(shí)代的技術(shù)」,缺的是撐得過第二年熱潮的技術(shù)。
互聯(lián)網(wǎng)、P2P、區(qū)塊鏈、無人駕駛……每一波技術(shù)爆發(fā)時(shí),都曾被稱作「新基建」,但最終留下成為真正基礎(chǔ)設(shè)施,只有少數(shù)能穿越「治理真空」的。
如今的生成式 AI 正處在類似階段:一邊是模型百花齊放、資本趨之若鶩、應(yīng)用層層突破;一邊是提示詞注入、內(nèi)容越權(quán)、數(shù)據(jù)外泄、模型操控,漏洞密布、邊界模糊、責(zé)任失焦。
但 AI 又跟以往的技術(shù)不一樣。它不僅能畫圖、寫詩、編程、翻譯,還能模仿人類語言、判斷乃至情緒。但也正因如此,AI 的脆弱,不止源于代碼漏洞,而是人性的映射。人類有偏見,它也會(huì)學(xué)會(huì);人類貪圖便利,它也會(huì)替你投機(jī)取巧。
技術(shù)自身的便捷性,則是這種映射的放大器:過去的 IT 系統(tǒng)還要講「用戶授權(quán)」、攻擊靠滲透;現(xiàn)在的大模型只需要提示詞注入,跟你聊聊天就能帶來系統(tǒng)失誤、隱私泄露。
當(dāng)然,不存在「完美無瑕」的 AI 系統(tǒng),那是科幻,不是工程。
唯一的答案,是用安全的模型,去守護(hù)不安全的模型;用智能的系統(tǒng),去對(duì)抗智能的威脅——用 AI 擲骰子,阿里選擇安全朝上。
了解更多產(chǎn)品技術(shù)升級(jí),關(guān)注 # 阿里云飛天發(fā)布時(shí)刻