大模型安全PK：怎么就讓一家車廠拿了一等獎！

來源：量子位編輯：非小米時間：2024-11-01 13:35人閱讀

#大模型 #理想汽車

一家車廠，沖進(jìn)了大模型安全第一梯隊。

最近，中國計算機(jī)學(xué)會(CCF)舉辦了大模型安全挑戰(zhàn)賽，參賽者包括一眾大模型安全公司，知名研究機(jī)構(gòu)等。

激烈的角逐后，成績放榜，讓人意外：

第一梯隊的玩家里，竟然有一家車廠，而且還是一家成立不到10年的新勢力，理想。

為什么一家車廠能沖進(jìn)大模型安全第一梯隊？

大模型安全都有哪些問題，怎樣解決？

如何建設(shè)大模型安全能力？

帶著行業(yè)關(guān)心的問題，智能車參考對話了理想汽車資深安全總監(jiān)路放及其團(tuán)隊成員熊海瀟、劉超，探究理想在AI安全上的思考。

△ 理想汽車路放

在路放看來，理想?yún)①惒⒉皇菫榱双@獎，也不是為了炫技。

參賽只是為了驗(yàn)證能力，獲獎就是能力的證明，進(jìn)一步促進(jìn)自我提高。

參賽的最終目的，歸根結(jié)底，還是為了守護(hù)100萬個家庭的AI安全。

大模型都有哪些安全問題？

大模型正在重塑一切，然而新事物為人們帶來新體驗(yàn)的同時，也帶來了新的問題，具體到安全領(lǐng)域，包括Prompt注入、回答內(nèi)容安全、訓(xùn)練數(shù)據(jù)保護(hù)、基礎(chǔ)設(shè)施與應(yīng)用攻擊防護(hù)等等。

問題之多難以盡述，因?yàn)榇竽Ｐ兔鎸Φ恼Z言空間是無限的，這就導(dǎo)致大模型安全和自動駕駛一樣，都有著無窮無盡的Corner Case。

所以，路放針對部分常見問題進(jìn)行了解析，比如Prompt注入。

路放表示，大模型的Prompt注入和安全領(lǐng)域常見的SQL注入很多相似之處。

只不過以前是用編程語言制造bug，如今則是利用人類自然語言的“bug”，即通過語言的二異性，指代關(guān)系的錯亂，繞過大模型前側(cè)的防護(hù)。

比如防護(hù)方輸入指令，告訴大模型，你要做一個正直的大模型，誠實(shí)的大模型，輸出的內(nèi)容都要三觀正。

攻擊方此時進(jìn)行prompt注入，告訴大模型：前面的話都是“逗你玩兒”。

由于大模型具備上下文的理解能力，就會忽略掉前面的安全指令。

攻擊者甚至可以利用Prompt注入劫持大模型，讓大模型按照其指定的行為工作。

除此外，攻擊者還可以從數(shù)據(jù)本身入手，篡改訓(xùn)練數(shù)據(jù)，制造問題。

比如誰是NBA的G.O.A.T(歷史最佳運(yùn)動員)？

在大模型的訓(xùn)練集中，可能存放的答案是喬丹，但攻擊者可以篡改為蔡徐坤。

由于訓(xùn)練數(shù)據(jù)是錯誤的，那大模型獲取的能力自然會有異常，在回答有關(guān)問題時，就會鬧出笑話。

如果是嚴(yán)肅事件，還會帶來更大的麻煩。

數(shù)據(jù)問題和promt注入，有時是聯(lián)動的。

比如“奶奶漏洞”，也就是此前ChatGPT被曝出的“Windows序列號數(shù)據(jù)泄露問題”：

路放透露，這種通過“角色扮演”，利用特定prompt引發(fā)的機(jī)密數(shù)據(jù)泄露，目前還不會在理想的AI助手“理想同學(xué)”上出現(xiàn)。

但考慮到理想目前的“車和家”定位，為了充分保障家庭隱私安全，團(tuán)隊“料敵于先”，內(nèi)部也在進(jìn)行相關(guān)案例測試。

prompt注入和數(shù)據(jù)投毒，都是AI時代由于技術(shù)范式轉(zhuǎn)變產(chǎn)生的新手段。

除此外，路放介紹，還有一種惡意資源調(diào)度方式，是傳統(tǒng)的攻擊手段，類似DoS(Denial of Service)攻擊，從外部發(fā)起對大模型的廣泛攻擊，過量調(diào)度服務(wù)，耗盡大模型的推理資源，造成正常需求堵塞。

安全問題那么多，攻擊方式各種各樣，如何提高大模型的安全能力呢？

攻擊-防御-評估三角

“沒有評估，就沒有提高”(If you can’t measure it， you can’t improve it)。

路放引用管理學(xué)大師彼得·德魯克的名言，引出了理想的評估三角，這就是理想大模型安全建設(shè)的秘訣。

所謂評估三角，包括防御-攻擊和評估，三者一體，互相促進(jìn)迭代。

首先是防御，這是大模型安全的核心問題，被攻擊了怎么防？

在最早期，安全問題可以依靠簡單的限制敏感詞輸入，進(jìn)行過濾。

而現(xiàn)在由于技術(shù)范式的轉(zhuǎn)變，模型在訓(xùn)練時會將安全問題“學(xué)”進(jìn)去，很難前置過濾。

如果過濾條件太嚴(yán)格，有些數(shù)據(jù)不能用，會影響模型的生成質(zhì)量。

但如果限制的太寬松，效果又不大，非常矛盾。

路放透露，目前理想汽車在前端采用的是“縱深防御”方式，一道防線接著一道防線，防線之間串并聯(lián)，AI模型和規(guī)則手段全都上。

其中一個代表方向是對齊。

對齊即在模型訓(xùn)練時通過人類的強(qiáng)化反饋，做安全能力的對齊，讓模型意識到人類的偏好，比如道德觀，使其生成的內(nèi)容更符合人們的期望，成為一個“好大模型”。

比如大家都很熟悉的Meta，在發(fā)布LLAMA 3.1時，還同時公布了兩個新模型：

Llama Guard 3和Prompt Guard。

前者是在LLAMA 3.1-8B的基礎(chǔ)上進(jìn)行了微調(diào)，可以將大模型的輸入和響應(yīng)分類，從大模型自身入手保護(hù)大模型。

Prompt Guard則是基于BERT打造的小型分類器，可以檢測Prompt注入和越獄劫持，相當(dāng)于在模型外加了層護(hù)欄。

其實(shí)這種從模型本身入手，加上在外套殼的思路，和解決端到端下限的思路一樣。

不過一味的防御，并不能提高大模型的防御能力，需要“以攻促防”。

熊海瀟對此解釋稱，用AI領(lǐng)域的話術(shù)，“以攻促防”也叫數(shù)據(jù)閉環(huán)，要有海量且多樣的攻擊樣本，來進(jìn)行內(nèi)部對抗，這樣才能夠提高防御能力。

因?yàn)椴还苁抢媚Ｐ妥陨硇纬砂踩芰Γ€是通過外在的安全護(hù)欄保護(hù)模型，本質(zhì)上都是在訓(xùn)練特定領(lǐng)域的東西，主要挑戰(zhàn)就在于數(shù)據(jù)或者說攻擊樣本夠不夠。

都有哪些攻擊方式，能夠“以攻促防”？主要是三種：

大模型自我迭代

自動化對抗

人工構(gòu)造

首先，大模型自我迭代，是指人可以給大模型提供類似思維鏈的一些指導(dǎo)思想，讓大模型根據(jù)指導(dǎo)思想去生成對應(yīng)的能力。

這樣就用自動化代替了部分人工構(gòu)造的過程。

而且因?yàn)榇竽Ｐ偷姆夯芰軓?qiáng)，所以它可以舉一反三，比如前面提到的“奶奶問題”，大模型學(xué)習(xí)到后還能相應(yīng)地解決很多其他“角色扮演”問題。

然后是自動化對抗，相對更透明，有點(diǎn)像前面提到的“對齊”工作，需要借助自家大模型在內(nèi)部做對抗性訓(xùn)練。

兩種工作都是自動化完成的，這是由大模型安全工作的特性決定的。

因?yàn)榇竽Ｐ兔媾R的語言空間是無限的，因此必須要用自動化工具，去生成海量的測試用例嘗試攻擊，尋找脆弱點(diǎn)，這樣才能提升大模型的防御能力。

那人工構(gòu)造成本高，速度還慢，是不是就沒什么必要了？

路放的回應(yīng)很有意思：

人工不能被完全取代。

路放表示，自動化固然可以減輕人的工作量，但仍然需要人去發(fā)現(xiàn)更上一層的“攻擊模式”，新的攻擊模式可能會創(chuàng)造出更多新的攻擊語料。

如果一味的擴(kuò)大攻擊語料的量，而不尋找新的攻擊模式，大模型就會因?yàn)槭艿竭^多同種語料攻擊，產(chǎn)生“耐藥性”，整體安全能力就進(jìn)入了瓶頸。

如果將內(nèi)部攻防比作一場演習(xí)，那前面的自動化工作就像沖鋒在前的士兵，人工構(gòu)造則負(fù)責(zé)制定戰(zhàn)略，起到將軍的作用。

正所謂“千軍易得，一將難求”，大模型安全也是如此。

攻擊和防御，是大模型安全建設(shè)的基礎(chǔ)，但還不完整。

路放認(rèn)為，大模型安全一定要有一個動態(tài)的評估基準(zhǔn)。

評估，就是去評估防御側(cè)的能力，設(shè)定基準(zhǔn)來判斷大模型的防御能力有沒有回退，符不符合團(tuán)隊的要求。

只有同時建立了防御、攻擊和評估能力，大模型安全能力才能不斷提高：

攻擊側(cè)發(fā)現(xiàn)了問題，反饋給防御側(cè)，提高防御能力，評估的基準(zhǔn)隨之提高，為攻擊側(cè)創(chuàng)造了新的努力空間，三者形成鏈路，提高整體的安全能力。

就好像大模型開始可能只具備小學(xué)生的知識，通過練習(xí)，在小學(xué)生的階段考到了100分，那評估側(cè)這時會將標(biāo)準(zhǔn)提高到初中生，然后大模型此時的安全能力可能也就剛及格。

再后來又提高到初中生標(biāo)準(zhǔn)的80分，雖然還沒滿分，但顯然能力已經(jīng)比過去100分的小學(xué)生高多了。

AI領(lǐng)域的安全團(tuán)隊有很多，具備安全能力的車廠有很多。

進(jìn)入第一梯隊的，為什么會是一家車廠，又為什么會是理想？

第一梯隊，為什么是理想？

路放認(rèn)為，理想之所以有很好的大模型安全能力，得益于理想內(nèi)部對AI很重視，對AI安全很重視。

對AI重視的表現(xiàn)有很多。

首先，在理想內(nèi)部，AI的戰(zhàn)略優(yōu)先級很高。

最直接的證明是，理想自研了大模型，后續(xù)的安全建設(shè)有了很好的基礎(chǔ)。

路放透露，因?yàn)榇竽Ｐ褪亲匝械模虼死硐雽Υ竽Ｐ途哂锌刂茩?quán)，可以自行迭代，升級安全能力。

對AI安全的重視直接體現(xiàn)在，理想專門為大模型建立了安全保障團(tuán)隊，而不是只將安全作為運(yùn)營的一部分。

理想還透露，更有甚者，由于AI的快速發(fā)展，甚至有玩家忽視了AI安全，將訓(xùn)練數(shù)據(jù)暴露在風(fēng)險之中。

與之相對的，理想則是把安全融入到產(chǎn)品的全生命周期。

從最底層的硬件基礎(chǔ)設(shè)施，到軟件一開始的需求評定，再到后來的功能設(shè)計，還有最終服務(wù)部署，安全管理貫穿始終。

在路放看來，這也是對100萬個家庭負(fù)責(zé)。

畢竟理想已經(jīng)交付了100萬輛車，每輛車不可能只坐一個人，理想的服務(wù)實(shí)際覆蓋到了數(shù)百萬人。

廣泛的用戶群體，帶來廣泛的場景，為理想大模型提供了實(shí)戰(zhàn)檢驗(yàn)場地，讓路放和團(tuán)隊看到了更多的“Bad Case”。

正是在不斷解決Bad Case的過程中，理想的大模型安全能力得到提高，最終沖進(jìn)行業(yè)頭部。

在頭部玩家看來，目前行業(yè)還存在哪些限制和難題呢？

路放表示，實(shí)際上做大模型安全很考驗(yàn)工程能力，行業(yè)將此稱之為“低摩擦”：

占用的資源要盡量少，但又要實(shí)現(xiàn)很好的效果。

輕量化兼顧高性能，是行業(yè)的天然限制，將長期存在，不可避免。

除此外，目前行業(yè)還存在一些棘手難題，特別是大模型安全能力回退的問題。

路放舉例稱，大模型在迭代訓(xùn)練時，數(shù)據(jù)語料可能具有傾向性，就像人“近朱者赤近墨者黑”，模型的“性格”也會在訓(xùn)練后發(fā)生變化。

比如假設(shè)某次大模型的升級是加強(qiáng)了娛樂性的訓(xùn)練，那模型整體就會變得偏向輕松搞笑，升級后回答問題時就不太謹(jǐn)慎，導(dǎo)致安全能力下降。

總結(jié)一下，理想獲得成績的原因，AI的高戰(zhàn)略優(yōu)先級是根源，推動自研大模型落地，然后以此為基礎(chǔ)，經(jīng)年累月之下，專業(yè)團(tuán)隊開花結(jié)果，斬獲佳績。

實(shí)現(xiàn)自我證明后，理想的系統(tǒng)安全能力正在受到行業(yè)關(guān)注。

路放透露，目前理想已受邀參與C-ICAP（中國智能網(wǎng)聯(lián)汽車技術(shù)規(guī)程）的規(guī)程制定。

不知不覺間，新勢力理想已經(jīng)成為行業(yè)規(guī)則的制定者之一，成為推動行業(yè)發(fā)展的重要力量。

是時候重估理想了。

爆款≠冰箱彩電大沙發(fā)

一葉知秋，理想在大模型安全上的能力建設(shè)，體現(xiàn)的是“技術(shù)理想”的轉(zhuǎn)變：

2023年，理想全年研發(fā)投入為106億元，占營收比約為8.6%。

2024年上半年，理想研發(fā)投入累計超60億元，占營收比進(jìn)一步提高至10.5%。

研發(fā)投入持續(xù)領(lǐng)跑新勢力，這是理想在激烈的競爭中，持續(xù)爆款的根本動力。

研發(fā)帶來的能力立竿見影。

在過去，路放及其團(tuán)隊支撐的智能座艙已經(jīng)站穩(wěn)了第一梯隊。

今年下半年以來，理想智能駕駛進(jìn)展加速，無圖NOA上車，實(shí)現(xiàn)“全國都能開”，最近E2E+VLM全量推送，新范式進(jìn)一步提高了能力上限。

看得見的“冰箱彩電大沙發(fā)”很容易復(fù)刻，看不見的智能化體驗(yàn)則不然。

這也是為什么行業(yè)競爭如此激烈的今天，市場相繼推出多款“奶爸車”后，理想月交付量依然持續(xù)攀高，在新勢力中率先突破100萬輛交付。

這背后代表著100萬個家庭的認(rèn)可，100萬個家庭用腳投票，選擇了更好體驗(yàn)的產(chǎn)品。

而這種美好體驗(yàn)，正是由于理想對AI各個方面，包括應(yīng)用側(cè)和安全側(cè)的重視。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱：business@qudong.com

標(biāo)簽：大模型理想汽車

上一篇:前《GTA》總監(jiān)：直接關(guān)閉《星鳴特攻》工作室太浪費(fèi)了

下一篇:前三季度虧損3.43億！龍芯：自研八核性能追上英特爾酷睿12/13

亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

大模型安全PK：怎么就讓一家車廠拿了一等獎！

相關(guān)文章

猜你喜歡

網(wǎng)購9.9元商品后惡意“僅退款”！拼多多商家起訴買家贏了：獲賠150元

狂野的原始人：隨意與其它人種交配坑苦了現(xiàn)代人的健康

網(wǎng)紅撒鹽哥硬拉梅西合照遭網(wǎng)暴網(wǎng)友吐槽：不禮貌、純蹭熱度

女子32層窗外無防護(hù)擦玻璃拍攝者：太危險了

鱷魚冬眠罕見畫面曝光：只有鼻孔露出冰層仿佛凍僵

《美人魚2》曝2024年春節(jié)上映周星馳經(jīng)紀(jì)人辟謠

亚洲图片你懂的_亚洲精品一卡二卡_av伦理在线_日韩一二三区_不卡av在线免费观看_久久久精品日韩欧美_欧美色偷偷大香_免费av片风间由美在线

大模型安全PK：怎么就讓一家車廠拿了一等獎！

相關(guān)文章

猜你喜歡

網(wǎng)購9.9元商品后惡意“僅退款”！拼多多商家起訴買家贏了：獲賠150元

狂野的原始人：隨意與其它人種交配 坑苦了現(xiàn)代人的健康

網(wǎng)紅撒鹽哥硬拉梅西合照遭網(wǎng)暴 網(wǎng)友吐槽：不禮貌、純蹭熱度

女子32層窗外無防護(hù)擦玻璃 拍攝者：太危險了

鱷魚冬眠罕見畫面曝光：只有鼻孔露出冰層 仿佛凍僵

《美人魚2》曝2024年春節(jié)上映 周星馳經(jīng)紀(jì)人辟謠

狂野的原始人：隨意與其它人種交配坑苦了現(xiàn)代人的健康

網(wǎng)紅撒鹽哥硬拉梅西合照遭網(wǎng)暴網(wǎng)友吐槽：不禮貌、純蹭熱度

女子32層窗外無防護(hù)擦玻璃拍攝者：太危險了

鱷魚冬眠罕見畫面曝光：只有鼻孔露出冰層仿佛凍僵

《美人魚2》曝2024年春節(jié)上映周星馳經(jīng)紀(jì)人辟謠