數千行代碼實現端到端智駕 留給傳統自動駕駛公司時間不多了
熱熱鬧鬧的2024北京車展期間,商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛,給出了這樣的新判斷。
今年,高階智駕到了普及時刻。自動駕駛也到了“淘汰賽”階段:功能上卷“無圖”,成本層面卷“千元級”,并且還要“標配”,技術上則競爭“端到端”、“數據驅動”。
王曉剛認為,行業熱議的這些概念不是突然流行的,這一切不過是AI技術演進的必然結果。
而商湯早在2018年,就已經在如今的競爭局面做儲備。
現象和體驗:車展上商湯絕影的新產品新技術
北京車展今天剛剛開幕。智能車參考粗略統計了一下,整個車展上,大約有八九十款不同的品牌、車型,都搭載了商湯絕影的技術或方案。
在整整一年前的上海車展,這個數字還是三四十款。
這些技術和方案,都是已經量產交付給用戶的。
比如大熱的小米SU7,之前官方展示過一個引起熱議的交互場景:
用戶指著前方的一輛車,詢問語音助手這是什么品牌什么車型,車機立刻做出了準確的回答。
實際上,背后是絕影的一系列大模型協作展現出的能力。比如大語言模型準確理解用戶指令及給出相應回答;多模態大模型則將視頻、聲音、圖像等等數據相關聯,形成環境理解、邏輯思維和內容生成能力。
智能駕駛方案上,廣汽埃安旗下主打實用性的中型SUV LX Plus,搭載具備高速領航輔助能力的ADAS系統,背后的支持,是商湯絕影的環視BEV感知能力和通用目標感知能力。
而商湯絕影的高速領航全棧智能駕駛能力,搭載在新勢力哪吒的轎跑新車S上。
已交付量產的成熟方案產品之外,絕影還在北京車展上展示出了更多即將量產上車的“黑科技”。
比如今年蘋果的Vision Pro大熱,讓人們領略到了3D交互的魅力。絕影則推出了兩大全新座艙3D交互,包括3D Gaze高精視線交互和3D動態手勢交互。
其中3D Gaze高精視線交互將讓用戶通過眼神控制中控圖標;3D 動態手勢交互是行業領先的支持動態手勢和手部微動作識別的智能座艙技術,能讓用戶通過手勢“隔空”進行各類座艙交互。
兩個功能配合,體驗幾乎就是“Vision Pro”裸眼上車,智能座艙的交互更加符合人類直覺,更自然。


2022年末,商湯提出了行業首個感知決策一體化自動駕駛通用模型UniAD,次年,這篇論文獲得了計算機頂會CVPR 2023年的最佳論文。
剛剛在北京車展,商湯絕影宣布這篇最佳論文要“上車”了!
體驗方面,潮汐車道對于傳統智駕方案來說是很大的挑戰,但是端到端大模型在經過相關數據的訓練之后,可以對指示文字、圖標以及車流變化等外部數據進行解讀并理解這些信息,從而主動變更路線,駛入或離開潮汐車道。
又比如鄉村道路上經常碰到這樣的場景:在對向來車的情況下,前方有行人在跑步:
在確保安全的情況下,搭載UniAD的測試車先加速向左行駛繞開行人,而后快速向右打方向避開對向來車,順利通行。
之前的智駕產品在有地圖信息的情況下也能機會能通過,但成功率不敢保證,因為背后是一套復雜規則定義的“被動觸發”機制,但路上情況稍有不同,系統就無計可施。
UniAD不再依賴人工窮舉的感知“白名單”,規控層面也不再是傳統手寫規則,通過數據學習和驅動,AI司機僅憑攝像頭的視覺感知,能夠應對城區甚至是無標線和交通標識的鄉村道路等復雜環境。
智能駕駛今年開啟了鋪天蓋地的時代,功能上高速NOA成了標配門檻,價格也下探到了15-20萬元的車型。
但熱鬧之下,最近卻有不少行業技術大牛都發出了相同的警告:
必須要認真考慮技術路線了,以前基于規則的技術棧能走多遠,是個問題。
這背后是智能駕駛算法,從以往模塊化、規則驅動,向端到端的一體化模型、數據驅動演變。
所以,比“上了多少車”更加重要的,是商湯絕影的端到端模型的率先上車,代表著中國智能車行業發展趨勢和今后新技術范式。
技術:絕影端到端,「真」在哪?
商湯絕影提出的UniAD,是國內玩家中首個端到端自動駕駛大模型。
而且令人吃驚的是,量產上車的進度,也是最快的。
除了剛才提到的體驗優勢,UniAD還有4個關鍵點:
高效開發迭代“純視覺、純無圖”高階智駕與生俱來感知決策一體化的真·端到端體量輕,代碼量數千行
分別來看,端到端模型能夠通過完全數據驅動的模式,將其學到的駕駛能力和技巧遷移泛化到其他場景當中,自主且高效解決行泊場景中新出現的各類長尾問題,具備更快的迭代效率,可以有效降低開城成本,幫助車企更快速實現“全國都能開”的目標。
而現在大家都在卷的“無圖NOA”功能,以及很多玩家都在積極推進的純視覺城市NOA能力,這些都將是端到端模型與生俱來的天賦,因為它只需要導航信息就能把車駕駛到目的地。
這種“純無圖”、“純視覺”的能力,自然就可以幫助車企降低軟硬件成本,徹底告別高精度地圖覆蓋低、更新慢,以及需要靠激光雷達等傳感器冗余才能解決各種Corner case帶來的成本難題。
更重要的是,從UniAD的描述中可以看出,其最大的不同就是和人類駕駛思維模式無限接近,主動學習、思考和推理,理解復雜的交通環境,而不是根據不同場景被動觸發對策。
怎么做到的?
其實,所謂“端到端”是針對傳統技術范式而言的,其中自動駕駛的感知、決策、規控等等互相獨立。傳感器采集到的數據,需要通過這一系列不同的算法模塊,最終才能“變成”操作指令。
并且這樣的技術體系中,通常只有感知模塊應用AI模型,其余模塊都是基于人為定義的手寫規則。
每個獨立模塊之間的信息是逐級傳遞的,在這個過程中必然會存在信息的丟失和誤差,而且前一個模塊的誤差會影響到下一個,多個模塊之間的信息誤差會不斷累積,進而影響到自動駕駛方案的整體效果。
其次,規則主導的智駕功能,行為上刻板僵硬,面對不同路況不能采取靈活應對措施,導致整個產品不好用、不敢用。
王曉剛表示,Waymo、特斯拉,包括商湯絕影在內,都嘗試過對基于規則的傳統智駕方案進行優化和迭代,但都無法突破這套算法框架的局限性。
想要從感知開始就實現信息的無損傳遞,必須要有一個全新的算法范式——端到端算法模型。
目前,市面上不少端到端方案是在感知和決策兩個模塊分別搭建一個大模型框架,因為這樣更容易實現落地。但“兩段式”方案的兩個模型之間傳遞的依然是人為定義的顯性信息,避免不了信息損失和誤差,降低了難度,也拉低了它能力的上限。
商湯絕影UniAD方案則是將感知、決策、規劃等模塊都整合到一個全棧Transformer端到端模型,實現感知決策一體化,不需要對感知數據進行抽象和逐級傳遞,“所見即所得”:
將傳感器采集的原始信息輸入到模型中,然后以自車軌跡規劃為準進行指令輸出。
這就是UniAD被稱為“真·端到端”的關鍵原因——并非只是把決策規模模塊“神經網絡”化,而是從一開始,就完全將感知到決策整個過程當做一個整體,來思考和解決問題。
“端到端”的自動駕駛模型其實不是一個很新的東西,2016年就由英偉達首次提出。但之所以現在開始落地實踐,是因為端到端大模型“黑盒子”缺乏可解釋性,卡住了大部分玩家:性能體驗不佳,但卻不知道該怎么調參…
商湯的方案是這樣:與不可解耦得端到端方案相比,UniAD將多個模塊整合到一個端到端模型架構之下,仍可以對各個模塊進行分別的監測和優化。
王曉剛認為,端到端模型上車量產是一個趨勢,類似“輸入數據輸出油門剎車信號”這樣的模型,目前上車仍然具有安全風險。
“一體化”的程度不是一蹴而就,是一個過程,逐漸將感知、決策、規控等的各環節融入一個大模型之中。
UniAD之所以能稱得上是國內首個“真”端到端,是因為它的一體化程度最高,融合之路走的最遠。
也正是因為做到了真正的一體化,使得整個系統中需要人工手寫代碼維護的比例,降到了最低,總共只有幾千行代碼的體量。
絕影率先實現,王曉剛歸因為商湯長久以來投入的AGI(通用人工智能)能力。
從2018年開始,商湯開始布局算力基礎設施,在上海臨港投入超過50億元人民幣建設智算中心AIDC,當時很多人不明白為什么一家算法公司會在基礎設施建設上投入如此巨大。
但現已經驗證,強大的算力是AI大模型發展必不可少的。而依托AIDC加持的商湯大裝置,商湯絕影也有了行業領先的算力儲備,運營算力規模達到12,000P,預計到2024年第四季度,峰值算力將達到16,000 P。
在強大算力的基礎上,商湯又建立了自己的“日日新大模型體系”,涵蓋大語言模型、文生圖/視頻模型、多模態模型等等,能夠解決眾多開放式任務,率先摸到了通用人工智能的門檻。
所以,王曉剛認為,絕影在端到端模型的領先進展,以及智駕/座艙/車云業務全面布局,其實是商湯AGI技術最好的落地和實踐載體。
趨勢:端到端reset智能汽車
傳統自動駕駛公司生存空間越來越小,這是王曉剛最新的判斷。
這樣的觀點仍然是從技術演變的角度出發:
端到端的興起,reset自動駕駛賽道,競速上車,是自動駕駛賽道新階段的指標和“試金石”。
細化地說,端到端模型第一次真正實踐了“自動駕駛第一原理”,從體驗和技術迭代兩個維度,完美解決了過去難以解決的問題。
正因為這樣,它給了所有玩家新的機遇:更好的智駕體驗、更低的維護、泛成本,以及更有競爭力的智駕方案成本。
但代價是以往模塊化的、規則驅動主導的技術體系,必須推倒重構。
所以它同時也是門檻極高的挑戰,從商湯絕影的例子來看,至少需要要具備這些能力:
算力基礎設施、基礎大模型積累、多模態大模型…
當然還有技術路線切換的“沉沒成本”:以往投入的資金、時間。
老牌明星可能會優勢歸零重置,“后來者”也會獲得領先優勢。
2024自動駕駛洗牌,表面上是看項目落地、賬上資金,其實背后主要驅動因素是技術路線的重構。
新趨勢下,商湯絕影值得重點關注。
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

