您當前的位置：中醫(yī)名師網(wǎng) > 快訊

大模型攻入自動駕駛

來源：投資界閱讀量：14783 時間：2023-10-17 18:29

導讀“自動駕駛的前提是安全與嚴謹，大模型給出'差不多'的結(jié)果是不行的?！? 在今年4月初，大模型剛剛問世時，一位自動駕駛領(lǐng)域的資深投資人向「自象限」表達了，他對通用大模型應(yīng)用在自動駕駛領(lǐng)域的擔憂。不被看好的原因有很多，比如大模型“胡說八道”...

“自動駕駛的前提是安全與嚴謹，大模型給出'差不多'的結(jié)果是不行的?！?/p>

在今年4月初，大模型剛剛問世時，一位自動駕駛領(lǐng)域的資深投資人向「自象限」表達了，他對通用大模型應(yīng)用在自動駕駛領(lǐng)域的擔憂。

不被看好的原因有很多，比如大模型“胡說八道”的問題，導致大家認為它達不到自動駕駛的安全等級要求；比如大家認為大模型解決的是共性推演的問題，但自動駕駛解決的0.5%的corner case；再比如大模型要在車端落地，需要與結(jié)合前融合算法，對前端算力的要求會很高。

總而言之，通用大模型的不確定性和自動駕駛的嚴謹性像一個硬幣的兩面，落地上也面臨著幾座短期內(nèi)難以翻越的大山?！斑@會是整個體系建設(shè)的問題，不是角度算法可以改變的?！边@位投資人如此總結(jié)道。

盡管不被看好，但6個月過后，大模型還是以一種蠻橫的方式?jīng)_進了自動駕駛行業(yè)。

打響*槍的，仍然是特斯拉。今年8月，特斯拉端到端AI自動駕駛系統(tǒng)FSD Beta V12首次公開亮相，完全依靠車載攝像頭和神經(jīng)網(wǎng)絡(luò)來識別道路和交通情況，并做出相應(yīng)的決策。國內(nèi)，自動駕駛和大模型公司都開始緊鑼密鼓的布局，9月，華為盤古大模型3.0推出了自動駕駛行業(yè)大模型；10月，在毫末第九屆AI Day中，也講解了其身處自動駕駛領(lǐng)域?qū)Υ竽Ｐ偷囊幌盗刑剿鳌?/p>

從結(jié)果來看，目前大模型對自動駕駛的改變分為兩個方向:一是大模型作為工具，輔助自動駕駛算法的訓練，優(yōu)化過程；二是大模型作為決策模型，直接駕駛車輛，改變結(jié)果。

透過國內(nèi)外的探索，這條看似相悖的技術(shù)路徑似乎開始一步步清晰，那么大模型究竟能給自動駕駛帶來了什么？核心的技術(shù)難題又該如何解決？

01 大模型，更換自動駕駛訓練引擎

首先，大模型正在重塑自動駕駛的訓練過程。

訓練自動駕駛算法，是一個漫長而龐大的工程，從數(shù)據(jù)采集、傳輸、管理；到數(shù)據(jù)清洗、標注、準備，到最后投入到訓練自動駕駛算法的熔爐當中，中間會涉及到數(shù)十個環(huán)節(jié)。

而如今困擾自動駕駛發(fā)展的核心問題也來自于此，一個是隨著絕大部分常規(guī)問題被解決，有效數(shù)據(jù)的收集難度越來越大；其次則是隨著數(shù)據(jù)規(guī)模的增加，數(shù)據(jù)處理的成本也越來越高。

首先是數(shù)據(jù)收集的問題。當自動駕駛走入最后0.5%的corner case階段，場景數(shù)據(jù)在現(xiàn)實世界就變得可遇不可求。

為了應(yīng)對這些問題，特斯拉、Waymo、Cruise等企業(yè)都在不同程度使用合成數(shù)據(jù)來模擬真實世界來訓練自動駕駛。

但這種方式也存在一些弊端，比如合成數(shù)據(jù)雖然能輕松生成大量數(shù)據(jù)，提高自動駕駛訓練數(shù)據(jù)的多樣性。但作為人工生成的數(shù)據(jù)，合成數(shù)據(jù)并不能完全模擬真實世界的復(fù)雜和變化。過度使用合成數(shù)據(jù)，會導致自動駕駛出現(xiàn)“紙上談兵”的現(xiàn)象，即在訓練時表現(xiàn)很好，但一上路就不行，這種情況被稱為過度擬合。

而針對這樣的問題，大模型提供了一種新的解決方案。

比如使用大模型進行數(shù)據(jù)生成的技術(shù)——遷移生成。它可以基于一個真實的場景，快速生成不同時間、不同環(huán)境的情況。比如拍攝一張街道春天的照片，大模型可以快速生成這條街道雨天、刮風、下雪等不同條件、不同季節(jié)的情況。

這么做的好處在于“可控”，自動駕駛訓練可以根據(jù)一些特定的需要生成一些特定的場景，而更重要的是，這些場景中包含一些真實數(shù)據(jù)，在增加訓練場景豐富性的同時，又可以避免過度擬合的情況。

目前已經(jīng)有廠商在逐步嘗試，毫末CEO顧維灝在AI Day中便提到了該技術(shù)，清華智能產(chǎn)業(yè)研究院提出的自動駕駛模型也有類似的設(shè)置，在他們的設(shè)定中，模型會提出怎樣獲取不同的數(shù)據(jù)，包括真實世界數(shù)據(jù)和仿真數(shù)據(jù)。然后這些數(shù)據(jù)要經(jīng)過受控管道進行清理，再經(jīng)過感知和決策兩大模型，最終為車輛提供決策。

其次是數(shù)據(jù)標注，數(shù)據(jù)標注并不是一次性完成的，同一張照片，不同時期，依據(jù)需要解決問題的不同，需要標注的東西也不太一樣。

比如一開始需要解決的是車輛識別的問題，那么照片中重點標注的是不同的車輛，后來要解決紅綠燈識別的問題，重點標注的可能就是紅綠燈。總之，數(shù)據(jù)標注是一個反復(fù)，且逐步細化的過程，因此難度和成本也在持續(xù)增加。

在國外，特斯拉最早啟動數(shù)據(jù)自動標注，這讓原來需要幾個月時間的工作可以在幾周內(nèi)完成。2022年6月，得益于效率的提升，特斯拉裁掉了其位于加利福尼亞圣馬特奧辦事處的絕大部分數(shù)據(jù)標注員工。

特斯拉之后，國內(nèi)自動駕駛企業(yè)也開始跟進，將自動標注使用到日常訓練中。作為特斯拉的”中國學徒“，顧維灝介紹了毫末使用大模型進行數(shù)據(jù)標注的案例。

其運用大語言模型和多模態(tài)的能力，通過將圖文和文圖交叉的特征做匹配的，然后再將其放到大語言模型中，針對形成于特征空間的搜索特征。在這樣的基礎(chǔ)上，大模型就可以在不需要做太多準備的情況下，將之前沒有標注過的，想要標注的內(nèi)容標注出來。

整體上，大模型的接入優(yōu)化了自動駕駛的訓練過程。

如果將訓練自動駕駛算法比作是金字塔的修建，那么大模型的加入，就如同將曾經(jīng)依靠人力堆砌的石塊，改換成現(xiàn)代化的起重機，加快了自動駕駛的“搭建”進程。

02 大模型，讓自動駕駛“長出腦子”

在自動駕駛訓練中，大模型就像全職助手一樣不斷提高算法訓練的效率。但這也僅僅只是工程上的優(yōu)化，大模型給自動駕駛帶來的，還有更深層次改變。

這個問題要回到自動駕駛是如何進行工作的。

在大模型出現(xiàn)之前，自動駕駛是任務(wù)驅(qū)動的。即程序員依據(jù)一些特定的場景，編寫一些解決方案的代碼，當車輛在行駛過程中感知到相應(yīng)的情況，便按照之前設(shè)定好方式處理。

在這個基礎(chǔ)上，自動駕駛的發(fā)展就變成:發(fā)現(xiàn)一個問題，收集一些數(shù)據(jù)，然后訓練一個小模型來解決這個問題，然后再發(fā)現(xiàn)新的問題，如此循環(huán)。

但這種模式對于問題的解決具有一定的滯后性，即問題要先被發(fā)現(xiàn)，然后等一段時間才能被解決。其次是泛化問題，即在同一個問題在夏天解決了并不一定在冬天解決。也正是因為如此，自動駕駛才有解決不完的corner case。

這些問題，實際指向的其實是傳統(tǒng)自動駕駛算法“照本宣科”式的工作模式，并沒有真正認識世界、理解世界，即自動駕駛并沒有靈魂。

大模型的出現(xiàn)則為這個問題的解決給出了方向，就像大模型讓虛擬人、讓語音助手都長出“腦子”一樣，大模型也在讓自動駕駛長出“腦子”。

特斯拉的“端到端”技術(shù)又叫作“感知決策一體化”，也就是將“感知”和“決策”融合到一個模型中，直接對車下達指令，控制車輛，這樣輸入傳感器信號后可以直接輸出車控信號，大大降低了級聯(lián)誤差的概率，也因此大大提升了系統(tǒng)性能的上限，整體潛力極大。

圖源馬斯克Twitter

目前國內(nèi)還未能做到真正的“端到端”，比如毫末DriveGPT仍然分為感知大模型和認知大模型兩部分。

感知大模型除了要根據(jù)車端輸入的信號做三維重建，還要加上時序特征形成一個四維空間。在此基礎(chǔ)上，毫末引入多模態(tài)大模型，多模態(tài)大模型已經(jīng)做了許多文本和對齊的工作，這個時候再和4D語義空間做對齊，就可以把自動駕駛傳感器看到的這些東西全部語義化，這樣就形成了通用的，識別萬物的能力。

而有了這樣的能力之后，結(jié)合認知大模型就可以結(jié)合駕駛時的信息和行駛目標，比如直行、變道、左轉(zhuǎn)等信息，給出相應(yīng)的駕駛決策和駕駛解釋，然后大模型將其轉(zhuǎn)化為自動駕駛的語言，通過Drive Prompt和自動駕駛系統(tǒng)做交互。

本質(zhì)上，大模型就像是自動駕駛的“領(lǐng)航員”和“翻譯官”，它理解駕駛的目標和意圖，它識別和感知環(huán)境，然后做出決策并將其翻譯成自動駕駛的語言，向自動駕駛系統(tǒng)下達合適的指令。

當然，從人的角度來講，駕駛車輛的過程需要的除了識別萬物，還有對環(huán)境中所有物體運動方向的預(yù)判，這樣才能在面對復(fù)雜交通環(huán)境時提前做出反應(yīng)。

大模型同樣對自動駕駛帶來了這方面的改進。

2022年，特斯拉在年底的AI Day上就曾提出過一個名叫交互搜索的規(guī)劃模型，其主要由樹搜索，神經(jīng)網(wǎng)絡(luò)軌跡規(guī)劃和軌跡打分三部分組成，可以有效預(yù)測道路交通參與主體的行為軌跡。

從這可以看到，自動駕駛的決策已經(jīng)從之前，依靠單一信息進行分布決策，變成了多種信息匯總之后的統(tǒng)一決策。

自動駕駛的決策路徑

即大模型的決策越來越像是一個整體。

它讓自動駕駛越來越成為一個“整體”，正如清華大學智能產(chǎn)業(yè)研究院院長張亞勤說的那樣，“AI 大模型帶來了從判別式 AI 到生成式 AI 的新技術(shù)范式變革，自動駕駛達到最后的安全、可靠階段一定是端到端方式實現(xiàn)。”

03 自動駕駛的底層進化

成為“整體”，自動駕駛中關(guān)于這個的討論其實并不是在大模型熱度起來之后才開始的。

2022年，當關(guān)于自動駕駛的討論還聚焦在芯片和電子電氣架構(gòu)的時候，全球著名的汽車零部件供應(yīng)商博世曾提出，汽車電子電氣架構(gòu)將從分布式向域集中式和中央計算過渡。

早期的汽車電子電氣架構(gòu)是以ECU為主，一輛汽車通常有30到100個ECU不等，分別控制汽車的引擎、變速器、制動等等功能。隨著汽車智能化的進程，相關(guān)功能的ECU逐漸被整合成域控制器，目前智能汽車通常有動力域、底盤域、車身域、座艙域和自動駕駛域五個。

在這個基礎(chǔ)上，智能汽車的電氣架構(gòu)還在向一個“整體”演變，最終將會形成由一個統(tǒng)一中央計算單元控制的形式。2016年，特斯拉發(fā)布的Model 3實現(xiàn)了中央域控制架構(gòu)的雛形，當時被行業(yè)認為在電子電氣架構(gòu)方面*傳統(tǒng)車企6年以上。

從“散裝”到“整體”，這是智能汽車硬件層面的變化，這種變化也推動著自動駕駛軟件層面向一個“整體”發(fā)展，而契機就是大模型。

關(guān)于自動駕駛與大模型，張亞勤提到，“自動駕駛不是一個模型，而是多個模型的組合?！边@其實正好對應(yīng)智能汽車硬件域控制器的發(fā)展階段。

這也是華為盤古大模型3.0的思路，華為云EI服務(wù)產(chǎn)品部部長尤鵬認為，通過數(shù)智融合架構(gòu)打破數(shù)據(jù)、AI資源管理邊界，在一個平臺即可完成開發(fā)、測試、交付上線工作，讓業(yè)務(wù)創(chuàng)新提效2倍，實現(xiàn)數(shù)據(jù)加速；借助盤古大模型在認知、感知、決策、優(yōu)化等全領(lǐng)域的能力，車企可以快速基于盤古訓練出自己需要的模型，實現(xiàn)算法加速；同時，華為還提供底層昇騰算力平臺，解決自動駕駛對算力的高需求，做到千卡訓練數(shù)月不中斷，打通“全鏈路”，實現(xiàn)算力加速。

“全鏈路的模型化是3.0時代的一個重要的演進思路，最終演變成端到端的大模型?！鳖櫨S灝說。

而一旦完成了全鏈路的打通，這樣的改變帶來的將是大范圍且高速迭代。正是因為“端到端”技術(shù)，馬斯克曾放出豪言“將可能在今年年底實現(xiàn)完全的自動駕駛”。這句話雖然不排除馬斯克吹牛的成分，但我們也可以從中看出“端到端”技術(shù)的巨大潛力。

總的而言，對于自動駕駛來說，大模型并不是一種決策方式，也不單單是指一種技術(shù)，而更應(yīng)該是自動駕駛發(fā)展的一種最終形態(tài)。

當然，雖然大模型給自動駕駛的落地帶來了巨大的想象力，但實際的應(yīng)用和落地過程仍然面臨許多問題。

比如最直接的問題就是如何將云端大模型的能力應(yīng)用到車端。

目前行業(yè)普遍應(yīng)用的方式有三種:

*種是將大模型蒸餾到小模型，應(yīng)用到車端。這具體又分為兩種路線，一種是通過大模型給數(shù)據(jù)打標簽，監(jiān)督小模型學習；另一種是將大模型上的Feature map 和小模型上的Feature map進行對齊，然后來完成小模型能力的提升。

從毫末公布的工作效率來看，一個模型的蒸餾需要好幾個月，但能夠幫助自動駕駛車端模型在個別任務(wù)上的感知指標提升5%。

第二種是在云端通過大模型構(gòu)建一種能力，然后再通過減脂、蒸餾等方式將大模型的能力蒸餾到車端的小模型上，來完成車端小模型的進步。

第三種則是直接使用云端大模型。畢竟雖然云端傳輸會面臨信號、安全、延遲等問題的困擾，但也并不意味著所有決策都需要在車端完成。云端大模型具有更強的泛化能力和解釋能力，對于任務(wù)實時性和網(wǎng)絡(luò)信號較好的地方，也存在可能讓車端的一些通信和云端大模型進行交流，然后讓云端大模型完成車端工作的情況。

除了從將大模型運用到車端之外，大模型指導的自動駕駛還有許多人類生活的常識需要學習。比如路沿的方向是不是能走，面臨多個路口的時候各個方向是不是一定按照車道線走，這些在實際交通實踐中約定俗成的東西大模型還無法掌握。

“現(xiàn)在解決這些問題就需要加許多約束，而一旦加約束，這個系統(tǒng)就變得不聰明了。”顧維灝提出了其中的邏輯悖論。

所以如何去解決這些問題，又如何發(fā)揮大模型的優(yōu)勢成為未來很長時間自動駕駛的考題，畢竟當前大模型對于自動駕駛的改變，也只是*聲槍響而已。

免責聲明：該文章系本站轉(zhuǎn)載，旨在為讀者提供更多信息資訊。所涉內(nèi)容不構(gòu)成投資、消費建議，僅供讀者參考。

熱文推薦