2019年第一期(總第三十二期)“錢學(xué)森國(guó)際杰出科學(xué)家系列講座”于5月7日在中國(guó)科學(xué)院自動(dòng)化研究所舉辦。本期講座邀請(qǐng)到美國(guó)福特公司創(chuàng)新與研發(fā)中心技術(shù)研究員Dimitar Filev博士做題為“Intelligent vehicle systems for smart mobility ”的報(bào)告。
報(bào)告聚焦人工智能技術(shù)在福特智能汽車系統(tǒng)中的應(yīng)用,重點(diǎn)介紹機(jī)器學(xué)習(xí)、決策方法以及算法在福特產(chǎn)品的生產(chǎn)過(guò)程中的應(yīng)用,包括機(jī)器學(xué)習(xí)應(yīng)用于車輛診斷和校準(zhǔn)、駕駛建模和車輛個(gè)性化,燃油經(jīng)濟(jì)性優(yōu)化和自動(dòng)駕駛。報(bào)告還討論了在車輛控制和信息系統(tǒng)中集成人工智能技術(shù)的經(jīng)驗(yàn)教訓(xùn)、正在進(jìn)行的研究以及作為智能移動(dòng)應(yīng)用構(gòu)建模塊的未來(lái)趨勢(shì)。
嘉賓介紹:
Dimitar Filev 博士現(xiàn)任美國(guó)國(guó)家工程院院士、福特研究創(chuàng)新與研發(fā)中心技術(shù)研究員,主要進(jìn)行計(jì)算智能、人工智能和智能控制的研究,以及它們?cè)谧詣?dòng)駕駛、車輛系統(tǒng)和汽車工程中的應(yīng)用。發(fā)表學(xué)術(shù)論文200余篇,14000余次引用的會(huì)議論文,擁有美國(guó)專利100多項(xiàng)。2008年獲IEEE SMC協(xié)會(huì)諾伯特·維納獎(jiǎng),2015年獲IEEE CIS協(xié)會(huì)先鋒獎(jiǎng)。他獲于1979年在捷克理工大學(xué)(Czech Technical University)獲得電氣工程博士學(xué)位。目前是IEEE會(huì)士和美國(guó)國(guó)家工程院院士。曾于2016年-2017年擔(dān)任IEEE系統(tǒng)、人與控制論學(xué)會(huì)(IEEE Systems, Man, & Cybernetics Society)主席。
內(nèi)容:
早上好,我的名字是 Dimitar Filev 非常感謝王教授的精彩介紹,我跟他共同在IEEE以及一些團(tuán)體工作多年。但是我們從沒有正式合作過(guò),但我認(rèn)為現(xiàn)在是個(gè)好機(jī)會(huì),因?yàn)槲覀儸F(xiàn)在在北京有研究中心,我們可以建立專業(yè)的合作,我本人非常期待。非常高興今天能再次與你們進(jìn)行分享。
福特在汽車工業(yè)領(lǐng)域擁有悠久的歷史,生產(chǎn)了許多汽車和卡車。福特不僅僅是汽車生產(chǎn)商,也是一家科技創(chuàng)新公司,我們?cè)谌蚍秶鷥?nèi)擁有多家研究和先進(jìn)工程中心,分別在墨爾本、南京、慕尼黑等等。
這是我們主要的四個(gè)研究領(lǐng)域,第一個(gè)集中于動(dòng)力系統(tǒng)(propulsion),為車輛提供動(dòng)力,包括汽油引擎、柴油引擎、能量管理以及傳動(dòng);第二部分是汽車研究與技術(shù)(Vehicle Research and Technology),由被動(dòng)安全、材料&輕量化、車架內(nèi)外部和底盤等組成;第三部分是控制(Control),主要是駕駛輔助、自動(dòng)駕駛車輛以及車輛動(dòng)態(tài)和控制;最后是電子(Electrical),Compute單元專注于用戶體驗(yàn)、電子以及信息安全。
福特的“研究&先進(jìn)工程組織”由2名亨利福特技術(shù)Fellow領(lǐng)銜,擁有20名高級(jí)技術(shù)領(lǐng)導(dǎo)、數(shù)百名技術(shù)專家,其中34%具有博士學(xué)位,分別位于密西根的Dearborn、德國(guó)的Aachen、加州的 Palo Alto三個(gè)中心。
福特是世界上第一個(gè)將神經(jīng)網(wǎng)絡(luò)應(yīng)用到阿斯頓馬丁的汽車點(diǎn)火失敗檢測(cè)中去的,點(diǎn)火失敗會(huì)導(dǎo)致燃燒不充分,后來(lái)將這個(gè)方法應(yīng)用到了福特的V10引擎。大概在二十年前,人們不相信AI能提供任何效果,如今是AI發(fā)展的好時(shí)機(jī)。涌現(xiàn)出了像 Github、Tensorflow 等這樣的好的資源,這些開源的人人都可以用,arxiv上也有成千上萬(wàn)的論文可供閱讀。
AI的進(jìn)步和汽車的改變是推動(dòng)智能系統(tǒng)部署在車輛上的主要的驅(qū)動(dòng)力。車輛產(chǎn)生的數(shù)據(jù)從過(guò)去的每小時(shí)0.5GB到后來(lái)的25GB再到現(xiàn)在無(wú)人駕駛車輛的1.7TB。
如此大量的數(shù)據(jù)如何實(shí)時(shí)的進(jìn)行擬合以及合理利用是個(gè)重要的話題,車輛已經(jīng)成為了大數(shù)據(jù)源和移動(dòng)計(jì)算平臺(tái),設(shè)備制造商(OEMs)和交通系統(tǒng)都在發(fā)生著改變。傳統(tǒng)的車輛已經(jīng)具備很好的動(dòng)力總成系統(tǒng)、底盤系統(tǒng)、空調(diào)系統(tǒng)和娛樂系統(tǒng),同時(shí)車輛具備一些智能駕駛輔助系統(tǒng)例如ABS、車身動(dòng)態(tài)穩(wěn)定系統(tǒng)、尋跡系統(tǒng)等。
這些系統(tǒng)已經(jīng)非常智能,但我們?cè)诖嘶A(chǔ)上設(shè)計(jì)了智能用戶界面讓車輛更加定制化以適應(yīng)不同的用戶。虛擬駕駛系統(tǒng)與交通移動(dòng)云連接,控制著車輛。因此,定制化和智能化是自動(dòng)駕駛車輛發(fā)展的兩個(gè)方向。
接下來(lái)討論幾個(gè)駕駛汽車中的應(yīng)用以及福特在自動(dòng)駕駛中的研究。在汽車控制中有自動(dòng)動(dòng)力系統(tǒng)控制、自動(dòng)轉(zhuǎn)向控制和半自主懸架系統(tǒng)這些不同的系統(tǒng)經(jīng)過(guò)標(biāo)定可以實(shí)現(xiàn)舒適、常規(guī)和運(yùn)動(dòng)三種模式之間的切換。
車輛模式的選擇共有27中組合,讓駕駛員在這之間進(jìn)行選擇是一件困難的事,而智能系統(tǒng)則可以基于道路特點(diǎn)和駕駛員的反應(yīng)選擇最優(yōu)的模式,這也是定制化的一個(gè)方面。另一個(gè)重要的應(yīng)用是智能巡航控制,它基于速度曲線尋找最優(yōu)的巡航速度設(shè)置點(diǎn)來(lái)達(dá)到最優(yōu)化燃油消耗的目標(biāo)。
通過(guò)對(duì)數(shù)字地圖的分析、交通標(biāo)志的識(shí)別、道路幾何形狀的辨別系統(tǒng)能夠?yàn)轳{駛者建議最優(yōu)的加減速、檔位,提供最高效的駕駛模式選擇。
此外,分析駕駛員的行為由此生成評(píng)估報(bào)告、根據(jù)車輛在不同時(shí)間頻繁的行車、停車的記錄可以估計(jì)出下一個(gè)目的地。
福特在自動(dòng)駕駛領(lǐng)域的布置和發(fā)展包括投資了 Argo AI 以及成立了自動(dòng)駕駛子公司AV LLC,這兩家由福特所有的獨(dú)立實(shí)體計(jì)劃在2021年前完成研發(fā)并投入生產(chǎn)。
福特研究自動(dòng)駕駛采用的是分層級(jí)的方法,層級(jí)從反射級(jí) Reflexive 到深思級(jí) Reflective。反射級(jí)指的是當(dāng)人們?cè)隈{駛時(shí)不需要思考而下意識(shí)作出的一些舉動(dòng),Reflective 則是完全相反的,比如人在高速駕駛的時(shí)候會(huì)不斷地思考獲取最佳的決策。
分層級(jí)方法有三個(gè)層級(jí),Decision Making 曾屬于高層規(guī)劃,基于強(qiáng)化學(xué)習(xí)、博弈論方法;稍低一個(gè)層級(jí)的 Path Planning主要完成避障等場(chǎng)景;沿著規(guī)定好的軌跡行駛則是由最后的 Path Following層級(jí)使用模型預(yù)測(cè)控制完成。
Path Planning 部分使用的是Q強(qiáng)化學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)通過(guò)最大化累計(jì)收益函數(shù)Q函數(shù)來(lái)獲得最佳決策,此處狀態(tài)為車輛本身以及相鄰車輛的實(shí)時(shí)的橫向和縱向位置,行為是車道保持、巡航速度增減以及左右換道。仿真器用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)擬合決策Q函數(shù),該算法提供了狀態(tài)到行動(dòng)的映射,得到的是貝爾曼方程的實(shí)時(shí)解。
強(qiáng)化學(xué)習(xí)近些年變得很火熱尤其是谷歌的 Deepmind 推出了AlphaGo取得了成功,他們提出了 Deep Q Learning(DQN),現(xiàn)在幾乎成了強(qiáng)化學(xué)習(xí)的標(biāo)準(zhǔn)。在DQN算法中,我們建立了一個(gè)人工目標(biāo)于是得到:
y與Q的差值可類比監(jiān)督學(xué)習(xí)中的預(yù)測(cè)值與標(biāo)簽的差值,由此得到的時(shí)域差用來(lái)更新網(wǎng)絡(luò)得到最優(yōu)值。在此基礎(chǔ)上,Deepmind提出了三個(gè)主要的改進(jìn)形成了double DQN,首先是提出適合多層神經(jīng)網(wǎng)絡(luò)的Q函數(shù);第二他們提出一個(gè)采樣任意的minibatch的方式處理訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù);第三個(gè)則是他們提出了兩個(gè)Q函數(shù)分別為當(dāng)前Q函數(shù)和目標(biāo)Q函數(shù)來(lái)更新網(wǎng)絡(luò),這些改進(jìn)使得強(qiáng)化學(xué)習(xí)更加穩(wěn)定。
然而,當(dāng)福特直接使用這些方法是發(fā)現(xiàn)訓(xùn)練神經(jīng)網(wǎng)絡(luò)經(jīng)常容易失敗并且訓(xùn)練速度很慢。因此他們加入了一些常識(shí)性的規(guī)則,當(dāng)發(fā)現(xiàn)行為不安全時(shí),將安全的行為加入網(wǎng)絡(luò),對(duì)碰撞的判別會(huì)混合到采樣隨機(jī)minibatch中用于網(wǎng)絡(luò)的更新,最終結(jié)果取得顯著性效果。
在強(qiáng)化學(xué)習(xí)中,應(yīng)該不僅僅依賴于對(duì)數(shù)據(jù)這些短期性的經(jīng)驗(yàn)的學(xué)習(xí),一些常識(shí)性的長(zhǎng)期經(jīng)驗(yàn)規(guī)則的使用也很重要。
當(dāng)前智能駕駛汽車算法和解決方案面臨的挑戰(zhàn)如下:
1、能學(xué)習(xí)特定駕駛員和環(huán)境、擁有最少的手工標(biāo)定和標(biāo)簽數(shù)據(jù)的車載或者云平臺(tái)的實(shí)時(shí)解決方案;
2、相比較監(jiān)督式學(xué)習(xí)更傾向于無(wú)監(jiān)督和半監(jiān)督強(qiáng)化學(xué)習(xí);
3、包含認(rèn)知信息和物理模型的混合AI算法;
4、AI算法可解釋、可驗(yàn)證;
5、擁有魯邦特性并且可以自評(píng)估;
6、維護(hù)成本低。
下面介紹一些有效的解決方案,每當(dāng)我們遇到一個(gè)復(fù)雜系統(tǒng)時(shí),我們會(huì)努力學(xué)習(xí)用一些復(fù)雜函數(shù)去近似這個(gè)系統(tǒng)例如神經(jīng)網(wǎng)絡(luò),這是其中一種方法。另一種方法使用許多簡(jiǎn)單的小的子系統(tǒng)進(jìn)行組合模擬復(fù)雜系統(tǒng)。
非監(jiān)督的演化聚類算法可以實(shí)現(xiàn)實(shí)時(shí)的學(xué)習(xí)對(duì)系統(tǒng)的狀態(tài)空間進(jìn)行預(yù)測(cè),一個(gè)重要的例子是對(duì)引擎特性具有自適應(yīng)標(biāo)定和控制能力的在線空時(shí)濾波器?;旌像R爾科夫模型對(duì)于目的地和路徑的預(yù)測(cè)也是非常有效的。神經(jīng)網(wǎng)絡(luò)的可解釋性是近年來(lái)的熱點(diǎn)話題,強(qiáng)化學(xué)習(xí)可以使用神經(jīng)網(wǎng)絡(luò)將狀態(tài)空間映射到行為空間,這是個(gè)非線性映射。這種非線性映射可不可以使用其他的映射來(lái)近似并且時(shí)刻解釋的呢?
基于強(qiáng)化學(xué)習(xí)的控制器將狀態(tài)空間映射到行為空間,而使用模糊控制器基于規(guī)則的模型則是一種通用的近似器,通過(guò)將強(qiáng)化學(xué)習(xí)Agent仿真為黑盒子動(dòng)態(tài)系統(tǒng),它可以被有限級(jí)的“if-then”規(guī)則近似和解釋。以強(qiáng)化學(xué)習(xí)車輛跟蹤控制為例,跟車問題基本是是一種自適應(yīng)巡航問題,后車需要保持與前車的安全距離、控制好各自的車速以及加速度,傳統(tǒng)方法中車速控制器基于吉布斯分布、加速度控制器使用智能駕駛模型(Intelligent Driving Model,IDM)建模,福特使用強(qiáng)化學(xué)習(xí),分別建立速度、加速度以及距離的獎(jiǎng)勵(lì)函數(shù),最大化獎(jiǎng)勵(lì)函數(shù)得到的結(jié)果達(dá)到甚至超過(guò)傳統(tǒng)方法。
在得到加速度結(jié)果后,他們使用聚類算法以相對(duì)速度和相對(duì)距離作為輸入,預(yù)測(cè)加速度作為輸出,對(duì)數(shù)據(jù)進(jìn)行聚類來(lái)近似強(qiáng)化學(xué)習(xí)控制器,強(qiáng)化學(xué)習(xí)器被近似為可解釋的PI控制器的非線性組合的形式,組合系數(shù)為各數(shù)據(jù)點(diǎn)到聚類中心距離負(fù)值的Softmax函數(shù)。
擬合效果基本達(dá)到原始強(qiáng)化學(xué)習(xí)其的性能,但是推理時(shí)間從強(qiáng)化學(xué)習(xí)器的0.3ms降低到了非線性組合的0.13ms。最后,對(duì)演化系統(tǒng)地總結(jié)如下:
1、使用演化聚類和核?;姆椒ㄖv一個(gè)復(fù)雜系統(tǒng)實(shí)時(shí)分解為多個(gè)相互重疊的子區(qū)域;
2、實(shí)時(shí)同步學(xué)習(xí)系統(tǒng)架構(gòu)以及局部子系統(tǒng)的參數(shù);
3、對(duì)具有多個(gè)操作模式和多元化行為的系統(tǒng)實(shí)時(shí)建模;
4、特定的機(jī)器學(xué)習(xí)技巧(無(wú)監(jiān)督聚類與監(jiān)督學(xué)習(xí)的組合);
5、反映人類從現(xiàn)實(shí)中學(xué)習(xí)、總結(jié)、管理知識(shí)的能力。
我們?cè)诖颂岬降难莼到y(tǒng)是多個(gè)子系統(tǒng)的組合,它的功能非常強(qiáng)大,包含了監(jiān)督學(xué)習(xí)方法和非監(jiān)督學(xué)習(xí)方法,可應(yīng)用在實(shí)時(shí)的無(wú)人駕駛大數(shù)據(jù)處理中。大數(shù)據(jù)、物聯(lián)網(wǎng)以及AI技術(shù)的快速發(fā)展為智能汽車提供了更多的解決方案,AI算法則需要具備更多的人性化、自適應(yīng)和最小標(biāo)定以適應(yīng)嵌入式實(shí)施的需求也很廣泛,智能汽車的發(fā)展為傳統(tǒng)AI算法的改進(jìn)提供了新的發(fā)展方向,傳統(tǒng)AI算法應(yīng)與基于規(guī)則的系統(tǒng)、認(rèn)知知識(shí)和基于第一性原理的模型相結(jié)合,此外,認(rèn)知模型對(duì)統(tǒng)計(jì)機(jī)器學(xué)習(xí)的近似使得傳統(tǒng)機(jī)器學(xué)習(xí)算法變得可解釋和性能的可升。
以上就是我的報(bào)告,非常感謝大家。