人工智能給人類帶來(lái)便利的同時(shí),它的環(huán)境可持續(xù)問(wèn)題一直備受關(guān)注。
去年6月份,美國(guó)馬薩諸塞州大學(xué)阿默斯特分校的研究人員發(fā)布了一份報(bào)告,預(yù)估訓(xùn)練和運(yùn)行某種神經(jīng)網(wǎng)絡(luò)系統(tǒng)所需的電量會(huì)產(chǎn)生大約626000磅(1磅約等于0.45千克)的二氧化碳排放。這相當(dāng)于美國(guó)普通汽車使用壽命內(nèi)排放量的五倍。
到了人工智能模型的部署階段,碳排放的問(wèn)題會(huì)變得更加嚴(yán)重。因?yàn)橄到y(tǒng)需要部署在不同的硬件平臺(tái),每個(gè)硬件平臺(tái)又具備不同的屬性和計(jì)算資源。
為了改變這樣的情況,來(lái)自麻省理工學(xué)院的研究人員開(kāi)發(fā)了一種新的自動(dòng)化AI系統(tǒng),可用于訓(xùn)練和運(yùn)行某些神經(jīng)網(wǎng)絡(luò)。結(jié)果表明,用某些關(guān)鍵方法提高系統(tǒng)的計(jì)算效率,系統(tǒng)可以減少碳排放。
研究人員將這套系統(tǒng)稱為“once-for-all”(一次就好)網(wǎng)絡(luò),它可以訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò),其中包含許多不同大小的預(yù)訓(xùn)練子模型。每個(gè)子模型都可以在推理時(shí)獨(dú)立運(yùn)行而無(wú)需重新訓(xùn)練,并且系統(tǒng)會(huì)根據(jù)目標(biāo)硬件的功率和速度,折衷相關(guān)的精度和等待時(shí)間,來(lái)確定最佳子模型。例如,對(duì)于智能手機(jī),系統(tǒng)會(huì)選擇更大的子模型,但根據(jù)各個(gè)電池的壽命和計(jì)算資源,其子網(wǎng)結(jié)構(gòu)又會(huì)有所不同。研究人員稱,這套系統(tǒng)在訓(xùn)練時(shí)只大約只需當(dāng)今流行的模型搜索技術(shù)的1 / 1300的碳排放量。
“我們的目標(biāo)是建立更小,更綠色的神經(jīng)網(wǎng)絡(luò)?!盡IT電氣工程和計(jì)算機(jī)科學(xué)系的助理教授Song Han表示: “到目前為止,搜索有效的神經(jīng)網(wǎng)絡(luò)架構(gòu)都需要大量的碳足跡。但是,通過(guò)新方法,我們將碳排放減少了幾個(gè)數(shù)量級(jí)?!?/p>
據(jù)Song Han介紹,關(guān)于這套系統(tǒng)的論文將會(huì)在下周發(fā)表,其他研究者還包括來(lái)自EECS,MIT-IBM Watson AI Lab和上海交通大學(xué)的四名本科生和研究生。
那么,他們的方法具體是如何做到減少計(jì)算所帶來(lái)的的碳排放的?研究員表示,主要在于他們采用了“漸進(jìn)式收縮”的算法,可以有效地訓(xùn)練大模型,又同時(shí)支持所有子模型。這個(gè)算法首先會(huì)訓(xùn)練大型模型,然后在大型模型的幫助下訓(xùn)練較小的子模型,以便它們可以同時(shí)學(xué)習(xí)。最后,當(dāng)所有子模型都訓(xùn)練完成后,就可以根據(jù)平臺(tái)的功率和速度限制進(jìn)行快速專業(yè)化的計(jì)算。添加新設(shè)備時(shí),它可以以零培訓(xùn)成本支持許多硬件設(shè)備。
在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn),用他們的方法訓(xùn)練一個(gè)包含超過(guò)10萬(wàn)億個(gè)架構(gòu)設(shè)置的計(jì)算機(jī)視覺(jué)模型,比花費(fèi)數(shù)小時(shí)訓(xùn)練每個(gè)子網(wǎng)絡(luò)要有效得多。此外,這套系統(tǒng)不會(huì)影響模型的準(zhǔn)確性或效率。在ImageNet上進(jìn)行測(cè)試時(shí),該模型在移動(dòng)設(shè)備上得到了最好的準(zhǔn)確性,并且在推理方面比領(lǐng)先的分類系統(tǒng)快1.5到2.6倍。
研究成員之一,IBM研究員兼MIT-IBM Watson AI實(shí)驗(yàn)室John Cohn認(rèn)為:“如果要繼續(xù)保持AI的快速發(fā)展,我們需要減少對(duì)環(huán)境的影響。開(kāi)發(fā)使AI模型更小,更高效的方法,好處在于這些模型可能還會(huì)表現(xiàn)更好?!?/p>