人工智慧不環保?訓練一個神經網路的炭排放竟然比5輛車還多?

人工智慧不環保?訓練一個神經網路的炭排放竟然比5輛車還多?

1970年,尚比亞修女Mary Jucunda寫了一封信給NASA(美國太空總署)Marshall太空航行中心的科學副總監Ernst Stuhlinger博士。信中,Mary Jucunda修女問道:目前地球上還有這麼多小孩子沒法吃飽,他怎麼能捨得為遠在火星的項目花費數十億美元。

Stuhlinger很快給Jucunda修女回了信,他這封真摯的回信隨後由NASA以《為什麼要探索宇宙》為標題發表。

這封信中有這樣一句話:「通往火星的航行並不能直接提供食物解決饑荒問題。然而,它所帶來大量的新技術和新方法可以用在火星項目之外,這將產生數倍於原始花費的收益。」

如今,隨著許多太空技術遷徙到其他方面並對人類生活產生了巨大的影響,很少有人再去質疑探索太空是否有必要。

同樣,作為目前最前沿的計研究領域之一,人工智慧近日也受到了環保方面的質疑。

人工智慧背後的碳排放引發關注

根據一份提交到自然語言處理頂會ACL 2019的論文,三位來自麻薩諸塞大學阿默斯特分校的研究人員對幾種常見的NLP模型進行碳排放評估。

他們發現,像Transformer、GPT-2等流行的深度神經網路,他們的訓練過程可以排放超過62.6萬磅的二氧化碳當量,幾乎是美國汽車平均壽命期內排放量(包括製造過程)的五倍。

比如Google AI今年發佈的一篇新論文The Evolved Transformer提出的神經網路架構搜尋技術,用於英語到德語翻譯的BLEU分數提高了0.1,卻花費了3.2萬TPU小時。

儘管這篇論文並沒有提供準確的基於TPU的模型訓練能耗和碳排放的數據,但是根據美國環保署(EPA)統計,數據中心耗電占全球3%,且耗電量正在以每四年翻一位的速度增長;同時,數據中心的溫室氣體排放占到全球的2%,碳足跡已經追上民航業。

儘管目前數據中心大多還是在進行處理客戶訊息等傳統工作,但是基於深度學習的人工智慧正成為全球數據中心業務增長的最大驅動力。

來自網友的討論

這篇論文一進入大眾視野,便引起了廣泛討論,業內人人士更多是持一種辯證的態度,表示雖然用於訓練所產生的碳排放是客觀存在的,但是並沒有文章中所說的那麼誇張。

Reddit有網友評論:

在8個GPU上訓練12小時6500萬參數的一般網路總計消耗27千瓦時,並且排出26磅二氧化碳,計算成本為41-140美元。這是論文中耗能最小的例子,但其實與大多數人做的訓練相比,它也算是規模比較大了。

而更大的BERT model,在64個GPU上訓練110萬個參數,耗時80小時,消耗了1507千瓦時的能量,排放了1438磅二氧化碳,計算成本為3751-12571美元。但這是一個相當大的ML項目,比大多數人運行過的規模都更大,很少有個人或者組織能夠做這種項目。

論文中比較有意義的是神經結構搜尋(NAS)消耗的能量和排放的二氧化碳。這是有道理的,因為搜尋過程可能意味著運行幾個大數量級的訓練步驟。

而值得指出的是,該論文所闡述的一個例子:把TPU換成八塊P100GPU,用同樣的方式訓練同一個Transformer達到同樣的成績,將會產生驚人的62.6萬磅(約合284公噸)二氧化碳。這個結果雖然很震撼,但實際沒有人會這樣去做。

而Slashdot上則有網友用新能源汽車舉例:

設計節能汽車也需要消耗大量能源。但是,從長遠來看是有好處的。如果這些受過訓練的人工智慧能夠通過它們所做的工作節省能量,那麼從長遠來看,這也將是有益的。

人工智慧與環境保護站在對立面嗎?

首先,人工智慧並非是不落地的「實驗室產物」。

提到人工智慧,大眾往往第一反應的都是資本市場所宣傳的產品,這些產品往往由於宣傳的需要被加入了許多噱頭而不具備普遍的說服力,所以人工智慧在應用上總給人一種很玄的感覺。

Petuum創始人也說,人工智慧太高深了,為人所知的有自動駕駛、醫療等應用場景,其實最普通的土木工程領域,也需要人工智慧技術的變革,但是這些小的應用場景很少有人關注。

新技術的落地往往會從大眾不經意的地方開始。在以種植玉米和大豆出名的美國愛荷華州,初創AI公司Smart Ag公司正在開發無人駕駛拖拉機用來耕種,以解決農場勞動力短缺的問題。

圖片來源:NVIDIA

同樣的,人工智慧和機器學習已經開始在大數據醫療領域蓬勃發展,例如放射學、醫學成像和醫療保健記錄等。

在能源利用領域呢?人工智慧也不是永遠都是耗電的那一方。

谷歌就曾經用DeepMind操控電腦伺服器和相關設備(例如冷卻系統)來管理部分數據中心,進而減少了數個百分點的能耗,可不要小看這幾個百分點,要知道谷歌一年的耗電量,幾乎等於一個舊金山了。

其次這篇論文也並非是反對消耗資源來開發人工智慧的。

作者的意圖只是希望提醒其他NLP學者和業界人士,在提高模型表現的同時,也應該對環境影響有主動的、足夠的關注。

論文的第一作者,麻薩諸塞大學阿默斯特分校博士生艾瑪‧史特貝爾(Emma Strubell)在接受採訪時表示:「不計任何計算量的代價也要追逐哪怕一丁點的準確率提升。這絕對不是一個好的趨勢,我覺得我們應該做得更好,用更有創意,而不是純粹『加算力』的方式去做研究。」

如何做環境友好的人工智慧研究,更多的使用清潔能源或是出路。從下面的表中我們可以看出,Google的數據中心用電56%來自可再生能源。

人工智慧不環保?訓練一個神經網路的炭排放竟然比5輛車還多?

谷歌主要是透過採購大量可再生能源項目來應對能源消耗,目前已經包括肯亞的一個風力發電廠和在加州、德州等地的數個風力發電廠。

同樣,亞馬遜已經在美國的印第安納、北卡羅來納、俄亥俄和維吉尼亞州建設了風力和太陽能發電廠。

而中國的阿里巴巴張北雲端運算基地內數據中心將百分百基於綠色能源運轉,建築外表覆蓋太陽能電板,同時採用自然風冷和自然水冷系統,預計僅數據中心的製冷能耗就可以降低45%。阿里巴巴技術保障負責人周明表示:「我們將採用全球最先進的綠色數據中心設計方案,將張北源源不斷的綠色能源轉化成運算資源。」

bigdatadigest
作者

大數據文摘(bigdatadigest)成立於2013年7月,專注數據領域資訊、案例、技術,在多家具有影響力的網站、雜誌設有專欄,致力於打造精準數據分析社群。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則