2018年最具影響力的20篇資料科學研究論文，趕快下載研究一下

在這篇文章中，Daniel Gutierrez列出了2018年最具影響力的20篇資料科學研究論文清單，所有資料科學家都應該認真回顧。我還收錄了一些綜述性文章，它們可以幫助你看到當前技術領域的發展情況，同時還有完整的參考文獻列表，其中不乏很多具有開創性的論文。

作為一名前半生奉獻給學術，現在投身業界的研究者，Daniel Gutierrez習慣在資料科學業內工作的同時，跟進學術界的最新動態。

最近，通過一場網路研討會，他發現人工智慧大神吳恩達（Andrew Ng）也有一樣的習慣。吳恩達提到，他經常隨身攜帶一個裝滿研究論文的文件夾，利用搭車的空閒時間研究論文。

Daniel Gutierrez因此建議，不管是資料科學從業者還是研究者，都可以準備一個論文文件夾來裝一些論文，就像吳恩達建議的：如果你每週閱讀幾篇論文（部分論文可以泛讀），一年後你就閱讀了100多篇論文，足夠比較深入地瞭解一個新領域。

新一年隨身攜帶的論文合集，不如就從這裡開始吧！

一種新型無梯度下降的反向傳播演算法

我們都知道，在20世紀70年代初引入的反向傳播演算法是神經網路學習的支柱。反向傳播利用大名鼎鼎的一階迭代優化演算法進行梯度下降，用於尋找函數的最小值。本文中， Bangalore的PES大學研究人員描述了一種不使用梯度下降的反向傳播方法。他們設計了一種新演算法，使用Moore-Penrose偽逆找出人工神經元權重和偏差的誤差。本文還在各種數據集上進行了數值研究和實驗，旨在驗證替代演算法的結果是否符合預期。

一份基於深度學習的情感分析

情感分析經常被用於辨識和分類文本中所表達的觀點，因為它可以確定作者對特定主題、產品等態度是積極、消極還是中性的，所以在處理社交媒體數據時，情感分析非常有價值。

深度學習日益流行，它是一種強大的機器學習技術，可以學習到數據的多層特徵並生成預測結果。隨著深度學習在許多其他應用領域的成功，近年來，深度學習在情感分析中也得到了廣泛的應用。本文對深度學習進行了全面的綜述，並對其在情感分析領域的應用現狀也進行了分析。

應用數學家所理解的深度學習是什麼

作為一名數學家，我喜歡看一些關於資料科學的技術文件，並找到它們與應用數學的關聯。本文從應用數學的角度出發，對深入學習的基本思想進行闡述。多層人工神經網路已在各個領域中被廣泛使用，這場深度學習革命的核心實際上可以追溯到應用和計算數學的基礎概念：特別是在微積分、偏微分方程、線性代數和近似/優化理論的概念中。

論深度學習的起源

本文對深度學習模型進行了全面的歷史回顧，它從人工神經網路的起源介紹到在過去十年的深度學習研究中占據主導地位的模型：如卷積神經網路、深度信念網路和遞歸神經網路。本文還重點介紹了這些模型的先例，分析了早期模型的構建過程，以及模型的發展歷程。

遞歸神經網路研究進展

遞歸神經網路（RNN）能夠從時間序列數據中學習序列特徵和長期依賴性。RNN由一堆非線性單元組成，單元之間至少有一個連接形成有向循環。一個訓練完備的RNN可以模擬任何一個動態系統，然而，RNN在訓練時一直受到長期依賴性問題的困擾。本文對RNN進行了綜述，並著重介紹了該領域的一些最新進展。

關於深度學習的十大質疑

儘管深度學習的歷史根源可以追溯到幾十年前，但「深度學習」這一術語和技術在五年前才開始流行起來，當時該領域被Krizhevsky、Sutskever和Hinton等人所統治，他們在2012年發表了經典之作「基於深度卷積神經網路的圖像分類」。但在接下來的五年中，深度學習領域中又有什麼發現呢？在語音辨識、圖像辨識和遊戲等領域取得長足進步的背景下，紐約大學的AI反對者Gary Marcus對深度學習提出了十個問題，並表明如果我們想要獲得通用的人工智慧，深度學習必須輔以其他技術。

深度學習中的矩陣導數

本文較為全面的介紹了深度神經網路中（以及參考文獻表中大多數論文）所需的所有線性代數知識。除了基礎微積分知識之外，本文深奧的數學知識很少。請注意，若你還是深度學習新手，這篇論文對你來說意義不大；相反，若你已經熟悉神經網路基礎知識並希望加深對基礎數學的理解，這篇論文將非常適合你研究。

群組歸一化

批量歸一化（BN）是深度學習開發中的里程碑技術，它使得各種網路的訓練成為了可能。但是，沿批量維度進行歸一化會帶來一些問題：當批量大小變小時，由於批次統計估計不準確，BN的誤差會迅速增加。這限制了BN在訓練大型模型以及電腦視覺任務（包括檢測、分割影片）中的使用，因為這些任務需要的是受記憶體消耗限制的小批量。本文由Facebook AI研究人員（FAIR）提出，將Group Normalization（GN）作為BN的簡單替代方案。GN將通道分成群組，並在每組內計算標準化的均值和方差。GN的計算與批量大小無關，並且其準確性在各種批量大小中都是穩定的。

平均參數比重能帶來更廣泛的優化和更好的概括能力

深度神經網路的訓練一般通過使用隨機梯度下降（SGD）變量和遞減學習率來優化一個損失函數，直至其收斂。這篇論文指出，對SGD曲線上的多個點取簡單平均數，並使用週期波動或恆定的學習率比傳統訓練方式有更好的概括能力。這篇論文還展示了，這個隨機平均參數比重（SWA）過程比SGD有更廣泛的優化能力，僅用一個模型就達到了之前快速集合法的效果。

對基於神經網路進行文本總結方法的調查

自動總結歸納文本，或者說在保留主要含義的同時壓縮文本長度，是自然語言處理（NLP）領域的一個重要研究範疇。這篇論文對近來基於神經網路的模型在自動文本總結方面進行了研究。作者詳細審查了十款最尖端的神經網路摘要器：五款摘要模型，以及五款提煉模型。

神經網路風格傳輸的回顧

Gatys等人在2015年「針對藝術風格的神經網路演算法」這篇開創性著作中，展示了卷積神經網路（CNN）能夠分離和重組圖片的內容和風格，在生成藝術圖像上表現出了強大的能力。這個使用CNN來渲染不同風格的內容圖像被稱作神經網路風格傳輸（NST）。此後，NST在學術著作和工業應用上都很是熱門，受到越來越多的關注，也產生了很多種致力改善或者擴展原有NST演算法的方法。這篇論文對NST目前的發展狀況提供了概覽，也對未來研究提出了一系列問題。

幾何數據：在機器學習領域針對黎曼幾何的一個Python包

在機器學習領域應用黎曼幾何越來越受人們關注。這篇論文引入了幾何數據這一概念，也給出了應用於諸如超球面、雙曲空間、空間對稱正定矩陣和李群變換等多重內容計算的python包。此外，論文中還包含了對於這些多重內容的應用，以及實用的黎曼度量和相關的外生性、對數圖。相應的測地線距離提供了一系列機器學習損失函數的直觀選擇。作者還給出了對應的黎曼梯度。幾何數據的操作可用於不同的計算後台，比如numpy, tensorflow和keras。文章作者使keras深度學習框架綜合應用GPU和幾何數據多重內容計算變成了可能。

一個更通用的穩健損失函數

這篇論文展示了一個雙參數損失函數，可視為對穩健統計學中很多常用的損失函數的一個概括，這些常用的損失函數包括Cauchy/Lorentzian, Geman-McClure, Welsch/Leclerc和廣義卡爾波涅爾損失函數（按傳遞性分為L2，L1，L1-L2和pseudo-Huber/Charbonnier損失函數）。作者描述並可視化展示了這個損失和相應的分佈，並列出了它的一些實用性特質。

反向退出：隨機反向傳播演算法

這篇論文引入了「反向退出」的概念，也即一個靈活而應用簡便的方法，可以直觀地表述為，退出現象僅沿著反向傳播管道發生。反向退出的應用是沿著網路中特定點插入一個或多個屏蔽層。每個反向退出的屏蔽層在正推法中被視為特徵，但幾乎不屏蔽部分反向梯度傳播。直觀來看，在任何卷積層之後插入反向退出層會帶來隨機梯度，隨刻度特徵不同而有不同。因此，反向退出非常適用於那些有多重刻度、金字塔結構的數據。

關係型強化深度學習

這篇論文引入了一個透過結構化感知和關係型推理從而提升強化深度學習（RL）的方法，主要表現在改善效率、泛化能力和提升傳統方法的解讀能力。透過自我感知來迭代推理場景中的主題和引導無模型原則之間的關係。結果顯示，在一個擁有新型導航和任務計畫的「盒世界」中，代理找到了可解釋的解決方案，從而可以在基線之上改善樣本的複雜度、泛化能力（在訓練中能應對更的複雜場景）以及整體表現。

一個非常有趣的案例：卷積神經網路和執行坐標轉化方法的失敗

深度學習裡幾乎沒有別的概念像「卷積」那樣大的影響力了。對包含像素或空間表徵的任何問題，普遍的直覺就是試試看CNNs。這篇論文通過一個看似微不足道的坐標轉化問題展示了一個反直覺的案例，也即單純要求機器在坐標（x,y）笛卡爾空間和一個熱像素的空間之間學習一個映射。雖然CNNs似乎很適用於這個場景，來自Uber的作者們證明了卷積神經網路法最終失敗了。這篇論文展示並仔細檢驗了這個失敗案例。

反向傳播法的演變

反向傳播演算法是深度學習的基石。儘管其非常重要，但很少有方法嘗試調整其演算法。這篇論文展示了一種發現新的反向傳播方程變式的方法。來自Google的作者使用了一種領域專用語言，將升級的方程描述為一系列原始方程。基於進化的方法被用來發現新的反向傳播原則，該原則在一系列最大訓練次數後能夠最大化泛化能力。這個研究發現了一些升級方程，相較標準的反向傳播演算法在較少次數內訓練得更快，並在收斂時有與標準反向傳播演算法近似的表現。

在深度卷積神經網路學習時代裡，物體探測領域近來的發展

物體探測就是對於特定類別圖片，比如車、飛機等進行探測的電腦視圖任務，它在過去五年裡在人工智慧領域裡吸引了非常多的關注。這些關注，既源於該領域在實際應用的重要性，也是因為自從CNNs時代的到來，它是人工智慧領域裡現象級的發展。這篇論文是對近來使用深度卷積神經網路學習方法的物體探測領域著作的一個全面回顧，也對近來這些發展進行了深刻的透析。

語言互動式AI的神經網路法

這篇論文對近年來發展出的語言互動式AI中神經網路方法進行了調查。語言互動式AI可被分為三個類別：1. 回答問題的機器人2. 以任務為導向的對話機器人3. 自動化語音聊天機器人。針對每個類別，文章使用特定系統和模型為案例，展示了領域最尖端的神經網路方法，並將其與傳統方法比較，討論其進步之處和仍面臨的問題。

可撤銷的遞歸神經網路

遞歸神經網路（RNNs）在運行序列數據上表現最優秀，但訓練起來更占用記憶體，也就限制了RNNs模型的靈活性。可撤銷的遞歸神經網路，也就是「隱藏對隱藏」的轉化能被撤銷的RNNs，提供了減少訓練所需記憶體的一個路徑，因其隱藏狀態無需存儲，從而能夠在反向傳播演算法中被重新計算。這篇論文展示了完美可撤銷RNNs從根本上就是受限的，因為它們依然需要記住隱藏狀態。隨後，為了實現能夠忘記隱藏狀態的完美可撤RNNs，文章提供了存儲少量bits的方法。作者這個方法達到了傳統模型的近似效果，同時減少了活動記憶體成本約10-15個百分點。