學(xué)界｜不通過梯度下降來訓(xùn)練神經(jīng)網(wǎng)絡(luò)：一個(gè)可擴(kuò)展的ADMM途徑

ID:119948 · 發(fā)表于 2016-5-11 23:04

作者：Gavin Taylor, Ryan Burmeister, Zheng Xu, Bharat Singh, Ankit Patel, Tom Goldstein

機(jī)器之心編譯
參與：劉宗堯、李亞洲

論文摘要：

隨著大型網(wǎng)絡(luò)模型和龐大數(shù)據(jù)訓(xùn)練集的重要性日益增長，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)GPU 也變得越來越重要。這主要是因?yàn)閭鹘y(tǒng)的優(yōu)化算法依賴于隨機(jī)梯度方法，而隨機(jī)梯度方法在計(jì)算集群大量核中的擴(kuò)展并不好。此外，所有梯度方法的收斂，包括批量方法，都存在一些共同的問題，如飽和效應(yīng)、不良的調(diào)節(jié)和鞍點(diǎn)等。

本文探討了一種非傳統(tǒng)的訓(xùn)練方法，利用交替方向方法（alternating direction methods）和Bergman 迭代方法無梯度下降步驟的訓(xùn)練網(wǎng)絡(luò)。該方法減少了網(wǎng)絡(luò)訓(xùn)練問題，將其簡化成了一系列最小限度的子步驟，每個(gè)子步驟都能閉式全局解決。該方法之所以有益，是因?yàn)樗@過了很多注意事項(xiàng)，這些注意事項(xiàng)會造成梯度方法在高度非凸問題上進(jìn)展緩慢。該方法在分布式環(huán)境中展示了強(qiáng)大的擴(kuò)展能力，即便在分散成千萬個(gè)核的狀況下也能產(chǎn)生線性加速度。

論文引言

隨著硬件和算法的進(jìn)步，神經(jīng)網(wǎng)絡(luò)在很多機(jī)器學(xué)習(xí)任務(wù)中的性能也在不斷改善。尤其在這樣的應(yīng)用中進(jìn)步非常明顯：可用龐大的數(shù)據(jù)熟練有眾多參數(shù)的模型。因?yàn)榇笮蛿?shù)據(jù)集得到的結(jié)果總是能超越之前在很多機(jī)器學(xué)習(xí)任務(wù)中最先進(jìn)的方法，因此研究人員也愿意購買諸如 GPU 這樣的硬件，并花費(fèi)大量的時(shí)間去訓(xùn)練模型、優(yōu)化參數(shù)。

基于梯度的訓(xùn)練方法有幾個(gè)特性，為了滿足這些特性需要專門的硬件。首先，雖然大量數(shù)據(jù)可以攤分到眾多核中，但是現(xiàn)有的優(yōu)化方法在并行時(shí)依然要忍受。第二，訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要優(yōu)化非凸目標(biāo)，這些目標(biāo)會帶有鞍點(diǎn)，條件缺乏，梯度消散現(xiàn)象。所有的這些都降低了基于梯度方法的速度，比如隨機(jī)梯度下降、共軛梯度以及 BFGS。之前介紹了幾個(gè)避免該問題的緩解途徑，包括解決線性單元（ReLu）（Nair & Hinton，2010）、長短期記憶網(wǎng)絡(luò)（Hochreiter & Schmidhuber，1997）、RPROP（Riedmiller & Braun，1993）等等，但是最根本的問題依然存在。

在本文中，我們介紹一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)的新的方法，這種方法使用了交替方向乘子算法（ADMM）和Bregman 迭代法。它解決了傳統(tǒng)梯度方法面臨的幾個(gè)問題；當(dāng)跨核數(shù)據(jù)并行的時(shí)候，它展現(xiàn)出了線性擴(kuò)展的能力，并且對梯度飽和和條件缺乏現(xiàn)象有較好的魯棒性。該方法還將網(wǎng)絡(luò)訓(xùn)練分解成一系列的子步驟，每一個(gè)步驟都能得到全局最優(yōu)性的解決。我們提議方法的擴(kuò)展性，再加上避免局部最小化、全局解決每一子步驟的能力，能夠達(dá)到急劇加速訓(xùn)練的效果。

在第二章，我們開始介紹這種方法的數(shù)學(xué)符號和背景，并討論了我們想要解決的基于梯度方法的幾個(gè)弱點(diǎn)。第三章和第四章介紹并描述了我們的優(yōu)化方法，第五章和第六章詳細(xì)講解了分布式實(shí)現(xiàn)。第七章通過處理兩個(gè)不同類型和困難度的問題，給出了一個(gè)新方法和標(biāo)準(zhǔn)實(shí)現(xiàn)的數(shù)個(gè)基于梯度方法的實(shí)驗(yàn)性對比。最后，第八章結(jié)束討論了這一論文的貢獻(xiàn)和未來需要做的工作。

本文由機(jī)器之心編譯

帳號		自動登錄	找回密碼
密碼			立即注冊

久久久久久久999_99精品久久精品一区二区爱城_成人欧美一区二区三区在线播放_国产精品日本一区二区不卡视频_国产午夜视频_欧美精品在线观看免费

學(xué)界｜不通過梯度下降來訓(xùn)練神經(jīng)網(wǎng)絡(luò)：一個(gè)可擴(kuò)展的ADMM途徑