|
作者:Gavin Taylor, Ryan Burmeister, Zheng Xu, Bharat Singh, Ankit Patel, Tom Goldstein
機(jī)器之心編譯
參與:劉宗堯、李亞洲

論文摘要:
隨著大型網(wǎng)絡(luò)模型和龐大數(shù)據(jù)訓(xùn)練集的重要性日益增長,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)GPU 也變得越來越重要。這主要是因?yàn)閭鹘y(tǒng)的優(yōu)化算法依賴于隨機(jī)梯度方法,而隨機(jī)梯度方法在計(jì)算集群大量核中的擴(kuò)展并不好。此外,所有梯度方法的收斂,包括批量方法,都存在一些共同的問題,如飽和效應(yīng)、不良的調(diào)節(jié)和鞍點(diǎn)等。
本文探討了一種非傳統(tǒng)的訓(xùn)練方法,利用交替方向方法(alternating direction methods)和Bergman 迭代方法無梯度下降步驟的訓(xùn)練網(wǎng)絡(luò)。該方法減少了網(wǎng)絡(luò)訓(xùn)練問題,將其簡化成了一系列最小限度的子步驟,每個(gè)子步驟都能閉式全局解決。該方法之所以有益,是因?yàn)樗@過了很多注意事項(xiàng),這些注意事項(xiàng)會造成梯度方法在高度非凸問題上進(jìn)展緩慢。該方法在分布式環(huán)境中展示了強(qiáng)大的擴(kuò)展能力,即便在分散成千萬個(gè)核的狀況下也能產(chǎn)生線性加速度。
論文引言
隨著硬件和算法的進(jìn)步,神經(jīng)網(wǎng)絡(luò)在很多機(jī)器學(xué)習(xí)任務(wù)中的性能也在不斷改善。尤其在這樣的應(yīng)用中進(jìn)步非常明顯:可用龐大的數(shù)據(jù)熟練有眾多參數(shù)的模型。因?yàn)榇笮蛿?shù)據(jù)集得到的結(jié)果總是能超越之前在很多機(jī)器學(xué)習(xí)任務(wù)中最先進(jìn)的方法,因此研究人員也愿意購買諸如 GPU 這樣的硬件,并花費(fèi)大量的時(shí)間去訓(xùn)練模型、優(yōu)化參數(shù)。
基于梯度的訓(xùn)練方法有幾個(gè)特性,為了滿足這些特性需要專門的硬件。首先,雖然大量數(shù)據(jù)可以攤分到眾多核中,但是現(xiàn)有的優(yōu)化方法在并行時(shí)依然要忍受。第二,訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要優(yōu)化非凸目標(biāo),這些目標(biāo)會帶有鞍點(diǎn),條件缺乏,梯度消散現(xiàn)象。所有的這些都降低了基于梯度方法的速度,比如隨機(jī)梯度下降、共軛梯度以及 BFGS。之前介紹了幾個(gè)避免該問題的緩解途徑,包括解決線性單元(ReLu)(Nair & Hinton,2010)、長短期記憶網(wǎng)絡(luò)(Hochreiter & Schmidhuber,1997)、RPROP(Riedmiller & Braun,1993)等等,但是最根本的問題依然存在。
在本文中,我們介紹一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)的新的方法,這種方法使用了交替方向乘子算法(ADMM)和Bregman 迭代法。它解決了傳統(tǒng)梯度方法面臨的幾個(gè)問題;當(dāng)跨核數(shù)據(jù)并行的時(shí)候,它展現(xiàn)出了線性擴(kuò)展的能力,并且對梯度飽和和條件缺乏現(xiàn)象有較好的魯棒性。該方法還將網(wǎng)絡(luò)訓(xùn)練分解成一系列的子步驟,每一個(gè)步驟都能得到全局最優(yōu)性的解決。我們提議方法的擴(kuò)展性,再加上避免局部最小化、全局解決每一子步驟的能力,能夠達(dá)到急劇加速訓(xùn)練的效果。
在第二章,我們開始介紹這種方法的數(shù)學(xué)符號和背景,并討論了我們想要解決的基于梯度方法的幾個(gè)弱點(diǎn)。第三章和第四章介紹并描述了我們的優(yōu)化方法,第五章和第六章詳細(xì)講解了分布式實(shí)現(xiàn)。第七章通過處理兩個(gè)不同類型和困難度的問題,給出了一個(gè)新方法和標(biāo)準(zhǔn)實(shí)現(xiàn)的數(shù)個(gè)基于梯度方法的實(shí)驗(yàn)性對比。最后,第八章結(jié)束討論了這一論文的貢獻(xiàn)和未來需要做的工作。
本文由機(jī)器之心編譯
|
|