 動量方法與(yu)Adam優(you)化器的(de)比(bi)較
							時間(jian):2025-02-20      來源(yuan):華清(qing)遠(yuan)見
							動量方法與(yu)Adam優(you)化器的(de)比(bi)較
							時間(jian):2025-02-20      來源(yuan):華清(qing)遠(yuan)見 
							優化器(optimizer)
目標: 最小化損失函數
過程: 在反向(xiang)傳播中(zhong), 根據學習(xi)率(lr)來(lai)對參數進行(xing)更(geng)新,最終(zhong)逐步降低損失函(han)數的大小, 使得神經網絡輸出更(geng)好(函(han)數擬(ni)合(he)的更(geng)好)
	
	
優點:
1. 前后(hou)梯度(du)一致時能夠加(jia)速學(xue)習
2. 前后梯度不一(yi)致時(shi)能夠抑(yi)制(zhi)震(zhen)蕩, 越過(guo)局部最小(xiao)值(zhi)
缺點:
1. 引入一個額外的(de)參數 y
	
思想: 結合Momentum和RMSprop兩種優(you)化器的算法, 并引入(ru)一(yi)階矩(ju)估計(ji)和二階矩(ju)估計(ji)。
優點:
1. Adam能夠(gou)自(zi)動調(diao)整每個參數的學習率, 能夠(gou)很好(hao)地處(chu)理噪聲(sheng)和(he)非平穩的訓練數據
2. 相較于其他可變學習率(lv)(AdaGrad)的優化器, 提高了訓練速度(du)
總結:
如果在(zai)未知模(mo)型(xing)上進(jin)(jin)行訓練, 可(ke)以(yi)先考慮(lv)使(shi)用Adam確保(bao)損失函數(shu)能(neng)夠找到最小(xiao)值, 即模(mo)型(xing)擬(ni)合的函數(shu)能(neng)夠收斂,然后(hou)切換回SGD進(jin)(jin)行訓練, 快速達到對應的值。