FengHZ‘s Blog首发原创
Tensorflow官网上有一个Trick是这样的:
当训练参数到一定的步数之后,可以考虑采用 \(\hat{w_t}=mw_{t}+(1-m)w_{t-1}\) 来让参数收敛到一个更好的效果,但是这个有时候会有作用,有时候并没有作用
我觉得这个策略等价于调整momentum与学习率,特此给出证明与分析
1.弄清楚如何创建分支,合并分支,以及分支开发到一半回退回主枝
2.弄清楚如何把文件回退到指定的版本
本学习所有内容都来自于网站Git Book 中文版中chap 2-3 ,7的内容