CS224n-Assignment3
assignment3 write Answer
Machine Learning & Neural Networks
(a) Adam Optimizer
- b=0.9决定了,每次参数更新更大的取决于历史遗留梯度,而非本轮计算出的梯度,所以假设这次梯度varing了,乘一个0.1也不会掀起什么大风大浪。m的出现会使每次更新迭代的步长更加稳定,不会忽小忽大,提高了收敛效率。
- 这个没理解,数学直觉告诉我,第一个式子已经起到了这个式子的作用。后面有机会结和实际项目,再来填坑。
(b) Regularization technique-Dropout
- 1式带入2式
- 训练期间,dropout可以提高模型的泛化能力。但是在测试期间,dropout会提高模型的不确定性,导致测试结果无法体现模型的performance。
Dependency Parsing
参考目录:
- 参数初始化
- https://spellonyou.github.io/2020/06/cs224n-19w-a3/