CS224n-Assignment3

assignment3 write Answer

Machine Learning & Neural Networks

(a) Adam Optimizer

  1. b=0.9决定了,每次参数更新更大的取决于历史遗留梯度,而非本轮计算出的梯度,所以假设这次梯度varing了,乘一个0.1也不会掀起什么大风大浪。m的出现会使每次更新迭代的步长更加稳定,不会忽小忽大,提高了收敛效率。
  2. 这个没理解,数学直觉告诉我,第一个式子已经起到了这个式子的作用。后面有机会结和实际项目,再来填坑。

    (b) Regularization technique-Dropout

  3. 1式带入2式
  4. 训练期间,dropout可以提高模型的泛化能力。但是在测试期间,dropout会提高模型的不确定性,导致测试结果无法体现模型的performance。

Dependency Parsing

  1. 2*n,进n次,出n次
  2. 见代码

参考目录:

  1. 参数初始化
  2. https://spellonyou.github.io/2020/06/cs224n-19w-a3/
Richard Huo

Richard Huo

Time will tell, 热爱生活的当代码农,狼人杀新手玩家。