Skip to content

Commit

Permalink
update some typo
Browse files Browse the repository at this point in the history
Signed-off-by: hutuxian <[email protected]>
  • Loading branch information
hutuxian committed May 6, 2020
1 parent 19c2a1a commit 911b232
Show file tree
Hide file tree
Showing 2 changed files with 3 additions and 3 deletions.
4 changes: 2 additions & 2 deletions doc/edl_collective_design_doc_cn.md
Original file line number Diff line number Diff line change
Expand Up @@ -13,8 +13,8 @@ Collective通信(同步)模式的训练因为其精度稳定、好复现的
这些参数是比较自由的、用户自定义的,我们在训练引擎端无法控制的。所以我们采用stop-resume的方式解决,用户程序面对新的超参只有节点个数一个。

2. 如何尽可能的保证精度、结果可复现。
训练的任务提交之前,用户需要制定自己的训练节点的最小和最大的节点的个数,同时需要指定batchsize是保持不变还是随着节点数目线性增长,因为batchsize是精度相关的超参,有些模型超过了一定阈值就需要做额外的调整,如Resnet50 total batchsize 超过8K的时候需要对学习率做额外的调整。
但是,保持总得batchsize不变也会带来扩展的效率问题:单卡batchsize减少,训练的性能可能会降低。
训练的任务提交之前,用户需要指定自己的训练节点的最小和最大的节点的个数,同时需要指定batchsize是保持不变还是随着节点数目线性增长,因为batchsize是精度相关的超参,有些模型超过了一定阈值就需要做额外的调整,如Resnet50 total batchsize 超过8K的时候需要对学习率做额外的调整。
但是,保持总的batchsize不变也会带来扩展的效率问题:单卡batchsize减少,训练的性能可能会降低。
考虑到上述两个问题,这个地方需要用户自己根据节点的个数和自己的模型的特点做决定。

3. 如何让用户的程序改动少。
Expand Down
2 changes: 1 addition & 1 deletion doc/fault_tolerance_cn.md
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,7 @@ Paddle本身提供`save_persistables `保存所有持久的变量。
Paddle提供`save_check_point``load_check_point`两种方式来存、读checkpoint。
其中有两个参数需要注意一下:
1.fs
这个是我们对文件系统的抽线,目前的实现有两种:本地和远程HDFS。您可以实现自己的`FS`类来实现保存和读取checkpoint的功能
这个是我们对文件系统的抽象,目前的实现有两种:本地和远程HDFS。您可以实现自己的`FS`类来实现保存和读取checkpoint的功能

2.train_status
目前该类只有`epoch_no`的类变量,0.2以后的版本将尝试增加用户自定义的member等更多的值。
Expand Down

0 comments on commit 911b232

Please sign in to comment.