ps quick start

esythan · esythan · commit a6592daa8518 · 2022-05-09T06:16:10.000Z
diff --git a/docs/guides/06_distributed_training/cluster_quick_start_cn.rst b/docs/guides/06_distributed_training/cluster_quick_start_cn.rst
@@ -369,7 +369,7 @@ train_fleet_static.py的完整训练代码如下所示。
 二、ParameterServer训练快速开始
 -------------------------
 
-本节将采用推荐领域非常经典的模型wide_and_deep为例，介绍如何使用Fleet API（paddle.distributed.fleet）完成参数服务器训练任务，本次快速开始的完整示例代码位于 https://github.com/PaddlePaddle/FleetX/tree/develop/examples/wide_and_deep。
+本节将采用推荐领域非常经典的模型wide_and_deep为例，介绍如何使用Fleet API（paddle.distributed.fleet）完成参数服务器训练任务，本次快速开始的完整示例代码位于 https://github.com/PaddlePaddle/FleetX/tree/develop/examples/wide_and_deep_dataset。
 
 2.1 版本要求
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
@@ -383,9 +383,10 @@ train_fleet_static.py的完整训练代码如下所示。
 
     1. 导入分布式训练需要的依赖包。
     2. 定义分布式模式并初始化分布式训练环境。
-    3. 加载模型及数据。
-    4. 定义参数更新策略及优化器。
-    5. 开始训练。 
+    3. 加载模型。
+    4. 构建dataset加载数据
+    5. 定义参数更新策略及优化器。
+    6. 开始训练。 
     
 下面将逐一进行讲解。
 
@@ -410,37 +411,38 @@ train_fleet_static.py的完整训练代码如下所示。
     paddle.enable_static()
     fleet.init(is_collective=False)
 
-2.2.3 加载模型及数据
+2.2.3 加载模型
 """"""""""""
 
 .. code-block:: python
 
-    # 模型定义参考 examples/wide_and_deep 中 model.py
+    # 模型定义参考 examples/wide_and_deep_dataset 中 model.py
     from model import WideDeepModel
-    from reader import WideDeepDataset
 
     model = WideDeepModel()
     model.net(is_train=True)
 
-    def distributed_training(exe, train_model, train_data_path="./data", batch_size=10, epoch_num=1):
-        train_data = WideDeepDataset(data_path=train_data_path)
-        reader = train_model.loader.set_sample_generator(
-            train_data, batch_size=batch_size, drop_last=True, places=paddle.CPUPlace())
-
-        for epoch_id in range(epoch_num):
-            reader.start()
-            try:
-                while True:
-                    loss_val = exe.run(program=paddle.static.default_main_program(),
-                                    fetch_list=[train_model.cost.name])
-                    loss_val = np.mean(loss_val)
-                    print("TRAIN ---> pass: {} loss: {}\n".format(epoch_id, loss_val))
-            except paddle.common_ops_import.core.EOFException:
-                reader.reset()
+2.2.4 构建dataset加载数据
+""""""""""""
 
-    
-    
-2.2.4 定义同步训练 Strategy 及 Optimizer
+.. code-block:: python
+
+    # 具体数据处理参考examples/wide_and_deep_dataset中reader.py
+    dataset = paddle.distributed.QueueDataset()
+    thread_num = 1
+    dataset.init(use_var=model.inputs, 
+                 pipe_command="python reader.py", 
+                 batch_size=batch_size, 
+                 thread_num=thread_num)
+
+    train_files_list = [os.path.join(train_data_path, x)
+                          for x in os.listdir(train_data_path)]
+    dataset.set_filelist(train_files_list)
+
+备注：dataset具体用法参见\ `使用InMemoryDataset/QueueDataset进行训练 <https://fleet-x.readthedocs.io/en/latest/paddle_fleet_rst/parameter_server/performance/dataset.html>`_\。
+
+
+2.2.5 定义同步训练 Strategy 及 Optimizer
 """"""""""""
 
 在Fleet API中，用户可以使用 ``fleet.DistributedStrategy()`` 接口定义自己想要使用的分布式策略。
@@ -466,14 +468,14 @@ train_fleet_static.py的完整训练代码如下所示。
     optimizer = fleet.distributed_optimizer(optimizer, dist_strategy)
     optimizer.minimize(model.loss)
 
-2.2.5 开始训练
+2.2.6 开始训练
 """"""""""""
 
 完成模型及训练策略以后，我们就可以开始训练模型了。因为在参数服务器模式下会有不同的角色，所以根据不同节点分配不同的任务。
 
 对于服务器节点，首先用 ``init_server()`` 接口对其进行初始化，然后启动服务并开始监听由训练节点传来的梯度。
 
-同样对于训练节点，用 ``init_worker()`` 接口进行初始化后， 开始执行训练任务。运行 ``exe.run()`` 接口开始训练，并得到训练中每一步的损失值。
+同样对于训练节点，用 ``init_worker()`` 接口进行初始化后， 开始执行训练任务。运行 ``exe.train_from_dataset()`` 接口开始训练。
 
 .. code-block:: python
 
@@ -486,18 +488,28 @@ train_fleet_static.py的完整训练代码如下所示。
 
         fleet.init_worker()
 
-        distributed_training(exe, model)
-
+        for epoch_id in range(1):
+            exe.train_from_dataset(paddle.static.default_main_program(),
+                                   dataset,
+                                   paddle.static.global_scope(), 
+                                   debug=False, 
+                                   fetch_list=[train_model.cost],
+                                   fetch_info=["loss"],
+                                   print_period=1)
+    
         fleet.stop_worker()
 
+备注：Paddle2.3版本及以后，ParameterServer训练将废弃掉dataloader + exe.run()方式，请切换到dataset + exe.train_from_dataset()方式。
+
+
 2.3 运行训练脚本
 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
 
-定义完训练脚本后，我们就可以用 ``python3 -m paddle.distributed.launch`` 指令运行分布式任务了。其中 ``server_num`` , ``worker_num`` 分别为服务节点和训练节点的数量。在本例中，服务节点有1个，训练节点有2个。
+定义完训练脚本后，我们就可以用 ``fleetrun`` 指令运行分布式任务了。其中 ``server_num`` , ``worker_num`` 分别为服务节点和训练节点的数量。在本例中，服务节点有1个，训练节点有2个。
 
 .. code-block:: bash
 
-    python3 -m paddle.distributed.launch --server_num=1 --worker_num=2 --gpus=0,1 train.py
+    fleetrun --server_num=1 --worker_num=2 train.py
 
 您将看到显示如下日志信息：