PaddlePaddle
diff --git a/‎docs/api/paddle/distributed/all_gather_cn.rst‎
Lines changed: 7 additions & 0 deletions b/‎docs/api/paddle/distributed/all_gather_cn.rst‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎docs/api/paddle/distributed/all_reduce_cn.rst‎
Lines changed: 7 additions & 0 deletions b/‎docs/api/paddle/distributed/all_reduce_cn.rst‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎docs/api/paddle/distributed/alltoall_cn.rst‎
Lines changed: 9 additions & 2 deletions b/‎docs/api/paddle/distributed/alltoall_cn.rst‎
Lines changed: 9 additions & 2 deletions
diff --git a/‎docs/api/paddle/distributed/broadcast_cn.rst‎
Lines changed: 7 additions & 1 deletion b/‎docs/api/paddle/distributed/broadcast_cn.rst‎
Lines changed: 7 additions & 1 deletion
diff --git a/‎docs/api/paddle/distributed/fleet/utils/recompute_cn.rst‎
Lines changed: 24 additions & 0 deletions b/‎docs/api/paddle/distributed/fleet/utils/recompute_cn.rst‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎docs/api/paddle/distributed/img/allgather.png‎
51.2 KB b/‎docs/api/paddle/distributed/img/allgather.png‎
51.2 KB
diff --git a/‎docs/api/paddle/distributed/img/allreduce.png‎
35.9 KB b/‎docs/api/paddle/distributed/img/allreduce.png‎
35.9 KB
diff --git a/‎docs/api/paddle/distributed/img/alltoall.png‎
30.4 KB b/‎docs/api/paddle/distributed/img/alltoall.png‎
30.4 KB
diff --git a/‎docs/api/paddle/distributed/img/broadcast.png‎
44.9 KB b/‎docs/api/paddle/distributed/img/broadcast.png‎
44.9 KB
diff --git a/‎docs/api/paddle/distributed/img/global_scatter_gather.png‎
75.5 KB b/‎docs/api/paddle/distributed/img/global_scatter_gather.png‎
75.5 KB
@@ -7,6 +7,13 @@ all_gather
 .. py:function:: paddle.distributed.all_gather(tensor_list, tensor, group=0)
 
 进程组内所有进程的指定tensor进行聚合操作，并返回给所有进程聚合的结果。
+如下图所示，4个GPU分别开启4个进程，每张卡上的数据用卡号代表，
+经过all_gather算子后，每张卡都会拥有所有卡的数据。
+
+.. image:: ./img/allgather.png
+  :width: 800
+  :alt: all_gather
+  :align: center
 
 参数
 :::::::::
 
@@ -7,6 +7,13 @@ all_reduce
 .. py:function:: paddle.distributed.all_reduce(tensor, op=ReduceOp.SUM, group=0)
 
 进程组内所有进程的指定tensor进行归约操作，并返回给所有进程归约的结果。
+如下图所示，4个GPU分别开启4个进程，每张卡上的数据用卡号代表，规约操作为求和，
+经过all_reduce算子后，每张卡都会拥有所有卡数据的总和。
+
+.. image:: ./img/allreduce.png
+  :width: 800
+  :alt: all_reduce
+  :align: center
 
 参数
 :::::::::
 
@@ -6,8 +6,15 @@ alltoall
 
 .. py:function:: paddle.distributed.alltoall(in_tensor_list, out_tensor_list, group=None, use_calc_stream=True)
 
-将in_tensor_list里面的tensors分发到所有参与的卡并将结果tensors汇总到out_tensor_list。
-
+将in_tensor_list里面的tensors按照卡数均分并按照卡的顺序分发到所有参与的卡并将结果tensors汇总到out_tensor_list。
+如下图所示，GPU0卡的in_tensor_list会按照两张卡拆分成0_0和0_1， GPU1卡的in_tensor_list同样拆分成1_0和1_1，经过alltoall算子后,
+GPU0卡的0_0会发送给GPU0，GPU0卡的0_1会发送给GPU1，GPU1卡的1_0会发送给GPU0，GPU1卡的1_1会发送给GPU1，所以GPU0卡的out_tensor_list包含0_0和1_0， 
+GPU1卡的out_tensor_list包含0_1和1_1。
+
+.. image:: ./img/alltoall.png
+  :width: 800
+  :alt: alltoall
+  :align: center
 
 参数
 :::::::::
 
@@ -6,7 +6,13 @@ broadcast
 
 .. py:function:: paddle.distributed.broadcast(tensor, src, group=0)
 
-广播一个Tensor给其他所有进程
+广播一个Tensor给其他所有进程。
+如下图所示，4个GPU分别开启4个进程，GPU0卡拥有数据，经过broadcast算子后，会将这个数据传播到所有卡上。
+
+.. image:: ./img/broadcast.png
+  :width: 800
+  :alt: broadcast
+  :align: center
 
 参数
 :::::::::
 
@@ -0,0 +1,24 @@
+.. _cn_api_distributed_fleet_utils_recompute:
+
+recompute
+-------------------------------
+
+
+.. py:function:: paddle.distributed.fleet.utils.recompute(function, *args, **kwargs)
+
+重新计算中间激活函数值来节省显存。
+
+参数
+:::::::::
+    - function (paddle.nn.Sequential) - 模型前向传播的部分连续的层函数组成的序列，
+      它们的中间激活函数值将在前向传播过程中被释放掉来节省显存，并且在反向梯度计算的时候会重新被计算。
+    - args (Tensor) - function的输入。
+    - kwargs (Dict) - kwargs只应该包含preserve_rng_state的键值对，用来表示是否保存前向的rng，如果为True，那么在反向传播的重计算前向时会还原上次前向的rng值。默认preserve_rng_state为True。
+
+返回
+:::::::::
+function作用在输入的输出
+
+代码示例
+:::::::::
+COPY-FROM: paddle.distributed.fleet.utils.recompute