improved asynchrony for input/target transfers

ngc92 · ngc92 · commit 7b7f00b7e5e3 · 2025-12-06T21:45:18.000+01:00
diff --git a/src/kernels/encoder.cu b/src/kernels/encoder.cu
@@ -178,7 +178,7 @@ template<class floatX>
 void encoder_backward_imp(floatX* dwte, int* scratch, // gpu outputs & scratch
                       int* workload_indices, int4* bucket_info,    // cpu scratch buffers
                       const floatX* dout, const int* inp, const int* inputs_cpu, // cpu/gpu inputs
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream) {
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream) {
     using x128 = GenericVector<floatX, 16/sizeof(floatX)>;
 
     int num_c_groups = div_ceil((size_t)C, x128::size * 32);
@@ -220,12 +220,13 @@ void encoder_backward_imp(floatX* dwte, int* scratch, // gpu outputs & scratch
         bucket_index++;
     }
 
-    // Step 3: Copy data from host to device (async until the last one to avoid synchronising CPU/GPU twice)
-    // todo - could use CUDA events (even without streams) to avoid CPU/GPU synchronisation completely
+    // Step 3: Copy data from host to device (async on a different stream)
     int4* d_bucket_info = (int4*)scratch;
     int*  d_workload_indices = (int*)(scratch + B*T*num_c_groups * 4);
-    CUDA_CHECK(cudaMemcpyAsync(d_bucket_info, bucket_info, num_buckets * sizeof(int4), cudaMemcpyHostToDevice, stream));
-    CUDA_CHECK(cudaMemcpyAsync(d_workload_indices, workload_indices, total_items * sizeof(int), cudaMemcpyHostToDevice, stream));
+    CUDA_CHECK(cudaMemcpyAsync(d_bucket_info, bucket_info, num_buckets * sizeof(int4), cudaMemcpyHostToDevice, copy_stream));
+    CUDA_CHECK(cudaMemcpyAsync(d_workload_indices, workload_indices, total_items * sizeof(int), cudaMemcpyHostToDevice, copy_stream));
+    CUDA_CHECK(cudaEventRecord(sync_event, copy_stream));
+    CUDA_CHECK(cudaStreamWaitEvent(stream, sync_event, 0));
 
     // Launch wte kernel
     // todo - profile block sizes on more content (depends on number of buckets and on GPU?)
@@ -236,13 +237,13 @@ void encoder_backward_imp(floatX* dwte, int* scratch, // gpu outputs & scratch
 void encoder_backward(float* dwte, int* scratch, // gpu outputs & scratch
                       int* workload_indices, int4* bucket_info,    // cpu scratch buffers
                       const float* dout, const int* inp, const int* inputs_cpu, // cpu/gpu inputs
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream) {
-    encoder_backward_imp(dwte, scratch, workload_indices, bucket_info, dout, inp, inputs_cpu, B, T, C, seed, stream);
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream) {
+    encoder_backward_imp(dwte, scratch, workload_indices, bucket_info, dout, inp, inputs_cpu, B, T, C, seed, stream, sync_event, copy_stream);
 }
 
 void encoder_backward(nv_bfloat16* dwte, int* scratch, // gpu outputs & scratch
                       int* workload_indices, int4* bucket_info,    // cpu scratch buffers
                       const nv_bfloat16* dout, const int* inp, const int* inputs_cpu, // cpu/gpu inputs
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream) {
-    encoder_backward_imp(dwte, scratch, workload_indices, bucket_info, dout, inp, inputs_cpu, B, T, C, seed, stream);
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream) {
+    encoder_backward_imp(dwte, scratch, workload_indices, bucket_info, dout, inp, inputs_cpu, B, T, C, seed, stream, sync_event, copy_stream);
 }
diff --git a/src/kernels/kernels.cpp b/src/kernels/kernels.cpp
@@ -116,13 +116,17 @@ void encoder_forward(Tensor& out, const Tensor& inp, const Tensor& wte, std::opt
 void encoder_backward(Tensor& dwte, Tensor& scratch,
                       Tensor& workload_indices, Tensor& bucket_info,
                       const Tensor& dout, const Tensor& inp, const Tensor& inputs_cpu,
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream) {
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream) {
     assert(workload_indices.Device == -1);
     assert(bucket_info.Device == -1);
     if(dwte.DType == ETensorDType::FP32) {
-        encoder_backward(dwte.get<float>(), scratch.get<int>(), workload_indices.get<int>(), (int4*)bucket_info.get<int>(), dout.get<float>(), inp.get<std::int32_t>(), inputs_cpu.get<std::int32_t>(), B, T, C, seed, stream);
+        encoder_backward(dwte.get<float>(), scratch.get<int>(), workload_indices.get<int>(),
+            (int4*)bucket_info.get<int>(), dout.get<float>(), inp.get<std::int32_t>(), inputs_cpu.get<std::int32_t>(),
+            B, T, C, seed, stream, sync_event, copy_stream);
     } else if(dwte.DType == ETensorDType::BF16) {
-        encoder_backward(dwte.get<nv_bfloat16>(), scratch.get<int>(), workload_indices.get<int>(), (int4*)bucket_info.get<int>(), dout.get<nv_bfloat16>(), inp.get<std::int32_t>(), inputs_cpu.get<std::int32_t>(), B, T, C, seed, stream);
+        encoder_backward(dwte.get<nv_bfloat16>(), scratch.get<int>(), workload_indices.get<int>(),
+            (int4*)bucket_info.get<int>(), dout.get<nv_bfloat16>(), inp.get<std::int32_t>(), inputs_cpu.get<std::int32_t>(),
+            B, T, C, seed, stream, sync_event, copy_stream);
     } else {
         throw std::logic_error("encoder_backward: unsupported dtype");
     }
diff --git a/src/kernels/kernels.h b/src/kernels/kernels.h
@@ -28,15 +28,18 @@ void encoder_forward(Tensor& out, const Tensor& inp, const Tensor& wte, std::opt
 void encoder_backward(float* dwte, int* scratch,
                       int* workload_indices, int4* bucket_info,
                       const float* dout, const int* inp, const int* inputs_cpu,
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream);
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream);
 void encoder_backward(nv_bfloat16* dwte, int* scratch,
                       int* workload_indices, int4* bucket_info,
                       const nv_bfloat16* dout, const int* inp, const int* inputs_cpu,
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream);
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream);
+
+// The kernel runs on `stream`, but the bucket info that gets generated on CPU to enable efficient determinism
+// can be copied using `copy_stream`, so the kernel launch does not have to wait.
 void encoder_backward(Tensor& dwte, Tensor& scratch,
                       Tensor& workload_indices, Tensor& bucket_info,
                       const Tensor& dout, const Tensor& inp, const Tensor& inputs_cpu,
-                      int B, int T, int C, unsigned int seed, cudaStream_t stream);
+                      int B, int T, int C, unsigned int seed, cudaStream_t stream, cudaEvent_t sync_event, cudaStream_t copy_stream);
 
 void rmsnorm_forward(float* out, float* rms, const float* inp, const float* weight, float* abs_max_ptr, float epsilon, int B, int T, int C, cudaStream_t stream);
 void rmsnorm_forward(nv_bfloat16* out, float* rms, const nv_bfloat16* inp, const nv_bfloat16* weight, float* abs_max_ptr, float epsilon, int B, int T, int C, cudaStream_t stream);
diff --git a/src/models/llama_model.cpp b/src/models/llama_model.cpp
@@ -100,8 +100,10 @@ void LLamaModel::forward(Tensor inputs, NCCLCommunicator& comm, int micro_step)
     assert(inputs.Device == -1);
     {
         NvtxRange r{"copy-input"};
-        CUDA_CHECK(cudaMemcpyAsync(rs->Inputs.Data, inputs.Data, inputs.bytes(), cudaMemcpyHostToDevice, main_stream));
-        CUDA_CHECK(cudaEventRecord(rs->TransferDone, main_stream));
+        // by running copy-input on side stream, it can overlap with the previous backward pass.
+        CUDA_CHECK(cudaMemcpyAsync(rs->Inputs.Data, inputs.Data, inputs.bytes(), cudaMemcpyHostToDevice, rs->SideStream));
+        CUDA_CHECK(cudaEventRecord(rs->TransferDone, rs->SideStream));
+        CUDA_CHECK(cudaStreamWaitEvent(main_stream, rs->TransferDone, 0));
     }
 
     {
@@ -347,8 +349,10 @@ void LLamaModel::backward(Tensor inputs, Tensor targets, NCCLCommunicator& comm,
     const size_t C = Config.HiddenSize;
     const size_t L = Config.NumLayers;
 
-    CUDA_CHECK(cudaMemcpyAsync(rs->Targets.Data, targets.Data, targets.bytes(), cudaMemcpyHostToDevice, main_stream));
-    CUDA_CHECK(cudaEventRecord(rs->TransferDone, main_stream));
+    // copy on side stream so copy can start earlier
+    CUDA_CHECK(cudaMemcpyAsync(rs->Targets.Data, targets.Data, targets.bytes(), cudaMemcpyHostToDevice, rs->SideStream));
+    CUDA_CHECK(cudaEventRecord(rs->TransferDone, rs->SideStream));
+    CUDA_CHECK(cudaStreamWaitEvent(main_stream, rs->TransferDone, 0));
 
     bool last_step = micro_step == grad_accum_steps - 1;
     // on the first micro-step zero the gradients, as we're about to += accumulate into them
@@ -426,7 +430,7 @@ void LLamaModel::backward(Tensor inputs, Tensor targets, NCCLCommunicator& comm,
 
     auto& d_emb = Grads->get_embeddings_full(main_stream, comm, accumulate);
     encoder_backward(d_emb, rs->EncoderBwdScratch, rs->EncoderBwdIndices, rs->EncoderBwdInfo,
-                     rs->DEmb, rs->Inputs, inputs, B, T, C, OptimizerRNG(), main_stream);
+                     rs->DEmb, rs->Inputs, inputs, B, T, C, OptimizerRNG(), main_stream, rs->SideStreamEvent, rs->SideStream);
     Grads->notify_embeddings(main_stream, comm);
 
     // make sure all gradients are communicated before we go to the update step.