fix: fix gpt2 and llama multi-node training

kilinchange · kilinchange · commit d1cc216980d9 · 2025-12-04T09:34:13.000Z
diff --git a/example/gpt2/main.cc b/example/gpt2/main.cc
@@ -107,7 +107,7 @@ void Train(const nn::parallel::Rank &rank) {
 
     int ddp_world_size = global::GetDataParallelSize();
     int tp_world_size = global::GetTensorParallelSize();
-    int sp_world_size = global::GetSequenceParallelEnabled() ? tp_world_size : 0;
+    int sp_world_size = global::GetSequenceParallelEnabled() ? tp_world_size : 1;
     int pp_world_size = global::GetPipelineParallelSize();
 
     if (FLAGS_sequence_parallel) {
@@ -129,21 +129,21 @@ void Train(const nn::parallel::Rank &rank) {
         if (ddp_world_size > 1) {
             ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.GlobalRank()),
                                                                   GetDataParallelGroupRanks(rank.GlobalRank()));
-            ddp_rank = ddp_pg->GetGroupRank(rank.thread_rank());
+            ddp_rank = ddp_pg->GetGroupRank(rank.GlobalRank());
         }
 
         if (tp_world_size > 1) {
             tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.GlobalRank()),
                                                                  GetTensorParallelGroupRanks(rank.GlobalRank()));
-            tp_rank = tp_pg->GetGroupRank(rank.thread_rank());
+            tp_rank = tp_pg->GetGroupRank(rank.GlobalRank());
             // NOTE(zbl): Reserved for VocabParallelEmbedding
             nn::parallel::tp_rank = tp_rank;
         }
 
         if (pp_world_size > 1) {
-            pp_pg = ProcessGroupFactory::Instance()->GetOrCreate(
-                GetPipelineParallelProcessGroupName(rank.thread_rank()), GetPipelineParallelGroupRanks(pp_world_size));
-            pp_rank = pp_pg->GetGroupRank(rank.thread_rank());
+            pp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetPipelineParallelProcessGroupName(rank.GlobalRank()),
+                                                                 GetPipelineParallelGroupRanks(rank.GlobalRank()));
+            pp_rank = pp_pg->GetGroupRank(rank.GlobalRank());
 
             nn::parallel::pp_rank = pp_rank;
         }
@@ -184,7 +184,7 @@ void Train(const nn::parallel::Rank &rank) {
     } else if (FLAGS_dtype == kDtypeBF16) {
         dtype = DataType::kBFLOAT16;
     } else {
-        LOG(FATAL) << "Rank " << rank.thread_rank() << ": Datatype " << FLAGS_dtype << " not supported.";
+        LOG(FATAL) << "Rank " << rank.GlobalRank() << ": Datatype " << FLAGS_dtype << " not supported.";
     }
 
     // NOTE(dcj): Complete all device (.to(device)) and dtype (.to(dtype)) conversions
@@ -225,7 +225,7 @@ void Train(const nn::parallel::Rank &rank) {
               std::make_shared<VocabParallelCrossEntropyLoss>(model_config.original_vocab_size))
                               : std::static_pointer_cast<nn::Module>(std::make_shared<nn::CrossEntropyLoss>());
     loss_fn->To(device);
-    LOG(INFO) << "Rank " << rank.thread_rank() << ": start training";
+    LOG(INFO) << "Rank " << rank.GlobalRank() << ": start training";
 
     if (pp_world_size > 1) {
         auto shapes = std::vector<std::vector<int64_t>>{{FLAGS_batch_size, FLAGS_sequence_length, model_config.n_embd}};
@@ -285,23 +285,23 @@ void Train(const nn::parallel::Rank &rank) {
                 x = std::make_shared<Tensor>(x->To(device));
                 y = std::make_shared<Tensor>(y->To(device));
 
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": start forward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": start forward";
                 // (bs, seq_len, vocab_size)
                 auto logits = model->Forward({x, y})[0];
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": finish model forward, start loss forward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": finish model forward, start loss forward";
                 auto loss = loss_fn->Forward({logits, y})[0];
                 loss = loss / grad_accum_steps;
 
                 // disable autocast for the current step (backward is not under autocast)
                 autocast_guard.Disable();
 
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": finish loss forward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": finish loss forward";
 
                 auto loss_cpu = loss->To(DeviceManager::Instance()->GetDefaultDevice());
                 lossf += static_cast<const float *>(loss_cpu.DataPtr())[0];
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": start backward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": start backward";
                 loss->Backward();
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": finish backward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": finish backward";
             }
 
             optimizer.Step();
diff --git a/example/gpt2/net.cc b/example/gpt2/net.cc
@@ -5,7 +5,6 @@
 #include <filesystem>
 #include <fstream>
 #include <random>
-#include <stdexcept>
 #include <string>
 #include <tuple>
 
@@ -239,7 +238,8 @@ GPT2::Forward(const std::vector<std::shared_ptr<infini_train::Tensor>> &x) {
     auto x1 = x[0];
     const auto device = x1->GetDevice();
 
-    const auto t = x1->Dims()[1]; // T
+    const auto t
+        = x1->Dims()[1] * (is_first_stage ? 1 : nn::parallel::global::GetSequenceParallelSize()); // full_seq_len
     CHECK_LE(t, config_.block_size) << "Cannot forward sequence of length " << t << ", block size is only "
                                     << config_.block_size;
     // forward the GPT2 model itself
@@ -252,8 +252,8 @@ GPT2::Forward(const std::vector<std::shared_ptr<infini_train::Tensor>> &x) {
         int tp_rank = 0;
         if (tp_world_size > 1) {
             auto tp_group = nn::parallel::ProcessGroupFactory::Instance()->Get(
-                nn::parallel::GetTensorParallelProcessGroupName(device->rank().thread_rank()));
-            tp_rank = tp_group->GetGroupRank(device->rank().thread_rank());
+                nn::parallel::GetTensorParallelProcessGroupName(device->rank().GlobalRank()));
+            tp_rank = tp_group->GetGroupRank(device->rank().GlobalRank());
         }
         int64_t t_local = sequence_parallel_enabled ? (t / tp_world_size) : t;
         int64_t start = sequence_parallel_enabled ? tp_rank * t_local : 0;
@@ -386,7 +386,8 @@ std::shared_ptr<GPT2> GPT2::FromLLMC(const std::string &filepath) {
     } else if (pp_size > 1 && is_last_stage) {
         auto &lm_head_weight = state_dict[std::format("{}.{}", GPT2::kLMHeadLayerName,
                                                       nn::parallel::ColumnParallelLinear::kParamWeightName)];
-        ifs.read(reinterpret_cast<char *>(lm_head_weight->DataPtr()), lm_head_weight->SizeInBytes());
+        ReadMatrixRowShardFloat(ifs, static_cast<float *>(lm_head_weight->DataPtr()), model_vocab_size, n_embd, v_start,
+                                vpp);
     } else {
         size_t wte_bytes = vocab_size * n_embd * sizeof(float);
         ifs.seekg(wte_bytes, std::ios::cur);
diff --git a/example/llama3/main.cc b/example/llama3/main.cc
@@ -89,7 +89,7 @@ void Train(const nn::parallel::Rank &rank) {
 
     int ddp_world_size = global::GetDataParallelSize();
     int tp_world_size = global::GetTensorParallelSize();
-    int sp_world_size = global::GetSequenceParallelEnabled() ? tp_world_size : 0;
+    int sp_world_size = global::GetSequenceParallelEnabled() ? tp_world_size : 1;
     int pp_world_size = global::GetPipelineParallelSize();
 
     if (FLAGS_sequence_parallel) {
@@ -111,21 +111,21 @@ void Train(const nn::parallel::Rank &rank) {
         if (ddp_world_size > 1) {
             ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.GlobalRank()),
                                                                   GetDataParallelGroupRanks(rank.GlobalRank()));
-            ddp_rank = ddp_pg->GetGroupRank(rank.thread_rank());
+            ddp_rank = ddp_pg->GetGroupRank(rank.GlobalRank());
         }
 
         if (tp_world_size > 1) {
             tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.GlobalRank()),
                                                                  GetTensorParallelGroupRanks(rank.GlobalRank()));
-            tp_rank = tp_pg->GetGroupRank(rank.thread_rank());
+            tp_rank = tp_pg->GetGroupRank(rank.GlobalRank());
             // NOTE(zbl): Reserved for VocabParallelEmbedding
             nn::parallel::tp_rank = tp_rank;
         }
 
         if (pp_world_size > 1) {
             pp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetPipelineParallelProcessGroupName(rank.GlobalRank()),
                                                                  GetPipelineParallelGroupRanks(rank.GlobalRank()));
-            pp_rank = pp_pg->GetGroupRank(rank.thread_rank());
+            pp_rank = pp_pg->GetGroupRank(rank.GlobalRank());
 
             nn::parallel::pp_rank = pp_rank;
         }
@@ -156,15 +156,15 @@ void Train(const nn::parallel::Rank &rank) {
 
     model->To(device);
 
-    LOG(INFO) << "Rank " << rank.thread_rank() << ": Model loaded to device.";
+    LOG(INFO) << "Rank " << rank.GlobalRank() << ": Model loaded to device.";
 
     DataType dtype;
     if (FLAGS_dtype == kDtypeFP32) {
         dtype = DataType::kFLOAT32;
     } else if (FLAGS_dtype == kDtypeBF16) {
         dtype = DataType::kBFLOAT16;
     } else {
-        LOG(FATAL) << "Rank " << rank.thread_rank() << ": Datatype " << FLAGS_dtype << " not supported.";
+        LOG(FATAL) << "Rank " << rank.GlobalRank() << ": Datatype " << FLAGS_dtype << " not supported.";
     }
 
     // NOTE(dcj): Complete all device (.to(device)) and dtype (.to(dtype)) conversions
@@ -204,10 +204,13 @@ void Train(const nn::parallel::Rank &rank) {
         = (tp_world_size > 1) ? std::static_pointer_cast<nn::Module>(std::make_shared<VocabParallelCrossEntropyLoss>())
                               : std::static_pointer_cast<nn::Module>(std::make_shared<nn::CrossEntropyLoss>());
     loss_fn->To(device);
-    LOG(INFO) << "Rank " << rank.thread_rank() << ": start training";
+    LOG(INFO) << "Rank " << rank.GlobalRank() << ": start training";
 
     if (pp_world_size > 1) {
-        auto shapes = std::vector<std::vector<int64_t>>{{FLAGS_batch_size, FLAGS_sequence_length, model_config.n_embd}};
+        // NOTE(dcj): To ensure that the tensor shapes at the pipeline stage boundaries remain correct
+        // when sequence parallelism (SP) is enabled, we need to divide by sp_world_size.
+        auto shapes = std::vector<std::vector<int64_t>>{
+            {FLAGS_batch_size, FLAGS_sequence_length / sp_world_size, model_config.n_embd}};
 
         model = std::make_shared<nn::parallel::PipelineParallel>(model, pp_world_size, num_micro_batches, shapes,
                                                                  pp_rank, std::make_shared<optimizers::Adam>(optimizer),
@@ -262,23 +265,23 @@ void Train(const nn::parallel::Rank &rank) {
                 x = std::make_shared<Tensor>(x->To(device));
                 y = std::make_shared<Tensor>(y->To(device));
 
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": start forward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": start forward";
                 // (bs, seq_len, vocab_size)
                 auto logits = model->Forward({x, y})[0];
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": finish model forward, start loss forward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": finish model forward, start loss forward";
                 auto loss = loss_fn->Forward({logits, y})[0];
                 loss = loss / grad_accum_steps;
 
                 // disable autocast for the current step (backward is not under autocast)
                 autocast_guard.Disable();
 
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": finish loss forward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": finish loss forward";
 
                 auto loss_cpu = loss->To(DeviceManager::Instance()->GetDefaultDevice());
                 lossf += static_cast<const float *>(loss_cpu.DataPtr())[0];
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": start backward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": start backward";
                 loss->Backward();
-                LOG(INFO) << "Rank " << rank.thread_rank() << ": finish backward";
+                LOG(INFO) << "Rank " << rank.GlobalRank() << ": finish backward";
             }
 
             optimizer.Step();
diff --git a/example/llama3/net.cc b/example/llama3/net.cc
@@ -6,7 +6,6 @@
 #include <fstream>
 #include <memory>
 #include <random>
-#include <set>
 #include <string>
 #include <unordered_map>
 #include <vector>
@@ -364,7 +363,8 @@ std::vector<std::shared_ptr<Tensor>> LLaMA3::Forward(const std::vector<std::shar
     // (bs, seq_len)
     auto x1 = x[0];
     const auto device = x1->GetDevice();
-    const auto t = x1->Dims()[1]; // seq_len
+    const auto t
+        = x1->Dims()[1] * (is_first_stage ? 1 : nn::parallel::global::GetSequenceParallelSize()); // full_seq_len
     CHECK_LE(t, config_.block_size) << "Cannot forward sequence of length " << t << ", block size is only "
                                     << config_.block_size;
 
diff --git a/infini_train/include/nn/parallel/global.h b/infini_train/include/nn/parallel/global.h
@@ -43,6 +43,8 @@ class GlobalEnv {
 
     int tensor_parallel_size() const;
 
+    int sequence_parallel_size() const;
+
     bool sequence_parallel_enabled() const;
 
     int data_parallel_size() const;
@@ -94,6 +96,7 @@ inline int GetGlobalProcRank() { return GlobalEnv::Instance().global_proc_rank()
 inline int GetLocalProcRank() { return GlobalEnv::Instance().local_proc_rank(); }
 
 inline int GetTensorParallelSize() { return GlobalEnv::Instance().tensor_parallel_size(); }
+inline int GetSequenceParallelSize() { return GlobalEnv::Instance().sequence_parallel_size(); }
 inline bool GetSequenceParallelEnabled() { return GlobalEnv::Instance().sequence_parallel_enabled(); }
 inline int GetDataParallelSize() { return GlobalEnv::Instance().data_parallel_size(); }
 inline int GetPipelineParallelSize() { return GlobalEnv::Instance().pipeline_parallel_size(); }
diff --git a/infini_train/include/nn/parallel/process_group.h b/infini_train/include/nn/parallel/process_group.h
@@ -35,7 +35,7 @@ class ProcessGroup {
 
     ~ProcessGroup();
 
-    int GetGroupRank(int thread_rank) const;
+    int GetGroupRank(int global_rank) const;
 
     // Communication operations
     void AllReduce(const std::shared_ptr<Tensor> &tensor, function::ReduceOpType reduce_op) const;
@@ -63,8 +63,6 @@ class ProcessGroup {
     // Async communication functions
     std::shared_ptr<Work> AllReduceAsync(const std::shared_ptr<Tensor> &tensor, function::ReduceOpType reduce_op) const;
 
-    void Barrier() const;
-
 private:
     void InitSingleProcess(const std::vector<int> &ranks);
 
@@ -79,7 +77,7 @@ class ProcessGroup {
 
     std::unordered_map<const Device *, ncclComm_t> device_comm_map_;
     std::unordered_map<const Device *, cudaStream_t> device_stream_map_;
-    std::unordered_map<int, int> thread_group_rank_map_; // thread_rank : group_rank
+    std::unordered_map<int, int> global_group_rank_map_; // global_rank : group_rank
 
     int world_size_ = 0;
 
diff --git a/infini_train/src/nn/parallel/global.cc b/infini_train/src/nn/parallel/global.cc
@@ -2,7 +2,6 @@
 
 #include <cstdlib>
 #include <format>
-#include <nccl.h>
 #include <string>
 
 #include "glog/logging.h"
@@ -152,6 +151,11 @@ int GlobalEnv::tensor_parallel_size() const {
     return tensor_parallel_size_;
 }
 
+int GlobalEnv::sequence_parallel_size() const {
+    CHECK(initialized_) << "GlobalEnv is not initialized!";
+    return sequence_parallel_enabled_ ? tensor_parallel_size_ : 1;
+}
+
 bool GlobalEnv::sequence_parallel_enabled() const {
     CHECK(initialized_) << "GlobalEnv is not initialized!";
     return sequence_parallel_enabled_;
@@ -186,39 +190,6 @@ inline int NumGroups(const Layout &L, Axis target) {
 }
 } // namespace
 
-inline void AppendAxisGroups(std::ostringstream &oss, const Layout &L, Axis target) {
-    const int num_groups = NumGroups(L, target);
-    const auto name = AxisName(target);
-    oss << std::format("[{}] size={}, num_groups={}\n", name, L.sizes[target], num_groups);
-
-    for (int dp = 0; dp < (target == DP ? 1 : L.sizes[DP]); ++dp) {
-        for (int tp = 0; tp < (target == TP ? 1 : L.sizes[TP]); ++tp) {
-            for (int pp = 0; pp < (target == PP ? 1 : L.sizes[PP]); ++pp) {
-                const int gid = L.GroupId(target, dp, tp, pp);
-                auto ranks = L.GroupRanks(target, dp, tp, pp);
-                std::sort(ranks.begin(), ranks.end());
-
-                auto dp_size_str = (target == DP) ? "-" : std::to_string(dp);
-                auto tp_size_str = (target == TP) ? "-" : std::to_string(tp);
-                auto pp_size_str = (target == PP) ? "-" : std::to_string(pp);
-
-                std::string ranks_str;
-                ranks_str.reserve(ranks.size() * 4);
-
-                for (size_t i = 0; i < ranks.size(); ++i) {
-                    if (i > 0) {
-                        ranks_str += ", ";
-                    }
-                    ranks_str += std::to_string(ranks[i]);
-                }
-
-                oss << std::format("  - {} {} (dp={}, tp={}, pp={}): [{}]\n", name, gid, dp_size_str, tp_size_str,
-                                   pp_size_str, ranks_str);
-            }
-        }
-    }
-}
-
 std::string ProcessGroupOverview(const Layout &L, bool skip_trivial_axes) {
     std::ostringstream oss;
     oss << std::format("\n=== Parallel Communication Groups ===\n"
diff --git a/infini_train/src/nn/parallel/pp/pipeline_schedule.cc b/infini_train/src/nn/parallel/pp/pipeline_schedule.cc
@@ -2,6 +2,7 @@
 #include "infini_train/include/nn/parallel/pp/pipeline_schedule.h"
 
 #include <cstddef>
+#include <cstdint>
 #include <memory>
 #include <vector>
 
diff --git a/infini_train/src/nn/parallel/process_group.cc b/infini_train/src/nn/parallel/process_group.cc
@@ -127,7 +127,7 @@ void ProcessGroup::InitSingleProcess(const std::vector<int> &ranks) {
         auto device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, ranks[i]);
         devices_.push_back(device);
         device_comm_map_[device] = comms_[i];
-        thread_group_rank_map_[device->rank().thread_rank()] = i;
+        global_group_rank_map_[device->rank().GlobalRank()] = i;
     }
 }
 
@@ -162,7 +162,7 @@ void ProcessGroup::InitMultiProcess(const std::vector<int> &ranks) {
             comms_.push_back(comm);
 
             auto device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, i);
-            thread_group_rank_map_[device->rank().thread_rank()] = group_rank;
+            global_group_rank_map_[device->rank().GlobalRank()] = group_rank;
             devices_.push_back(device);
             device_comm_map_[device] = comm;
         }
@@ -183,7 +183,7 @@ void ProcessGroup::InitStreams() {
     }
 }
 
-int ProcessGroup::GetGroupRank(int thread_rank) const { return thread_group_rank_map_.at(thread_rank); }
+int ProcessGroup::GetGroupRank(int global_rank) const { return global_group_rank_map_.at(global_rank); }
 
 void ProcessGroup::AllReduce(const std::shared_ptr<Tensor> &tensor, function::ReduceOpType reduce_op) const {
     void *buffer = tensor->DataPtr();
@@ -475,21 +475,6 @@ std::shared_ptr<Work> ProcessGroup::AllReduceAsync(const std::shared_ptr<Tensor>
     return std::move(work);
 }
 
-void ProcessGroup::Barrier() const {
-    // NOTE(dcj): use ncclAllreduce to barrier all processes before destroying the communicators
-    // FIXME(dcj): should only call by one rank
-    int dummy = 1;
-    std::vector<int> results(1, 0);
-
-    NCCL_CHECK(ncclGroupStart());
-    for (const auto &device : devices_) {
-        device->SetDevice();
-        auto comm = device_comm_map_.at(device);
-        auto cuda_dev = dynamic_cast<const CudaDevice *>(device);
-        NCCL_CHECK(ncclAllReduce(&dummy, &dummy, 1, ncclInt, ncclSum, comm, cuda_dev->Stream()));
-    }
-    NCCL_CHECK(ncclGroupEnd());
-}
 #endif
 
 ProcessGroupFactory *ProcessGroupFactory::Instance() {
diff --git a/infini_train/src/nn/parallel/tensor_parallel.cc b/infini_train/src/nn/parallel/tensor_parallel.cc
diff --git a/tools/infini_run/infini_run.cc b/tools/infini_run/infini_run.cc