jd-opensource
diff --git a/‎xllm/core/framework/model/causal_lm.h‎
Lines changed: 12 additions & 16 deletions b/‎xllm/core/framework/model/causal_lm.h‎
Lines changed: 12 additions & 16 deletions
diff --git a/‎xllm/core/framework/model/causal_vlm.h‎
Lines changed: 6 additions & 8 deletions b/‎xllm/core/framework/model/causal_vlm.h‎
Lines changed: 6 additions & 8 deletions
diff --git a/‎xllm/core/framework/model_context.cpp‎
Lines changed: 2 additions & 11 deletions b/‎xllm/core/framework/model_context.cpp‎
Lines changed: 2 additions & 11 deletions
diff --git a/‎xllm/core/layers/npu/npu_base_layer.cpp‎
Lines changed: 17 additions & 21 deletions b/‎xllm/core/layers/npu/npu_base_layer.cpp‎
Lines changed: 17 additions & 21 deletions
diff --git a/‎xllm/core/layers/npu/npu_base_layer.h‎
Lines changed: 4 additions & 6 deletions b/‎xllm/core/layers/npu/npu_base_layer.h‎
Lines changed: 4 additions & 6 deletions
@@ -43,11 +43,10 @@ class CausalLM : public torch::nn::Module {
   // tokens: [num_tokens]
   // positions: [num_tokens]
   // returns: [num_tokens, hidden_size]
-  virtual torch::Tensor forward(
-      const std::vector<torch::Tensor>& tokens,
-      const std::vector<torch::Tensor>& positions,
-      std::vector<KVCache>& kv_caches,
-      const std::vector<ModelInputParams>& parameters) = 0;
+  virtual torch::Tensor forward(const torch::Tensor& tokens,
+                                const torch::Tensor& positions,
+                                std::vector<KVCache>& kv_caches,
+                                const ModelInputParams& parameters) = 0;
 
   // hidden_states: [num_tokens, hidden_size]
   // seleted_idxes: [num_tokens]
@@ -68,9 +67,8 @@ class CausalLM : public torch::nn::Module {
 
   virtual layer::LmHead get_lm_head() = 0;
   virtual void set_lm_head(layer::LmHead& head) = 0;
-  virtual std::vector<layer::WordEmbedding> get_word_embedding() = 0;
-  virtual void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) = 0;
+  virtual layer::WordEmbedding get_word_embedding() = 0;
+  virtual void set_word_embedding(layer::WordEmbedding& embedding) = 0;
 };
 
 template <typename Model>
@@ -79,11 +77,10 @@ class CausalLMImpl : public CausalLM {
   CausalLMImpl(Model model, const torch::TensorOptions& options)
       : model_(std::move(model)), options_(options) {}
 
-  torch::Tensor forward(
-      const std::vector<torch::Tensor>& tokens,
-      const std::vector<torch::Tensor>& positions,
-      std::vector<KVCache>& kv_caches,
-      const std::vector<ModelInputParams>& parameters) override {
+  torch::Tensor forward(const torch::Tensor& tokens,
+                        const torch::Tensor& positions,
+                        std::vector<KVCache>& kv_caches,
+                        const ModelInputParams& parameters) override {
     return model_->forward(tokens, positions, kv_caches, parameters);
   }
 
@@ -109,12 +106,11 @@ class CausalLMImpl : public CausalLM {
 
   void set_lm_head(layer::LmHead& head) override { model_->set_lm_head(head); };
 
-  std::vector<layer::WordEmbedding> get_word_embedding() override {
+  layer::WordEmbedding get_word_embedding() override {
     return model_->get_word_embedding();
   };
 
-  void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) override {
+  void set_word_embedding(layer::WordEmbedding& embedding) override {
     model_->set_word_embedding(embedding);
   };
 
 
@@ -40,11 +40,10 @@ class CausalVLMImpl : public CausalVLM {
   CausalVLMImpl(Model model, const torch::TensorOptions& options)
       : model_(std::move(model)), options_(options) {}
 
-  torch::Tensor forward(
-      const std::vector<torch::Tensor>& tokens,
-      const std::vector<torch::Tensor>& positions,
-      std::vector<KVCache>& kv_caches,
-      const std::vector<ModelInputParams>& parameters) override {
+  torch::Tensor forward(const torch::Tensor& tokens,
+                        const torch::Tensor& positions,
+                        std::vector<KVCache>& kv_caches,
+                        const ModelInputParams& parameters) override {
     return model_->forward(tokens, positions, kv_caches, parameters);
   }
 
@@ -68,12 +67,11 @@ class CausalVLMImpl : public CausalVLM {
 
   void set_lm_head(layer::LmHead& head) override { model_->set_lm_head(head); };
 
-  std::vector<layer::WordEmbedding> get_word_embedding() override {
+  layer::WordEmbedding get_word_embedding() override {
     return model_->get_word_embedding();
   };
 
-  void set_word_embedding(
-      std::vector<layer::WordEmbedding>& embedding) override {
+  void set_word_embedding(layer::WordEmbedding& embedding) override {
     model_->set_word_embedding(embedding);
   };
 
 
@@ -40,17 +40,8 @@ ModelContext::ModelContext(const ParallelArgs& input_parallel_args,
   int32_t device_id = tensor_options.device().index();
   aclError ret = aclrtSetDevice(device_id);
   atb::CreateContext(&context_);
-  std::vector<aclrtStream> streams;
-  streams.push_back(c10_npu::getCurrentNPUStream(device_id).stream());
-  for (int i = 0; i < 1; ++i) {
-    aclrtStream sub_stream;
-    aclError ret = aclrtCreateStream(&sub_stream);
-    if (ret != ACL_ERROR_NONE) {
-      ATB_SPEED_LOG_ERROR("Failed to create aclrtStream: " << ret);
-    }
-    streams.push_back(sub_stream);
-  }
-  context_->SetExecuteStreams(streams);
+  void* stream = c10_npu::getCurrentNPUStream(device_id).stream();
+  context_->SetExecuteStream(stream);
   context_->SetAsyncTilingCopyStatus(true);
 #endif
 }
 
@@ -32,11 +32,10 @@ NpuBaseLayer::NpuBaseLayer(const ModelContext& context) : BaseLayer(context) {
   work_space_ = AtbWorkspace(device_);
 }
 
-atb::Status NpuBaseLayer::execute_node(
-    atb_speed::Model::Node& node,
-    int node_id,
-    std::vector<aclrtEvent*> event,
-    std::vector<std::atomic<bool>*> event_flag) {
+atb::Status NpuBaseLayer::execute_node(atb_speed::Model::Node& node,
+                                       int node_id,
+                                       aclrtEvent* event,
+                                       std::atomic<bool>* event_flag) {
   // TODO（by [email protected]): Stream management needs to be refactored
   // for better separation of concerns Current issues:
   // 1. ACLGraph capture requires execution on a non-default stream, so we
@@ -93,28 +92,25 @@ atb::Status NpuBaseLayer::execute_node(
   return st;
 }
 
-atb::Status NpuBaseLayer::execute_plan(
-    const atb_speed::Model::Node& node,
-    const std::string& op_name,
-    std::vector<aclrtEvent*> event,
-    std::vector<std::atomic<bool>*> event_flag) {
+atb::Status NpuBaseLayer::execute_plan(const atb_speed::Model::Node& node,
+                                       const std::string& op_name,
+                                       aclrtEvent* event,
+                                       std::atomic<bool>* event_flag) {
   atb::Status st = node.operation->Execute(
       node.variantPack, (uint8_t*)node.workspace, node.workspaceSize, context_);
   LOG_IF(ERROR, st != 0) << name_ << " execute plan fail, error code: " << st;
-  for (auto i = 0; i < event.size(); ++i) {
-    if (st == 0 && event[i] != nullptr) {
-      aclrtStream stream = context_->GetExecuteStream();
+  if (st == 0 && event != nullptr) {
+    aclrtStream stream = context_->GetExecuteStream();
 
-      aclrtEvent* aclrt_event = reinterpret_cast<aclrtEvent*>(event[i]);
+    aclrtEvent* aclrt_event = reinterpret_cast<aclrtEvent*>(event);
 
-      auto ret = aclrtRecordEvent(*aclrt_event, stream);
-      if (ret != ACL_SUCCESS) {
-        LOG(ERROR) << "Record event failed.";
-        return st;
-      }
-
-      event_flag[i]->store(true, std::memory_order_release);
+    auto ret = aclrtRecordEvent(*aclrt_event, stream);
+    if (ret != ACL_SUCCESS) {
+      LOG(ERROR) << "Record event failed.";
+      return st;
     }
+
+    event_flag->store(true, std::memory_order_release);
   }
 
   return st;
 
@@ -61,15 +61,13 @@ class NpuBaseLayer : public BaseLayer {
 
   atb::Status execute_node(atb_speed::Model::Node& node,
                            int nodeId = 0,
-                           std::vector<aclrtEvent*> event = {nullptr, nullptr},
-                           std::vector<std::atomic<bool>*> event_flag = {
-                               nullptr,
-                               nullptr});
+                           aclrtEvent* event = nullptr,
+                           std::atomic<bool>* event_flag = nullptr);
 
   atb::Status execute_plan(const atb_speed::Model::Node& node,
                            const std::string& op_name,
-                           std::vector<aclrtEvent*> event,
-                           std::vector<std::atomic<bool>*> event_flag);
+                           aclrtEvent* event,
+                           std::atomic<bool>* event_flag);
 
   virtual void run_task(std::string taskName,
                         std::function<int()> task) const override;